Python开源机器学习框架：Scikit-learn入门指南

作者：何处逐梦_273 | 来源：互联网 | 2023-09-16 20:35

本文作者：恒亮2017-01-2210:23导语：基于SciPy的众多分支版本中，最有名，也是专门面向机器学习的就是Scikit-learn。本文将简单

本文作者：恒亮

2017-01-22 10:23

导语：基于SciPy的众多分支版本中，最有名，也是专门面向机器学习的就是Scikit-learn。

本文将简单介绍Scikit-learn框架的六大功能，安装和运行Scikit-learn的大概步骤，同时为后续各更深入地学习Scikit-learn提供参考。原文来自infoworld网站的特约撰稿人Martin Heller，他曾在1986-2010年间做过长达20多年的数据库、通用软件和网页开发，具有丰富的开发经验。

Scikit-learn的六大功能

Scikit-learn的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，模型选择和数据预处理。

分类是指识别给定对象的所属类别，属于监督学习的范畴，最常见的应用场景包括垃圾邮件检测和图像识别等。目前Scikit-learn已经实现的算法包括：支持向量机（SVM），最近邻，逻辑回归，随机森林，决策树以及多层感知器（MLP）神经网络等等。

需要指出的是，由于Scikit-learn本身不支持深度学习，也不支持GPU加速，因此这里对于MLP的实现并不适合于处理大规模问题。有相关需求的读者可以查看同样对Python有良好支持的Keras和Theano等框架。

回归是指预测与给定对象相关联的连续值属性，最常见的应用场景包括预测药物反应和预测股票价格等。目前Scikit-learn已经实现的算法包括：支持向量回归（SVR），脊回归，Lasso回归，弹性网络（Elastic Net），最小角回归（LARS ），贝叶斯回归，以及各种不同的鲁棒回归算法等。可以看到，这里实现的回归算法几乎涵盖了所有开发者的需求范围，而且更重要的是，Scikit-learn还针对每种算法都提供了简单明了的用例参考。

聚类是指自动识别具有相似属性的给定对象，并将其分组为集合，属于无监督学习的范畴，最常见的应用场景包括顾客细分和试验结果分组。目前Scikit-learn已经实现的算法包括：K-均值聚类，谱聚类，均值偏移，分层聚类，DBSCAN聚类等。

数据降维是指使用主成分分析（PCA）、非负矩阵分解（NMF）或特征选择等降维技术来减少要考虑的随机变量的个数，其主要应用场景包括可视化处理和效率提升。

模型选择是指对于给定参数和模型的比较、验证和选择，其主要目的是通过参数调整来提升精度。目前Scikit-learn实现的模块包括：格点搜索，交叉验证和各种针对预测误差评估的度量函数。

数据预处理是指数据的特征提取和归一化，是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量，但因为大多数时候都做不到精确等于零，因此会设置一个可接受的范围，一般都要求落在0-1之间。而特征提取是指将文本或图像数据转换为可用于机器学习的数字变量。

需要特别注意的是，这里的特征提取与上文在数据降维中提到的特征选择非常不同。特征选择是指通过去除不变、协变或其他统计上不重要的特征量来改进机器学习的一种方法。

总结来说，Scikit-learn实现了一整套用于数据降维，模型选择，特征提取和归一化的完整算法/模块，虽然缺少按步骤操作的参考教程，但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。

安装和运行Scikit-learn

如前所述，Scikit-learn需要NumPy和SciPy等其他包的支持，因此在安装Scikit-learn之前需要提前安装一些支持包，具体列表和教程可以查看Scikit-learn的官方文档： http://scikit-learn.org/stable/install.html ，以下仅列出Python、NumPy和SciPy等三个必备包的安装说明。

Python：https://www.python.org/about/gettingstarted/

NumPy：http://www.numpy.org/

SciPy：http://www.scipy.org/install.html

假定已经完整安装了所有支持包，那么利用安装Scikit-learn只需要简单的一条简单的pip命令（也可以用conda命令，详见官方文档）：

$ sudo pip install -U scikit-learn

这里加上sudo是为了避免安装过程中出现一些权限问题，如果用户已经确保了管理员权限也可以省略。

当然，开发者也可以选择自己到GitHub开源平台上下载Scikit-learn的源代码，解压后在根目录键入make自行编译和连接可执行文件，效果是一样的。另外，为了确保测试方便，高级用户还可以选择安装针对Python的测试框架nose，安装方法详见其官方说明： http://nose.readthedocs.io/en/latest/ 。

通过Jupyter Notebook工具运行Scikit-learn样例的过程也很简单，用户只需要在官方给出的样例库： http://scikit-learn.org/stable/auto_examples/index.html#general-examples 选择一个样例，然后在页面中下载其Python源码和IPython notebook文件，借着通过Jupyter Notebook工具运行就可以了。假如选择了交叉验证预测的样例，那么其运行情况的截图如下所示。

原作者在这里表示，Scikit-learn是他测试过的最简单易用的机器学习框架。他表示，Scikit-learn样例的运行结果和文档描述一模一样，API接口的设计合理且一致性高，而且几乎不存在“阻抗不匹配”的数据结构，使用这种功能完善且几乎没有Bug的开源框架进行机器学习研究，无疑是一件值得高兴的事。

更深入地学习Scikit-learn

如前所述，Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档，据官方的统计大约有200多个。而且为了清晰明白，绝大多数样例都至少给出了一张由Matplotlib绘制的数据图表。这些都是官方提供的学习Scikit-learn框架最直接有效的学习材料。

针对科学数据处理的应用场景，官方还给出了一个更为详细和全面的参考教程：A tutorial on statistical-learning for scientific data processing，其中包括统计学习、监督学习、模型选择和无监督学习等若干部分，内容覆盖全面，讲解细致，并且使用了真实的数据、代码和图表。

另外，教程中还调用了与文本相关的样例，例如下图所示的四个不同SVM分类器的比较。

这里需要指出的是，虽然运行Scikit-learn官方给出的样例后通常都能得到一致的结果，但大多数情况下系统都会抛出警告信息。作者认为抛出警告信息的原因来自两个方面：一是苹果vecLib框架本身对Scikit-learn支持不好（作者用的是MacOS），二是样例中使用的Python版本可能是早期的版本，而实际运行中是最新的版本。例如下图中是使用Python 2.7.10版本抛出的警告信息，而Scikit-learn官方页面上并没有出现。

总体上来说，作为专门面向机器学习的Python开源框架，Scikit-learn可以在一定范围内为开发者提供非常好的帮助。它内部实现了各种各样成熟的算法，容易安装和使用，样例丰富，而且教程和文档也非常详细。

另一方面，Scikit-learn也有缺点。例如它不支持深度学习和强化学习，这在今天已经是应用非常广泛的技术，例如准确的图像分类和可靠的实时语音识别和语义理解等。此外，它也不支持图模型和序列预测，不支持Python之外的语言，不支持PyPy，也不支持GPU加速。

看到这里可能会有人担心Scikit-learn的性能表现，这里需要指出的是：如果不考虑多层神经网络的相关应用，Scikit-learn的性能表现是非常不错的。究其原因，一方面是因为其内部算法的实现十分高效，另一方面或许可以归功于Cython编译器：通过Cython在Scikit-learn框架内部生成C语言代码的运行方式，Scikit-learn消除了大部分的性能瓶颈。

应该明确的一点是：虽然概括地说Scikit-learn并不适合深度学习问题，但对于某些特殊场景而言，使用Scikit-learn仍然是明智的选择。例如要创建连接不同对象的预测函数时，或者在未标记的数据集中为了训练模型对不同的对象进行分类时，面对这些场景Scikit-learn只通过普通的旧机器学习模型就能很好地解决，而并不需要建立数十层的复杂神经网络。

就好像喜欢Scala语言的人会选择Spark ML，喜欢绘制图表和偶尔编写少量Python/R语言代码的人会选择微软Cortana和Azure一样，对于那些Python语言的死忠粉而言，Scikit-learn可能是各种机器学习库中的最好选择。雷锋网雷锋网(公众号：雷锋网)

推荐阅读

ip
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
python
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
python
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
ip
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
text
Python 异步编程：ASGI 服务器与框架详解

自 Python 3.5 引入 async/await 语法以来，异步编程迅速崛起，吸引了大量开发者的关注。本文将深入探讨 ASGI（异步服务器网关接口）及其在现代 Python Web 开发中的应用，介绍主流的 ASGI 服务器和框架。 ... [详细]

蜡笔小新 2024-12-24 17:15:09
lua
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
shell
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
python
解决PyCharm中安装PyTorch深度学习d2l包的问题

本文详细介绍了如何在PyCharm中成功安装用于PyTorch深度学习的d2l包，包括环境配置、安装步骤及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-19 14:19:22
ip
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
text
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
ip
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
python
Android 8.x GMS认证中的CTS与VTS测试（针对GSI版本）

本文详细介绍了在Android 8.x中，GMS认证新增的CTS和VTS测试，特别是如何在VTS环境下测试GSI版本。文章涵盖了详细的测试环境配置和具体操作步骤。 ... [详细]

蜡笔小新 2024-12-26 12:51:10
python
百度AI Studio实战：利用高性能GPU集群进行线性回归

本文介绍百度AI Studio这一集成开发平台，涵盖丰富的AI教程、经典数据集及云端计算资源。通过具体示例——在AI Studio上构建线性回归项目，帮助初学者快速掌握其核心功能与操作方法。 ... [详细]

蜡笔小新 2024-12-20 06:24:41
range
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
chat
2017苹果全球开发者大会前瞻：iOS革新、Siri智能音箱与AI技术引领未来

2017年苹果全球开发者大会即将开幕，预计iOS将迎来重大更新，同时Siri智能音箱有望首次亮相，AI技术成为大会焦点。 ... [详细]

蜡笔小新 2024-12-18 18:02:27

何处逐梦_273

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章