热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python开源机器学习框架:Scikit-learn入门指南

本文作者:恒亮2017-01-2210:23导语:基于SciPy的众多分支版本中,最有名,也是专门面向机器学习的就是Scikit-learn。本文将简单

本文作者:恒亮 2017-01-22 10:23
导语:基于SciPy的众多分支版本中,最有名,也是专门面向机器学习的就是Scikit-learn。

本文将简单介绍Scikit-learn框架的六大功能,安装和运行Scikit-learn的大概步骤,同时为后续各更深入地学习Scikit-learn提供参考。原文来自infoworld网站的特约撰稿人Martin Heller,他曾在1986-2010年间做过长达20多年的数据库、通用软件和网页开发,具有丰富的开发经验。

Scikit-learn的六大功能

Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。

分类是指识别给定对象的所属类别,属于监督学习的范畴,最常见的应用场景包括垃圾邮件检测和图像识别等。目前Scikit-learn已经实现的算法包括:支持向量机(SVM),最近邻,逻辑回归,随机森林,决策树以及多层感知器(MLP)神经网络等等。

需要指出的是,由于Scikit-learn本身不支持深度学习,也不支持GPU加速,因此这里对于MLP的实现并不适合于处理大规模问题。有相关需求的读者可以查看同样对Python有良好支持的Keras和Theano等框架。

回归是指预测与给定对象相关联的连续值属性,最常见的应用场景包括预测药物反应和预测股票价格等。目前Scikit-learn已经实现的算法包括:支持向量回归(SVR),脊回归,Lasso回归,弹性网络(Elastic Net),最小角回归(LARS ),贝叶斯回归,以及各种不同的鲁棒回归算法等。可以看到,这里实现的回归算法几乎涵盖了所有开发者的需求范围,而且更重要的是,Scikit-learn还针对每种算法都提供了简单明了的用例参考。

聚类是指自动识别具有相似属性的给定对象,并将其分组为集合,属于无监督学习的范畴,最常见的应用场景包括顾客细分和试验结果分组。目前Scikit-learn已经实现的算法包括:K-均值聚类,谱聚类,均值偏移,分层聚类,DBSCAN聚类等。

数据降维是指使用主成分分析(PCA)、非负矩阵分解(NMF)或特征选择等降维技术来减少要考虑的随机变量的个数,其主要应用场景包括可视化处理和效率提升。

模型选择是指对于给定参数和模型的比较、验证和选择,其主要目的是通过参数调整来提升精度。目前Scikit-learn实现的模块包括:格点搜索,交叉验证和各种针对预测误差评估的度量函数。

数据预处理是指数据的特征提取和归一化,是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量,但因为大多数时候都做不到精确等于零,因此会设置一个可接受的范围,一般都要求落在0-1之间。而特征提取是指将文本或图像数据转换为可用于机器学习的数字变量。

需要特别注意的是,这里的特征提取与上文在数据降维中提到的特征选择非常不同。特征选择是指通过去除不变、协变或其他统计上不重要的特征量来改进机器学习的一种方法。

总结来说,Scikit-learn实现了一整套用于数据降维,模型选择,特征提取和归一化的完整算法/模块,虽然缺少按步骤操作的参考教程,但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。


安装和运行Scikit-learn

如前所述,Scikit-learn需要NumPy和SciPy等其他包的支持,因此在安装Scikit-learn之前需要提前安装一些支持包,具体列表和教程可以查看Scikit-learn的官方文档:  http://scikit-learn.org/stable/install.html  ,以下仅列出Python、NumPy和SciPy等三个必备包的安装说明。

Python:https://www.python.org/about/gettingstarted/

NumPy:http://www.numpy.org/

SciPy:http://www.scipy.org/install.html

假定已经完整安装了所有支持包,那么利用安装Scikit-learn只需要简单的一条简单的pip命令(也可以用conda命令,详见官方文档):

$ sudo pip install -U scikit-learn

这里加上sudo是为了避免安装过程中出现一些权限问题,如果用户已经确保了管理员权限也可以省略。

当然,开发者也可以选择自己到GitHub开源平台上下载Scikit-learn的源代码,解压后在根目录键入make自行编译和连接可执行文件,效果是一样的。另外,为了确保测试方便,高级用户还可以选择安装针对Python的测试框架nose,安装方法详见其官方说明: http://nose.readthedocs.io/en/latest/  。

通过Jupyter Notebook工具运行Scikit-learn样例的过程也很简单,用户只需要在官方给出的样例库: http://scikit-learn.org/stable/auto_examples/index.html#general-examples  选择一个样例,然后在页面中下载其Python源码和IPython notebook文件,借着通过Jupyter Notebook工具运行就可以了。假如选择了交叉验证预测的样例,那么其运行情况的截图如下所示。



原作者在这里表示,Scikit-learn是他测试过的最简单易用的机器学习框架。他表示,Scikit-learn样例的运行结果和文档描述一模一样,API接口的设计合理且一致性高,而且几乎不存在“阻抗不匹配”的数据结构,使用这种功能完善且几乎没有Bug的开源框架进行机器学习研究,无疑是一件值得高兴的事。

更深入地学习Scikit-learn

如前所述,Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档,据官方的统计大约有200多个。而且为了清晰明白,绝大多数样例都至少给出了一张由Matplotlib绘制的数据图表。这些都是官方提供的学习Scikit-learn框架最直接有效的学习材料。

针对科学数据处理的应用场景,官方还给出了一个更为详细和全面的参考教程:A tutorial on statistical-learning for scientific data processing,其中包括统计学习、监督学习、模型选择和无监督学习等若干部分,内容覆盖全面,讲解细致,并且使用了真实的数据、代码和图表。

另外,教程中还调用了与文本相关的样例,例如下图所示的四个不同SVM分类器的比较。




这里需要指出的是,虽然运行Scikit-learn官方给出的样例后通常都能得到一致的结果,但大多数情况下系统都会抛出警告信息。作者认为抛出警告信息的原因来自两个方面:一是苹果vecLib框架本身对Scikit-learn支持不好(作者用的是MacOS),二是样例中使用的Python版本可能是早期的版本,而实际运行中是最新的版本。例如下图中是使用Python 2.7.10版本抛出的警告信息,而Scikit-learn官方页面上并没有出现。



总体上来说,作为专门面向机器学习的Python开源框架,Scikit-learn可以在一定范围内为开发者提供非常好的帮助。它内部实现了各种各样成熟的算法,容易安装和使用,样例丰富,而且教程和文档也非常详细。

另一方面,Scikit-learn也有缺点。例如它不支持深度学习和强化学习,这在今天已经是应用非常广泛的技术,例如准确的图像分类和可靠的实时语音识别和语义理解等。此外,它也不支持图模型和序列预测,不支持Python之外的语言,不支持PyPy,也不支持GPU加速。

看到这里可能会有人担心Scikit-learn的性能表现,这里需要指出的是:如果不考虑多层神经网络的相关应用,Scikit-learn的性能表现是非常不错的。究其原因,一方面是因为其内部算法的实现十分高效,另一方面或许可以归功于Cython编译器:通过Cython在Scikit-learn框架内部生成C语言代码的运行方式,Scikit-learn消除了大部分的性能瓶颈。

应该明确的一点是:虽然概括地说Scikit-learn并不适合深度学习问题,但对于某些特殊场景而言,使用Scikit-learn仍然是明智的选择。例如要创建连接不同对象的预测函数时,或者在未标记的数据集中为了训练模型对不同的对象进行分类时,面对这些场景Scikit-learn只通过普通的旧机器学习模型就能很好地解决,而并不需要建立数十层的复杂神经网络。

就好像喜欢Scala语言的人会选择Spark ML,喜欢绘制图表和偶尔编写少量Python/R语言代码的人会选择微软Cortana和Azure一样,对于那些Python语言的死忠粉而言,Scikit-learn可能是各种机器学习库中的最好选择。雷锋网雷锋网(公众号:雷锋网)






推荐阅读
  • 安装Tensorflow-GPU文档第一步:通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]
  • 本文介绍了JavaScript进化到TypeScript的历史和背景,解释了TypeScript相对于JavaScript的优势和特点。作者分享了自己对TypeScript的观察和认识,并提到了在项目开发中使用TypeScript的好处。最后,作者表示对TypeScript进行尝试和探索的态度。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 通过Anaconda安装tensorflow,并安装运行spyder编译器的完整教程
    本文提供了一个完整的教程,介绍了如何通过Anaconda安装tensorflow,并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统,并提供了相关的网址供参考。通过本教程,读者可以轻松地安装和配置tensorflow环境,以及运行spyder编译器进行开发。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
  • 本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题,并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息,同时也提到了相关的警告信息和函数的替代方案。通过阅读本文,读者可以了解到如何解决Python连接服务器失败的问题,并对aiohttp模块有更深入的了解。 ... [详细]
  • imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解
    本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台,然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程,包括编译内核和配置设备驱动。最后,列举了关键词和相关信息供读者参考。 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本)安装教程 ... [详细]
  • Opencv提供了几种分类器,例程里通过字符识别来进行说明的1、支持向量机(SVM):给定训练样本,支持向量机建立一个超平面作为决策平面,使得正例和反例之间的隔离边缘被最大化。函数原型:训练原型cv ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 程序分析与优化9附录XLA的缓冲区指派
    本章是系列文章的案例学习,不属于正篇,主要介绍了TensorFlow引入的XLA的优化算法。XLA也有很多局限性,XLA更多的是进行合并,但有时候如果参数特别多的场景下,也需要进行 ... [详细]
author-avatar
何处逐梦_273
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有