热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深入机器学习前,这6个框架你得了解!

深入机器学习前,这6个框架你得了解!

2017-07-10 爱学习像爱生命的 StuQ

深入机器学习前,这6个框架你得了解!

来源| IT168文库编辑| Emily隔壁家的老铁又要放大招了!

机器学习框架和深度学习框架之间是有区别的。本质上,机器学习框架涵盖用于分类,回归,聚类,异常检测等各种学习方法,并且其可以不包括神经网络方法。深度学习或深度神经网络(DNN)框架涵盖具有许多隐藏层的神经网络拓扑。层越多,可用于聚类和分类的特征越复杂。

Caffe,CNTK,DeepLearning4j,Keras,MXNet和TensorFlow是深度学习框架。Scikit-learning和Spark MLlib是机器学习框架。而Theano跨越了这两个类别。一般来说,简单的机器学习方法不需要GPU加速。虽然你可以在一个或多个CPU上训练DNN,但这种训练往往是缓慢的,需要训练的神经元和层越多,可用于训练的数据越多,需要的时间就越长。

Caffe

Caffe深度学习项目,最初是一个强大的图像分类框架,目前似乎停滞不前,它已被卡在1.0版RC3一年多了,并且其创始人已离开该项目 。但它仍然有良好的卷积网络图像识别和良好的Nvidia CUDA GPU支持。但它的模型通常需要大量的GPU内存(超过1GB)运行。

Caffe有命令行,Python和Matlab接口,它依靠ProtoText文件来定义模型和解算器。Caffe在其自己的模型模式中逐层定义网络。当数据和派生数据向前向后遍历网络时,Caffe存储,通信和操作信息为blob(二进制对象),内部是以C连续方式存储的N维数组。Caffe已经证明其在图像分类中的有效性,但它的鼎盛时期似乎已经过去了。除非现有的Caffe模型符合你的需要,或者可以根据你的目的进行微调,否则,我建议使用TensorFlow,MXNet或CNTK。

Microsoft认知工具包

Microsoft Cognitive Toolkit是一个快速的易使用的深度学习软件包,但与TensorFlow相比,其范围有限。它有各种各样的模型和算法,极好的支持Python和Jupyter notebook,一个有趣的声明性BrainScript神经网络配置语言,以及在Windows和Ubuntu Linux上可自动部署。

在缺点方面,当我审查Beta 1文档时发现还没完全更新到CNTK 2,并且包没有MacOS支持。虽然自Beta 1以来,CNTK 2有许多改进,包括新的内存压缩模式,以减少GPU和新的Nuget安装包的内存使用,但MacOS支持仍然缺失。

CNTK 2组件可以处理来自Python,C ++或BrainScript的多维密集或稀疏数据。认知工具包包括各种各样的神经网络类型:FFN(前馈),CNN(卷积),RNN / LSTM(递归/长期短期记忆)等。它支持强化学习,生成监督和非监督学习,自动超参数调整,以及从Python添加新的,用户定义的核心组件在GPU上的能力。它能够在多个GPU和机器上做到精确的并行。

MXNet

MXNet是一个便携式,可扩展的深度学习库,是亚马逊推出的DNN框架选择。MXNet可跨多个主机扩展到多个GPU,线性扩展效率接近85%,具有出色的开发速度,可编程性和可移植性。它不同程度的支持Python,R,Scala,Julia和C ++,它允许混合命令式编程风格。MXNet目前支持在Python,R,Scala,Julia和C ++中构建和训练模型,训练的MXNet模型也可以用于Matlab和Javascript中的预测。无论选择哪种语言来构建模型,MXNet都会调用优化的C ++后端引擎。

Scikit-learn

Scikit-learn Python框架有广泛的可靠的机器学习算法,但没有深入学习。如果你是一个Python的粉丝,Scikit-learn可能是你最好的选择。Scikit-learn是一个强大的,成熟的机器学习库与各种各样的成熟算法集成。它相对容易安装,学习和使用,它有很好的例子和教程。

另一方面,Scikit-learn不包括深度学习或强化学习,缺少图形模型和序列预测,并且不能真正使用除Python之外的语言。它不支持PyPy,Python即时编译器或GPU。它使用Cython来处理快速函数,例如内循环。

Spark MLlib

Spark MLlib是Spark的开源机器学习库,提供常见的机器学习算法,如分类,回归,聚类和协同过滤(但不包括DNN)以及特征提取,转换,维数缩减以及构建,评估和调整机器学习管道。Spark MLlib还包括用于保存和加载算法,用于数据处理以及进行线性代数和统计的实用程序。

Spark MLlib是在Scala中编写的,并使用线性代数包BreezeBreeze依靠netlib-java来优化数值处理,虽然在开源分布中意味着优化使用CPU。Databricks提供与GPU配合使用的定制Spark集群,这有可能带来一个10倍的速度改进,用于训练具有大数据的复杂机器学习模型。

Spark MLlib拥有针对Scala和Java的完整API,主要是针对Python的完整API以及针对R的部分API。可以通过计算示例来获得良好的覆盖率:54个Java和60个Scala机器学习示例,52个Python 机器学习示例,5个R示例。

TensorFlow

TensorFlow,Google的便携式机器学习和神经网络库,执行和扩展很好,虽然它有点难学。TensorFlow拥有各种各样的模型和算法,并且在具有GPU(用于培训)或Google TPU(用于生产规模预测)的硬件上具有出色的性能。它还具有对Python的良好支持,良好的文档和软件,用于显示和理解描述其计算TensorBoard的数据流图。

TensorFlow可以方便地处理各种神经网络,包括目前正在转换图像识别和语言处理领域的深度CNN和LSTM循环模型。调试异步网络求解器非常简单,TensorBoard软件可以帮助可视化图形。


深入机器学习前,这6个框架你得了解!

从Caffe,Microsoft Cognitive Toolkit,MXNet和TensorFlow的深度学习包中选择一个是很困难的决定。我不建议选择Caffe,因为它的发展停滞不前。然而,选择其他三个中的一个也很棘手。

Cognitive Toolkit现在有Python和C ++ API以及网络配置语言BrainScript。 如果喜欢使用配置文件,那么Cognitive Toolkit可能是一个不错的选择。但它似乎不像TensorFlow一样成熟,它不能在MacOS上运行。MXNet支持Python,R,Scala,Julia和C ++,但其最支持的API是用于Python的。MXNet在多个主机的多个GPU上展现出良好的扩展性(85%的线性)。

TensorFlow可能是三个包中最成熟的,并且它是一个很好的选择,TensorFlow有基本的构建块,但也需要写大量的代码来描述一个神经网络。有三个简化的API与TensorFlow一起来解决这个问题:tf.contrib.learn,TF-Slim和Keras。支持TensorFlow的最终考虑是TensorBoard,这对于可视化和理解数据流图非常有用。


看完觉得很涨姿势?

为了让大家更深入的掌握机器学习经典框架及其用法StuQ在7月11日20:00-21:00,推出公开课《1小时入门机器学习经典框架》。

原价99元现在免费开放给大家,快添加海报中二维码报名吧~


深入机器学习前,这6个框架你得了解!

长按二维码,添加小助手,得到听课地址~

图片来源:网络



推荐阅读
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 嵌入式处理器的架构与内核发展历程
    本文主要介绍了嵌入式处理器的架构与内核发展历程,包括不同架构的指令集的变化,以及内核的流水线和结构。通过对ARM架构的分析,可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • 本文介绍了使用哈夫曼树实现文件压缩和解压的方法。首先对数据结构课程设计中的代码进行了分析,包括使用时间调用、常量定义和统计文件中各个字符时相关的结构体。然后讨论了哈夫曼树的实现原理和算法。最后介绍了文件压缩和解压的具体步骤,包括字符统计、构建哈夫曼树、生成编码表、编码和解码过程。通过实例演示了文件压缩和解压的效果。本文的内容对于理解哈夫曼树的实现原理和应用具有一定的参考价值。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • 显卡驱动对游戏的影响及其提升效果的研究
    本文研究了显卡驱动对游戏体验的提升效果,通过比较新旧驱动加持下的RTX 2080Ti显卡在游戏体验上的差异。测试平台选择了i9-9900K处理器和索泰RTX 2080Ti玩家力量至尊显卡,以保证数据的准确性。研究结果表明,显卡驱动的更新确实能够带来近乎50%的性能提升,对于提升游戏体验具有重要意义。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
author-avatar
早晚虚文_114
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有