热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习团队常用工具总结,人生苦短,我用Python!

▼更多精彩推荐,请关注我们▼来源:reddit编辑:科雨、白峰本文经授权转自公众号新智元【新智元导读】现在国外现初创公司最频繁使用的机器学

更多精彩推荐,请关注我们

来源:reddit

编辑:科雨、白峰

本文经授权转自公众号    新智元

【新智元导读】现在国外现初创公司最频繁使用的机器学习工具是什么?本篇文章详细总结,带你全方位了解,想快速坐上人工智能顺风车的小伙伴们,请抓稳了!

有想法有创意,想快速自行发起项目?还在海量的工具包、软件、平台、库和各种插件上毫无头绪地寻觅?想加入初创公司一展身手,却找不到补课切入点?

苦苦自学却最后发现竟然是冷门技术?总是发愁资料掌握并不齐全?感叹AI实战技术发展太快,自己总是落伍?那这篇文章或许就很适合你!       

机器学习工具,初创公司最爱哪款?

近日,Reddit上一则帖子火了:发帖者详细总结了近几年初创公司的机器学习团队在各个环节使用的机器学习工具,从软件开发设置IDE,机器学习框架,到实验管理,可视化工具等等。

 

评论区也一片火爆,大家纷纷作出补充,极大的丰富了现有最新主流资源。

 

小伙伴们都知道,挑选最佳的各种工具,为机器学习团队建立起良好的工作栈,对于提高项目工作效率以及按时交付工作来说,非常重要。

如果小伙伴中有人在初创公司工作过,就会对建立起一个可以随团队进步,用户需求来快速发展的机器学习环境有着更加深刻的体会。

 

这里我们正好为大家做个总结,将当前主流初创公司使用的,前沿的,时兴的各种软件和插件,平台,工具包,算法等等,分享给大家!

 

为了使结构更加清晰,接下来,我们会将内容分成下面几个主题,一一介绍:

 

  • 软件开发设置(Software Development Setup)

  • 机器学习框架(Machine Learning Frameworks)

  • 机器学习模型管理(MLOps)

  • 其他

 

软件开发工具Jupyter最热

相信大家都有这么一种感觉:开发环境是每个团队工作流程的基础,因此,如果能了解在世界范围内,大部分公司认为的最佳工具有哪些,那就最好不过了!

 

IDE(集成开发环境)

 

对于集成开发环境(IDE),主要有两个阵营:

 

1 Jupyter Lab+NB扩展(偶尔带有Neepnote)+Colab

                          

 

2 Pycharm/VScode

                                        

(PS:当然,R Studio显然是R用户的忠实选择)

 

版本控制(Version Control)

 

那当然是每个程序员的家园—Github啦哈哈哈!

              

机器学习语言

 

经过统计,Python成为了最经常使用的语言,同时,还有一部分开发者在使用R语言~

 

机器学习经典框架依然受欢迎

 

面对花样百出,种类繁多的选择,现在海外的主流初创公司最经常使用的机器学习框架和库都有什么呢?

 

             

 

可视化:Pandas+Matplotlib+Plotly

 

这三个大名鼎鼎的工具包就不需要过多介绍了吧~这些工具可真的称得上机器学习可视化利器了。

              

除此之外,研究者还经常使用Altair( Python )和Hiplot( R, 超参数可视化 )

         

              

经典算法库:Sklearn+XGBoost

 

这两款机器学习库,包含了初创公司最经常使用的经典算法,也算是爆款工具了。

                          

深度学习:Tensorflow+Keras 或Pytorch

 

大火的Tensorflow和Pytorch终于出场了~相信任何一个搞深度的朋友都已经无比熟悉了吧。有的时候,在同一家公司的深度学习项目中中,这两种框架会出现同时存在的情况。

              

在这里,值得注意的是,越来越多的正在更加频繁地使用Pytorch训练库,比如Lightning, Ignite, Catalyst, Fastai和Skorch。

 

善用编排工具,管理好你的机器学习模型

 

看到这里,你可能在想:「什么是MLOps」,或者「为什么要关心这个玩意儿??」

 

             

 

其实,这个术语其实在指DevOps,在这里,用来描述用于机器学习活动和操作的工具。

 

那下面就来看看初创公司到底在用什么工具来进行机器学习的DevOps吧:

 

编排工具:Kubeflow,Airflow,Amazon Sagemaker,Azure

                                 

              

模型封装&部署:Kubeflow, MLflow, Amazon SageMaker

              

从训练到推断:Pytest-benchmark, MLperf

 

当开发人员将训练好的模型用于实际情况下的推断时,就会主要使用这两个工具对模型进行分析和优化。

 

            

 

              

实验管理:MLflow, Comet, Neptune

 

为了进行实验跟踪,研究者常常使用这些工具,除此之外,我们还能看到TensorBorad和Scared等等之类的开源软件包。

                           

有小伙伴还在评论里补充了Google Sheet。

              

整个机器学习流程,还是人最重要

 

相信上面的很多工具,比如Pytorch和Pandas,Jupyter Lab等等,已经在大家的预期之内了,那在对初创公司的采访中,还有什么在预期之外呢?

 

             

 

Wetware

 

在我们说这个到底是个啥之前,大家可以往后退一步,跳脱出具体的某个库某个框架,来从大局来看看:

 

初创公司Trust Insights的Christopher Penn说到,任何机器学习团队都会使用一种相当有趣的“工具”

 

——"湿件(Wetware)"——它位于您两个耳朵之间,是硬件和软件的组合,这是您拥有的最重要,最有用,最强大的机器学习工具“

 

到目前为止,太多人们希望AI是一把无所不能的魔杖,在几乎不需要人类输入的情况下,它可以解决一切问题。但是,反之亦然,人工智能比以往任何时候,都需要更多的管理和审查,因为,我们对复杂模型缺乏足够的了解。

 

在网络上爆发大量关于偏见和歧视的丑闻之后,可解释性是人工智能研究人员当前面临的最大挑战。

人工智能供应商通常专注于模型的事后(post hoc)解释(和具有内在可解释性的模型相比,事后解释就好比先训练一个黑盒模型,比如一个深度网络,然后应用一些可解释的方法,比如度量特征重要性,来作出“解释”),而不是在模型中构建解释和检查点。

 

所以呢?湿件(Wetare)——也就是人类,将是2020年,以及未来人工智能发展中,最有用的工具。

 

那直接说“多用脑子”不得了,还发明一个专业名词,果然显得高大上了一些...嗯,硅谷某些初创公司的脑回路就是不一样!

 

好啦,看到这里,大家还有什么想补充的吗?如果大家还有什么在实操中觉得特别好用的,可以留言评论哦~

 


近期开班情况

2020年6月28日


推荐阅读
  • 探索CNN的可视化技术
    神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN(卷积神经网络)可视化方法,旨在帮助读者更好地理解和优化模型。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • 如何高效学习鸿蒙操作系统:开发者指南
    本文探讨了开发者如何更有效地学习鸿蒙操作系统,提供了来自行业专家的建议,包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]
  • 本文回顾了作者在求职阿里和腾讯实习生过程中,从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历,还提供了宝贵的面试准备建议和技巧。 ... [详细]
  • Python3爬虫入门:pyspider的基本使用[python爬虫入门]
    Python学习网有大量免费的Python入门教程,欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]
  • 深入解析层次聚类算法
    本文详细介绍了层次聚类算法的基本原理,包括其通过构建层次结构来分类样本的特点,以及自底向上(凝聚)和自顶向下(分裂)两种主要的聚类策略。文章还探讨了不同距离度量方法对聚类效果的影响,并提供了具体的参数设置指导。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 使用 Jupyter Notebook 实现 Markdown 编写与代码运行
    Jupyter Notebook 是一个开源的基于网页的应用程序,允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码,并实时查看运行结果。 ... [详细]
  • 本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境,支持多种深度学习框架,并且提供免费的 GPU 计算资源。 ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
  • 本文探讨了在AspNetForums平台中实施基于角色的权限控制系统的方法,旨在为不同级别的用户提供合适的访问权限,确保系统的安全性和可用性。 ... [详细]
  • Excel技巧:单元格中显示公式而非结果的解决方法
    本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题,包括使用快捷键和调整单元格格式两种方法。 ... [详细]
  • 本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法,我们能够精确地得到所需的结果。 ... [详细]
  • 使用Python构建网页版图像编辑器
    本文详细介绍了一款基于Python开发的网页版图像编辑工具,具备多种图像处理功能,如黑白转换、铅笔素描效果等。 ... [详细]
  • 深入理解iOS中的链式编程:以Masonry为例
    本文通过介绍Masonry这一轻量级布局框架,探讨链式编程在iOS开发中的应用。Masonry不仅简化了Auto Layout的使用,还提高了代码的可读性和维护性。 ... [详细]
author-avatar
阿都欧巴
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有