热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【译Py】2018年8月,GitHub上的Python数据科学明星项目:自动化机器学习、自然语言处理、可视化、机器学习工作流

译,py,2018,年,8,月,github,上,的,python,数据,科学,明星,项目,自动化,机器,学习,自然,语言,处理,可,视,化,

原文作者:Matthew Mayo
原文地址:GitHub Python Data Science Spotlight: AutoML, NLP, Visualization, ML Workflows

img_c335e712aa5f2496a92adfb666192919.jpe
Python数据分析

本文是“五个不容忽视的机器学习项目”一文的续篇。和上篇文章相比,这次选出的项目涉及更多数据科学领域,并且都是GitHub上的开源项目,我们为每个项目都附上了Repo、文档和入门指南的链接,并对每个项目进行了简单介绍。
下面一起来了解一下这些新兴的热门Python库吧,希望本文对你的工作能有所帮助:

  1. Auto-Keras自动机器学习库
    项目链接:https://github.com/jhfjhfj1/autokeras
    文档:http://autokeras.com
    入门指南:https://autokeras.com/#example
    Auto-Keras是用于自动机器学习(AutoML)的开源软件库。自动机器学习的最终目标是让仅拥有一定数据科学知识或机器学习背景的行业专家可以轻松地应用深度学习模型。Auto-Keras提供了很多用于自动研究深度学习模型架构与超参数的函数。
  2. Finetune Scikit-Learn风格的自然语言处理模型微调器
    项目链接:https://github.com/IndicoDataSolutions/finetune
    文档:https://finetune.indico.io
    入门指南:https://finetune.indico.io
    Finetune提供了“通过生成式预训练改进对语言的理解”的预训练语言模型,并扩充了OpenAI/finetune-language-model库。
  3. GluonNLP - 让自然语言处理变得更简单
    项目链接:https://github.com/dmlc/gluon-nlp
    文档:http://gluon-nlp.mxnet.io
    入门指南: https://github.com/dmlc/gluon-nlp#quick-start-guide
    GluonNLP可以使文本处理、数据加载及构建神经模型变得更容易,加快自然语言处理研究的速度。
  4. animatplot - 基于Matplotlib的Python动图库
    项目链接:https://github.com/t-makaro/animatplot
    文档:https://animatplot.readthedocs.io/en/latest
    入门指南: https://animatplot.readthedocs.io/en/latest/tutorial/getting_started.html
    请注意,本库文档里的例子比较简单,本文引用的是该库在GitHub上列出的功能更全、形式更酷的示例图。
    img_37ebbad1a368b88b3cfcaf9afa3bcc5a.gif
    animatplot
  5. MLflow - 机器学习生命周期的开源平台
    项目链接:https://github.com/mlflow/mlflow
    文档:https://mlflow.org/docs/latest/index.html
    入门指南:https://mlflow.org/docs/latest/quickstart.html
    MLflow是用来管理机器学习整体生命周期的开源平台,这个平台提供了以下主要三个功能:
  • MLflow Tracking:跟踪实验,以用来记录和比较机器学习的参数。
  • MLflow Projects:以可复用、可再现的形式,将机器学习的代码进行打包,以便分享给其他数据科学家或传递给生产环境。
  • MLflow Models:管理各类机器学习库中的模型,并部署到不同的模型服务及应用平台。
    MLflow通过访问REST API和CLI实现其功能,所以它不依赖于某个库,并且支持多种机器学习库与编程语言,为了使用方便,它还内置了Python API。

推荐阅读
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 创建项目:Visual Studio Online 入门指南
    本文介绍如何使用微软的 Visual Studio Online(VSO)创建和管理开发项目。作为一款基于云计算的开发平台,VSO 提供了丰富的工具和服务,简化了项目的配置和部署流程。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • c# – UWP:BrightnessOverride StartOverride逻辑 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元,内置RAID控制器,支持多达8个mSATA盘,最大存储容量可达8TB,持续写入带宽高达3.2GB/s。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 本文介绍如何在 Visual Studio Code 中使用 Jupyter Notebook 插件,包括创建、编辑和运行笔记本的基本操作。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • MySQL索引详解与优化
    本文深入探讨了MySQL中的索引机制,包括索引的基本概念、优势与劣势、分类及其实现原理,并详细介绍了索引的使用场景和优化技巧。通过具体示例,帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]
  • 本文探讨了如何通过预处理器开关选择不同的类实现,并解决在特定情况下遇到的链接器错误。 ... [详细]
author-avatar
罗伯特1980_823
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有