【译Py】2018年8月,GitHub上的Python数据科学明星项目:自动化机器学习、自然语言处理、可视化、机器学习工作流
作者:罗伯特1980_823 | 来源:互联网 | 2023-08-20 10:03
译,py,2018,年,8,月,github,上,的,python,数据,科学,明星,项目,自动化,机器,学习,自然,语言,处理,可,视,化,
原文作者:Matthew Mayo 原文地址:GitHub Python Data Science Spotlight: AutoML, NLP, Visualization, ML Workflows
本文是“五个不容忽视的机器学习项目”一文的续篇。和上篇文章相比,这次选出的项目涉及更多数据科学领域,并且都是GitHub上的开源项目,我们为每个项目都附上了Repo、文档和入门指南的链接,并对每个项目进行了简单介绍。 下面一起来了解一下这些新兴的热门Python库吧,希望本文对你的工作能有所帮助:
Auto-Keras自动机器学习库 项目链接:https://github.com/jhfjhfj1/autokeras 文档:http://autokeras.com 入门指南:https://autokeras.com/#example Auto-Keras是用于自动机器学习(AutoML)的开源软件库。自动机器学习的最终目标是让仅拥有一定数据科学知识或机器学习背景的行业专家可以轻松地应用深度学习模型。Auto-Keras提供了很多用于自动研究深度学习模型架构与超参数的函数。 Finetune Scikit-Learn风格的自然语言处理模型微调器 项目链接:https://github.com/IndicoDataSolutions/finetune 文档:https://finetune.indico.io 入门指南:https://finetune.indico.io Finetune提供了“通过生成式预训练改进对语言的理解”的预训练语言模型,并扩充了OpenAI/finetune-language-model 库。 GluonNLP - 让自然语言处理变得更简单 项目链接:https://github.com/dmlc/gluon-nlp 文档:http://gluon-nlp.mxnet.io 入门指南: https://github.com/dmlc/gluon-nlp#quick-start-guide GluonNLP可以使文本处理、数据加载及构建神经模型变得更容易,加快自然语言处理研究的速度。 animatplot - 基于Matplotlib的Python动图库 项目链接:https://github.com/t-makaro/animatplot 文档:https://animatplot.readthedocs.io/en/latest 入门指南: https://animatplot.readthedocs.io/en/latest/tutorial/getting_started.html 请注意,本库文档里的例子比较简单,本文引用的是该库在GitHub上列出的功能更全、形式更酷的示例图。 MLflow - 机器学习生命周期的开源平台 项目链接:https://github.com/mlflow/mlflow 文档:https://mlflow.org/docs/latest/index.html 入门指南:https://mlflow.org/docs/latest/quickstart.html MLflow是用来管理机器学习整体生命周期的开源平台,这个平台提供了以下主要三个功能: MLflow Tracking :跟踪实验,以用来记录和比较机器学习的参数。 MLflow Projects :以可复用、可再现的形式,将机器学习的代码进行打包,以便分享给其他数据科学家或传递给生产环境。 MLflow Models :管理各类机器学习库中的模型,并部署到不同的模型服务及应用平台。 MLflow通过访问REST API和CLI实现其功能,所以它不依赖于某个库,并且支持多种机器学习库与编程语言,为了使用方便,它还内置了Python API。
推荐阅读
本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ...
[详细]
蜡笔小新 2024-11-11 10:58:21
在List和Set集合中存储Object类型的数据元素 ...
[详细]
蜡笔小新 2024-11-09 18:55:32
SPAMS(Sparse Modeling Software)是一个强大的开源优化工具箱,专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB,提供了丰富的算法和函数,适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例,帮助用户更好地理解和使用这一工具箱。 ...
[详细]
蜡笔小新 2024-11-09 16:17:27
如何在C#中配置组合框的背景颜色? ...
[详细]
蜡笔小新 2024-11-08 13:06:59
C++ 开发实战:实用技巧与经验分享 ...
[详细]
蜡笔小新 2024-11-07 20:31:03
本文详细介绍了Java并发工具包中的核心类AQS(AbstractQueuedSynchronizer),包括其基本概念、数据结构、源码分析及核心方法的实现。 ...
[详细]
蜡笔小新 2024-11-13 15:40:34
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Exce ...
[详细]
蜡笔小新 2024-11-13 11:35:24
本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ...
[详细]
蜡笔小新 2024-11-12 10:51:15
在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ...
[详细]
蜡笔小新 2024-11-11 12:12:04
为了提高CPU访问效率,C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制,并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用,从而提升程序性能。 ...
[详细]
蜡笔小新 2024-11-11 11:53:59
在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ...
[详细]
蜡笔小新 2024-11-11 10:27:39
无论是进行机器学习、Web开发还是爬虫项目,数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面: ...
[详细]
蜡笔小新 2024-11-06 15:19:37
蜡笔小新 2024-11-06 13:34:53
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ...
[详细]
蜡笔小新 2024-11-05 15:46:18
通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ...
[详细]
蜡笔小新 2024-11-05 14:24:36
罗伯特1980_823
这个家伙很懒,什么也没留下!