热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python拓展库丰富吗_这5个Python库太难搞!每位数据科学家都应该了解

全文共3708字,预计学习时长10分钟图源:unsplashPthon之所以能成为世界上最受欢迎的编程语言之一,与其整体及其相关库的生态系

全文共3708字,预计学习时长10分钟

图源:unsplash

Pthon之所以能成为世界上最受欢迎的编程语言之一,与其整体及其相关库的生态系统密不可分,这些强大的库让Python保持着生命力和高效力。作为数据科学家免不了会使用一些Python库用于项目和研究,除却那些常见的库,还有很多库能够增强你的数据科学研究能力。

本文将介绍五大难懂的Python库,理解起来并不容易,但搞定它们你就能功力大增!

1.Scrapy

每位数据科学家的项目都是从处理数据开始的,而互联网就是最大、最丰富、最易访问的数据库。但可惜的是,除了通过pd.read_html函数来获取数据时,一旦涉及从那些数据结构复杂的网站上抓取数据,数据科学家们大多都会毫无头绪。

Web爬虫常用于分析网站结构和存储提取信息,但相较于重新构建网页爬虫,Scrapy使这个过程变得更加容易。

Scrapy用户界面非常简洁使用感极佳,但其最大优势还得是效率高。Scrapy可以异步发送、调度和处理网站请求,也就是说:它在花时间处理和完成一个请求的同时,也可以发送另一个请求。Scrapy通过同时向一个网站发送多个请求的方法,使用非常快的爬行,以最高效的方式迭代网站内容。

除上述优点外,Scrapy还能让数据科学家用不同的格式(如:JSON,CSV或XML)和不同的后端(如:FTP,S3或local)导出存档数据。

图源:unsplash

2.Statsmodels

到底该采用何种统计建模方法?每位数据科学家都曾对此犹豫不决,但Statsmodels是其中必须得了解的一个选项,它能实现Sci-kit Learn等标准机器学习库中没有的重要算法(如:ANOVA和ARIMA),而它最有价值之处在于其细节化处理和信息化应用。

例如,当数据科学家要用Statsmodels算一个普通最小二乘法时,他所需要的一切信息,不论是有用的度量标准,还是关于系数的详细信息,Statsmodels都能提供。库中实现的其他所有模型也是如此,这些是在Sci-kit learn中无法得到的。

OLSRegressionResults

==============================================================================

Dep. Variable: Lottery R-squared: 0.348

Model: OLS Adj. R-squared: 0.333

Method: LeastSquares F-statistic: 22.20

Date: Fri, 21Feb2020 Prob (F-statistic): 1.90e-08

Time: 13:59:15 Log-Likelihood: -379.82

No. Observations: 86 AIC: 765.6

DfResiduals: 83 BIC: 773.0

DfModel: 2

CovarianceType: nonrobust

===================================================================================

coef std err t P>|t| [0.025 0.975]

-----------------------------------------------------------------------------------

Intercept 246.4341 35.233 6.995 0.000 176.358 316.510

Literacy -0.4889 0.128 -3.832 0.000 -0.743 -0.235

np.log(Pop1831) -31.3114 5.977 -5.239 0.000 -43.199 -19.424

==============================================================================

Omnibus: 3.713 Durbin-Watson: 2.019

Prob(Omnibus): 0.156 Jarque-Bera (JB): 3.394

Skew: -0.487 Prob(JB): 0.183

Kurtosis: 3.003 Cond. No. 702.

==============================================================================

对于数据科学家来说,掌握这些信息意义重大,但他们的问题是常常太过信任一个自己并不真正理解的模型。因为高维数据不够直观,所以在部署这些数据之前,数据科学家有必要深入了解数据与模型。如果盲目追求像准确度或均方误差之类的性能指标,可能会造成严重的负面影响。

Statsmodels不仅具有极其详细的统计建模,而且还能提供各种有用的数据特性和度量。例如,数据科学家们常会进行时序分解,它可以帮助他们更好地理解数据,以及分析何种转换和算法更为合适,或者也可以将pinguoin用于一个不太复杂但非常精确的统计函数。

图源:Statsmodels

3.Pattern

一些成熟完善的网站用来检索数据的方法可能更为具体,在这种情况下用Scrapy编写Web爬虫就有点“大材小用”了,而Pattern就是Python中更高级的Web数据挖掘和自然语言处理模块。

Pattern不仅能无缝整合谷歌、推特和维基百科三者的数据,而且还能提供一个不太个性化的Web爬虫和HTML DOM解析器。它采用了词性标注、n-grams搜索、情感分析和WordNet。不论是聚类分析,还是分类处理,又或是网络分析可视化,经Pattern预处理后的文本数据都可用于各种机器学习算法。

从数据检索到预处理,再到建模和可视化,Pattern可以处理数据科学流程中的一切问题,而且它也能在不同的库中快速传输数据。

图源:unsplash

4.Mlxtend

Mlxtend是一个任何数据科学项目都可以应用的库。它可以说是Sci-kit learn库的扩展,能自动优化常见的数据科学任务:

· 全自动提取与选择特征。

· 扩展Sci-kit learn库现有的数据转换器,如中心化处理和事务编码器。

· 大量的评估指标:包括偏差方差分解(即测量模型中的偏差和方差)、特征点检测、McNemar测试、F测试等。

· 模型可视化,包括特征边界、学习曲线、PCA交互圈和富集图绘。

· 含有许多Sci-kit Learn库中没有的内置数据集。

· 图像与文本预处理功能,如名称泛化器,可以识别并转换具有不同命名系统的文本(如:它能识别“Deer,John”,“J.Deer”,“J.D.”和“John Deer”是相同的)。

·

Mlxtend还有非常实用的图像处理功能,比如它可以提取面部标志:

图源:Mlxtend

再来看看它的决策边界绘制功能:

图源:Mlxtend

5.REP

与Mlxtend一样,REP也可以被看作是Sci-kit学习库的扩展,但更多的是在机器学习领域。首先,它是一个统一的Python包装器,用于从Sci-kit-learn扩展而来的不同机器学习库。它可以将Sci-kit learn与XGBoost、Pybrain、Neurolab等更专业的机器学习库整合在一起。

例如,当数据科学家想要通过一个简单的包装器将XGBoost分类器转换为Bagging分类器,再将其转换为Sci-kit-learn模型时,只有REP能做到,因为在其他库中无法找到像这种易于包装和转换的算法。

from sklearn.ensemble importBaggingClassifier

from rep.estimators importXGBoostClassifier, SklearnClassifier

clf =BaggingClassifier(base_estimator=XGBoostClassifier(), n_estimators=10)

clf =SklearnClassifier(clf)

除此之外,REP还能实现将模型从任何库转换为交叉验证(折叠)和堆叠模型。它有一个极快的网格搜索功能和模型工厂,可以帮助数据科学家在同一个数据集里有效地使用多个机器学习分类器。同时使用REP和Sci-kit learn,能帮助我们更轻松自如地构建模型。

图源:unsplash

这五个Python库绝对你为它付出时间!

留言点赞关注

我们一起分享AI学习与发展的干货

编译组:朱怡、高淳子

如转载,请私信小芯,遵守转载规范



推荐阅读
  • Java项目分层架构设计与实践
    本文探讨了Java项目中应用分层的最佳实践,不仅介绍了常见的三层架构(Controller、Service、DAO),还深入分析了各层的职责划分及优化建议。通过合理的分层设计,可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]
  • 编写了几个500行左右代码的程序,但基本上解决问题还是面向过程的思维,如何从问题中抽象出类,形成类的划分和设计,从而用面向对象的思维解决问题?有这方面的入门好书吗?最好是结合几个具体的案例分析的 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 主板IO用W83627THG,用VC如何取得CPU温度,系统温度,CPU风扇转速,VBat的电压. ... [详细]
  • 嵌入式开发环境搭建与文件传输指南
    本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境,并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]
  • Nature Microbiology: 人类肠道古菌基因组目录
    本研究揭示了人类肠道微生物群落中古细菌的多样性,分析了来自24个国家、农村和城市人群的1,167个非冗余古细菌基因组。研究鉴定了多个新分类群,并探讨了古菌对宿主的适应性及其与社会人口特征的关系。 ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
  • 探索新一代API文档工具,告别Swagger的繁琐
    对于后端开发者而言,编写和维护API文档既繁琐又不可或缺。本文将介绍一款全新的API文档工具,帮助团队更高效地协作,简化API文档生成流程。 ... [详细]
  • 鼠标悬停出现提示信息怎么做
    概述–提示:指启示,提起注意或给予提醒和解释。在excel中会经常用到给某个格子增加提醒信息,比如金额提示输入数值或最大长度值等等。设置方式也有多种,简单的,仅为单元格插入批注就可 ... [详细]
  • 本文详细介绍了如何在Kendo UI for jQuery的数据管理组件中,将行标题字段呈现为锚点(即可点击链接),帮助开发人员更高效地实现这一功能。通过具体的代码示例和解释,即使是新手也能轻松掌握。 ... [详细]
  • HTML基础入门指南
    本文将深入浅出地介绍HTML的基础知识,包括其定义、开发工具、制定机构、特性、基本标签及更多实用内容。 ... [详细]
  • 并发编程 12—— 任务取消与关闭 之 shutdownNow 的局限性
    Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]
  • Python自动化测试入门:Selenium环境搭建
    本文详细介绍如何在Python环境中安装和配置Selenium,包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外,还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]
  • 本文介绍如何在Vue项目中配置Webpack,使JS代码作为入口文件直接嵌入到HTML中,而不是传统的HTML作为入口。 ... [详细]
author-avatar
william浩浩_597
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有