热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

我是一名受过教育的机械工程师,我的第一份工作是在钢铁行业。       我穿着那些沉重的胶靴和塑料头盔,在大型高炉和轧钢厂里做着危险的工作。至少这么说,虽然做了很多安全措施,但我知

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

我是一名受过教育的机械工程师,我的第一份工作是在钢铁行业。              

我穿着那些沉重的胶靴和塑料头盔,在大型高炉和轧钢厂里做着危险的工作。至少这么说,虽然做了很多安全措施,但我知道如果发生了什么不好的事情,什么也救不了我。也许跑鞋能帮上忙,至于头盔?我只想说钢水的温度是 1370 摄氏度。              

我意识到基于我的恐惧,这份工作不适合我,所以我找到了新的目标,在 2011 年左右进入分析和数据科学领域。从那时起,mooc 就成了我学习新事物的首选,我在那里学到了很多新东西。有好有坏。       

现在到了 2020 年,随着数据科学领域的日新月异,学习数据科学的资源并不缺乏。但这也常常给初学者带来一个困扰:从哪里开始学习,学习什么?互联网上有很多优质的资源,但这意味着也有很多不好的资源。              

当谈到学习时,过多的选择往往会导致停滞,因为选择会让人陷入焦虑。              

在 The Paradox of Choice — Why More Is Less 这本书中,Schwartz 认为消除消费者的选择可以大大减少购物的焦虑。对数据科学课程来说也是如此。              

这篇文章旨在为迷茫的初学者提供建议,从哪里开始他们的数据科学之旅有很多选择。              

1)Python 3 编程专业化                        

和 Python 2.7 说再见!

首先,你需要一种编程语言。这个来自密歇根大学的课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.13674876714&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fpython-3-programming)教你学习使用 Python 并自己创建东西。             

你将学习变量、条件和循环等编程基础知识,并获得一些学习材料,如关键字参数、列表理解、lambda 表达式和类继承。              

你可能还想通过我的 Python Shorts 获得更好的理解。

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

页面网址:https://towardsdatascience.com/tagged/python-shorts

 2)Python 应用数据科学 

先做,后理解 

在充分理解机器学习之前,我们需要先体验一下它。

应用数据科学为你介绍了许多应该了解的现代机器学习方法。虽然它们并不是完全一样的,但你会得到建立你的模型的工具。

这种基于技能的专业课程向具有基本 python 或其他语言编程背景,并希望通过流行的 python 工具包(如 pandas、matplotlib、scikit learn、nltk)应用统计、机器学习、数据可视化、文本分析和社交网络分析以及 networkx,以深入了解他们的数据的学习者。

你可能还想浏览一下我的一些文章,同时了解一下这个专业领域:

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/minimal-pandas-subset-for-data-scientists-6355059629ae

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/pythons-one-liner-graph-creation-library-with-animations-hans-rosling-style-f2cb50490396

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

3)机器学习理论与基础 

完成以上课程后,你将变成「初学者」,恭喜!

你知道你学的东西是什么,你知道如何实现某些事情。

然而,你并没有完全理解所有这些模型背后的所有数学原理。

你需要了解 clf.fit 背后的原理,是时候面对现实了。除非你了解模型背后的数学原理,否则没人会认真对待你。

如果你不明白,你就无法改进它。

Game Changer 机器学习课程来了!它包含了许多机器学习算法背后的数学原理。

我将把这门课当作一门必修课,因为这门课程激励了我进入这个领域,而且 Andrew Ng 是一位伟大的导师。这是我开始学习的第一门课程。

这门课程包含了回归,分类,异常检测,推荐系统,神经网络等知识,还有很多很棒的建议。在学习本课程的同时,你可能还需要浏览我的一些文章:  

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/the-hitchhikers-guide-to-feature-extraction-b4c157e96631

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/the-5-classification-evaluation-metrics-you-must-know-aa97784ff226

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/the-simple-math-behind-3-decision-tree-splitting-criterions-85d4de2a75fe

4)学习统计推断

「事实是不变的,但统计数字是灵活的。」

——Mark Twain

我的老师 Çetinkaya-Rundel 教授这门推论统计学的课程(https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_cOntent=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0 ),没有比这更简单的课程了。

她是一位优秀的讲师,很好地解释了统计推断的基本原理——这是一门必修课。

你将学习假设检验、置信区间以及数值和分类数据的统计推断方法。

你可能还想通过我的一些文章,加深理解:

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/p-value-explained-simply-for-data-scientists-4c0cd7044f14

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/confidence-intervals-explained-simply-for-data-scientists-8354a6e2266b

5)学习数据科学相关的 SQL 基础知识 

SQL 是所有数据 ETL 的核心 

虽然我们觉得通过创建模型和提出不同的假设,可以完成更多的工作,但数据处理的作用是不可低估的。

而且,随着 SQL 在 ETL 和数据处理任务中的广泛应用,每个人都应该知道一点 SQL,这一定会有用。

SQL 也已经成为使用 Apache Spark 等大数据工具的事实标准。这个来自 UC Davis 的 SQL 教程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.15198708466&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Flearn-sql-basics-data-science )将教你 SQL 基础知识以及如何使用 SQL 进行分布式计算。

来自课程网站: 

通过完成四个逐步增加难度的 SQL 项目,你将涵盖诸如 SQL 基础知识、SQL 分析、AB 测试、使用 Apache Spark 的分布式计算等主题。 

你可能还想通过我的一些文章加深理解:

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/learning-sql-the-hard-way-4173f11b26f1

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/5-ways-to-add-a-new-column-in-a-pyspark-dataframe-4e75c2fd8c08

6)高级机器学习 

你可能不同意,但到目前为止,我们所做的一切都是没有多大用处的。学习材料是结构化的,数学知识是最少的。但你已经为下一步做好了准备。这种高级机器学习课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.11973317656&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Faml)由顶级 Kaggle 机器学习实践者和欧洲核子研究中心的科学家采用了另一种学习方法,他们会讲解许多晦涩难懂的概念,并指导你了解过去的事情是如何工作的,以及机器学习世界中最新的进步。网站上是这样说的: 

该专业介绍了深度学习、强化学习、自然语言理解、计算机视觉和贝叶斯方法。顶级 Kaggle 机器学习实践者和 CERN 科学家将分享他们解决现实世界问题的经验,并帮助你填补理论和实践之间的空白。

你可能想看看我的一些文章,同时了解本课程的一些材料:

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/mcmc-intuition-for-everyone-5ae79fff22b1

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/tagged/nlp-learning-series

7) 深度学习              

深度学习就是未来              

Andrew NG 又回到了他的深度学习专业。            

Andrew Ng 以一种通俗易懂的方式完成了对困难概念的讲解。他所遵循的术语与网络上所有其他教程和课程都不一样,我希望它能流行起来,因为它对理解所有基本概念非常有帮助。              

摘自专业网站:              

了解深度学习的基础,了解如何构建神经网络,并学习如何领导成功的机器学习项目。你将了解卷积网络、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He 初始化等。你将从事医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理等方面的案例研究。              

你可能想看看我的一些文章,同时试图了解本课程的一些材料:

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/an-end-to-end-introduction-to-gans-bf253f1fa52f

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/object-detection-using-deep-learning-approaches-an-end-to-end-theoretical-perspective-4ca27eee8a9a

8) Pytorch                      

我通常从不提倡学习工具,但在这里我提倡。原因是,Pytorch 令人难以置信,使用它你将能够阅读代码,研究许多最新的论文。Pythorch 已经成为从事深度学习的研究人员默认的编程语言,它只会对我们的学习产生推动作用。           

学习 Pythorch 的一种结构化方法学习 Pythorch 相关的深神经网络课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14805039480&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Fdeep-neural-networks-with-pytorch)。以下来自课程网站:               

课程将从 Pytorch 的张量和自动微分包开始。然后每个部分将涵盖不同的模型,从基本原理开始,如线性回归和 logistic/softmax 回归。其次是前馈型深层神经网络、作用不同的激活函数,归一化层和脱落层。然后介绍卷积神经网络和迁移学习。最后,还将介绍其他一些深度学习方法。              

 你也可以看看我的这篇文章,我试着解释如何使用PyTorch:

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/moving-from-keras-to-pytorch-f0d4fff4ce79

9)AWS 机器学习入门              

秘诀:你知道什么不重要,你展示什么才重要。              

在构建一个伟大的机器学习系统时,有很多事情需要考虑。但作为数据科学家,我们常常只担心项目的某些部分。              

但我们有没有想过,一旦我们拥有了模型,我们将如何部署它们呢?              

我见过很多ML项目,其中很多项目注定要失败,因为它们从一开始就没有生产计划。         

拥有一个好的平台,并了解该平台如何部署机器学习应用程序,将在现实世界中发挥重大作用。这门关于实现机器学习应用程序的 AWS 课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14884356434&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Faws-machine-learning)就承诺了这一点。              

本课程将教你:              

  1. 如何使用带有内置算法和 Jupyter notebook 实例的 Amazon SageMaker 构建、训练和部署模型。          

  2. 如何使用 Amazon-AI 服务构建智能应用程序,如 Amazon-Comprehend、Amazon-Rekognition、Amazon-Translate 等。

你也可以看看我的这篇文章,文章讨论了应用程序,并解释了如何做生产计划。

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/how-to-write-web-apps-using-simple-python-for-data-scientists-a227a1a01582

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/how-to-deploy-a-streamlit-app-using-an-amazon-free-ec2-instance-416a41f69dc3

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/take-your-machine-learning-models-to-production-with-these-5-simple-steps-35aa55e3a43c

10)数据结构和算法              

算法。是的,你需要它们。              

算法和数据结构是数据科学的组成部分。虽然我们大多数的数据科学家在学习的时候并没有学习一门专门的算法课程,但它们都是必不可少的。              

许多公司将数据结构和算法作为招聘数据科学家面试过程的一部分。它们需要和对数据科学算法充满热情,因此,你可能需要一些时间来研究算法、数据结构的问题。              

我发现学习算法的最佳资源之一是 UCSanDiego 在 Coursera 上的算法课程(https://click.linksynergy.com/deeplink?id=lVarvwc5BD0&mid=40328&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fdata-structures-algorithms )。摘自网站:              

你将学习解决各种计算问题的算法技术,并将使用你选择的编程语言实现大约 100 个算法编码问题。没有任何一门在线算法课程能让你在下一次面试中解决各种编程挑战。              

你可能还想看看我的一些文章,同时了解一些在这个专业领域的资料。

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/three-programming-concepts-for-data-scientists-c264fc3b1de8

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/a-simple-introduction-of-linked-lists-for-data-scientists-a71f0eb31d87

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/dynamic-programming-for-data-scientists-bb7154b4298b

资源太多难以选择?数据科学爱好者最需要的10大资源推荐

网址:https://towardsdatascience.com/handling-trees-in-data-science-algorithmic-interview-ea14dd1b6236

via:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

雷锋网(公众号:雷锋网)雷锋网雷锋网  

雷锋网版权文章,未经授权禁止转载。详情见。


资源太多难以选择?数据科学爱好者最需要的10大资源推荐


推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式
    大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]
  • Python 实战:异步爬虫(协程技术)与分布式爬虫(多进程应用)深入解析
    本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节,重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理,帮助读者理解两者在性能和资源利用上的差异,从而在实际项目中做出更合适的选择。文章还将结合具体案例,展示如何高效地实现异步和分布式爬虫,以提升数据抓取的效率和稳定性。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • 题目《BZOJ2654: Tree》的时间限制为30秒,内存限制为512MB。该问题通过结合二分查找和Kruskal算法,提供了一种高效的优化解决方案。具体而言,利用二分查找缩小解的范围,再通过Kruskal算法构建最小生成树,从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率,还确保了在大规模数据集上的稳定性能。 ... [详细]
  • 本文是Java并发编程系列的开篇之作,将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识,重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]
  • 优化后的标题:深入探讨网关安全:将微服务升级为OAuth2资源服务器的最佳实践
    本文深入探讨了如何将微服务升级为OAuth2资源服务器,以订单服务为例,详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖,并配置Spring Security以实现对微服务的保护。通过这一过程,不仅增强了系统的安全性,还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践,包括如何配置OAuth2客户端和资源服务器,以及如何处理常见的安全问题和错误。 ... [详细]
  • 2018 HDU 多校联合第五场 G题:Glad You Game(线段树优化解法)
    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6356在《Glad You Game》中,Steve 面临一个复杂的区间操作问题。该题可以通过线段树进行高效优化。具体来说,线段树能够快速处理区间更新和查询操作,从而大大提高了算法的效率。本文详细介绍了线段树的构建和维护方法,并给出了具体的代码实现,帮助读者更好地理解和应用这一数据结构。 ... [详细]
  • 在Ubuntu 13.04系统中,如果希望移除OpenJDK以优化Java环境配置,但尝试卸载`openjdk-7-jre`时遇到了问题。具体命令 `$ sudo apt-get purge openjdk-7-jre` 会显示如下提示信息: ... [详细]
  • 在尝试对从复杂 XSD 生成的类进行序列化时,遇到了 `NullReferenceException` 错误。尽管已经花费了数小时进行调试和搜索相关资料,但仍然无法找到问题的根源。希望社区能够提供一些指导和建议,帮助解决这一难题。 ... [详细]
  • 本文介绍了几种常用的图像相似度对比方法,包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点,适用于不同的应用场景。 ... [详细]
  • Android中将独立SO库封装进JAR包并实现SO库的加载与调用
    在Android开发中,将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中,并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式,开发者可以更方便地管理和分发包含原生代码的库文件,提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案,帮助开发者避免在实际应用中遇到的坑。 ... [详细]
  • 本文详细解析了LeetCode第215题,即高效寻找数组中前K个最大元素的问题。通过使用快速选择算法(partition),可以在平均时间复杂度为O(N)的情况下完成任务。本文不仅提供了算法的具体实现步骤,还深入探讨了partition算法的工作原理及其在不同场景下的应用,帮助读者更好地理解和掌握这一高效算法。 ... [详细]
author-avatar
夫功的美丽家园
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有