我是一名受过教育的机械工程师,我的第一份工作是在钢铁行业。
我穿着那些沉重的胶靴和塑料头盔,在大型高炉和轧钢厂里做着危险的工作。至少这么说,虽然做了很多安全措施,但我知道如果发生了什么不好的事情,什么也救不了我。也许跑鞋能帮上忙,至于头盔?我只想说钢水的温度是 1370 摄氏度。
我意识到基于我的恐惧,这份工作不适合我,所以我找到了新的目标,在 2011 年左右进入分析和数据科学领域。从那时起,mooc 就成了我学习新事物的首选,我在那里学到了很多新东西。有好有坏。
现在到了 2020 年,随着数据科学领域的日新月异,学习数据科学的资源并不缺乏。但这也常常给初学者带来一个困扰:从哪里开始学习,学习什么?互联网上有很多优质的资源,但这意味着也有很多不好的资源。
当谈到学习时,过多的选择往往会导致停滞,因为选择会让人陷入焦虑。
在 The Paradox of Choice — Why More Is Less 这本书中,Schwartz 认为消除消费者的选择可以大大减少购物的焦虑。对数据科学课程来说也是如此。
这篇文章旨在为迷茫的初学者提供建议,从哪里开始他们的数据科学之旅有很多选择。
1)Python 3 编程专业化
和 Python 2.7 说再见!
首先,你需要一种编程语言。这个来自密歇根大学的课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.13674876714&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fpython-3-programming)教你学习使用 Python 并自己创建东西。
你将学习变量、条件和循环等编程基础知识,并获得一些学习材料,如关键字参数、列表理解、lambda 表达式和类继承。
你可能还想通过我的 Python Shorts 获得更好的理解。
页面网址:https://towardsdatascience.com/tagged/python-shorts
2)Python 应用数据科学
先做,后理解
在充分理解机器学习之前,我们需要先体验一下它。
应用数据科学为你介绍了许多应该了解的现代机器学习方法。虽然它们并不是完全一样的,但你会得到建立你的模型的工具。
这种基于技能的专业课程向具有基本 python 或其他语言编程背景,并希望通过流行的 python 工具包(如 pandas、matplotlib、scikit learn、nltk)应用统计、机器学习、数据可视化、文本分析和社交网络分析以及 networkx,以深入了解他们的数据的学习者。
你可能还想浏览一下我的一些文章,同时了解一下这个专业领域:
网址:https://towardsdatascience.com/minimal-pandas-subset-for-data-scientists-6355059629ae
网址:https://towardsdatascience.com/pythons-one-liner-graph-creation-library-with-animations-hans-rosling-style-f2cb50490396
3)机器学习理论与基础
完成以上课程后,你将变成「初学者」,恭喜!
你知道你学的东西是什么,你知道如何实现某些事情。
然而,你并没有完全理解所有这些模型背后的所有数学原理。
你需要了解 clf.fit 背后的原理,是时候面对现实了。除非你了解模型背后的数学原理,否则没人会认真对待你。
如果你不明白,你就无法改进它。
Game Changer 机器学习课程来了!它包含了许多机器学习算法背后的数学原理。
我将把这门课当作一门必修课,因为这门课程激励了我进入这个领域,而且 Andrew Ng 是一位伟大的导师。这是我开始学习的第一门课程。
这门课程包含了回归,分类,异常检测,推荐系统,神经网络等知识,还有很多很棒的建议。在学习本课程的同时,你可能还需要浏览我的一些文章:
网址:https://towardsdatascience.com/the-hitchhikers-guide-to-feature-extraction-b4c157e96631
网址:https://towardsdatascience.com/the-5-classification-evaluation-metrics-you-must-know-aa97784ff226
网址:https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2
网址:https://towardsdatascience.com/the-simple-math-behind-3-decision-tree-splitting-criterions-85d4de2a75fe
4)学习统计推断
「事实是不变的,但统计数字是灵活的。」
——Mark Twain
我的老师 Çetinkaya-Rundel 教授这门推论统计学的课程(https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_cOntent=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0 ),没有比这更简单的课程了。
她是一位优秀的讲师,很好地解释了统计推断的基本原理——这是一门必修课。
你将学习假设检验、置信区间以及数值和分类数据的统计推断方法。
你可能还想通过我的一些文章,加深理解:
网址:https://towardsdatascience.com/p-value-explained-simply-for-data-scientists-4c0cd7044f14
网址:https://towardsdatascience.com/confidence-intervals-explained-simply-for-data-scientists-8354a6e2266b
5)学习数据科学相关的 SQL 基础知识
SQL 是所有数据 ETL 的核心
虽然我们觉得通过创建模型和提出不同的假设,可以完成更多的工作,但数据处理的作用是不可低估的。
而且,随着 SQL 在 ETL 和数据处理任务中的广泛应用,每个人都应该知道一点 SQL,这一定会有用。
SQL 也已经成为使用 Apache Spark 等大数据工具的事实标准。这个来自 UC Davis 的 SQL 教程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.15198708466&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Flearn-sql-basics-data-science )将教你 SQL 基础知识以及如何使用 SQL 进行分布式计算。
来自课程网站:
通过完成四个逐步增加难度的 SQL 项目,你将涵盖诸如 SQL 基础知识、SQL 分析、AB 测试、使用 Apache Spark 的分布式计算等主题。
你可能还想通过我的一些文章加深理解:
网址:https://towardsdatascience.com/learning-sql-the-hard-way-4173f11b26f1
网址:https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a
网址:https://towardsdatascience.com/5-ways-to-add-a-new-column-in-a-pyspark-dataframe-4e75c2fd8c08
6)高级机器学习
你可能不同意,但到目前为止,我们所做的一切都是没有多大用处的。学习材料是结构化的,数学知识是最少的。但你已经为下一步做好了准备。这种高级机器学习课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.11973317656&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Faml)由顶级 Kaggle 机器学习实践者和欧洲核子研究中心的科学家采用了另一种学习方法,他们会讲解许多晦涩难懂的概念,并指导你了解过去的事情是如何工作的,以及机器学习世界中最新的进步。网站上是这样说的:
该专业介绍了深度学习、强化学习、自然语言理解、计算机视觉和贝叶斯方法。顶级 Kaggle 机器学习实践者和 CERN 科学家将分享他们解决现实世界问题的经验,并帮助你填补理论和实践之间的空白。
你可能想看看我的一些文章,同时了解本课程的一些材料:
网址:https://towardsdatascience.com/mcmc-intuition-for-everyone-5ae79fff22b1
网址:https://towardsdatascience.com/tagged/nlp-learning-series
7) 深度学习
深度学习就是未来
Andrew NG 又回到了他的深度学习专业。
Andrew Ng 以一种通俗易懂的方式完成了对困难概念的讲解。他所遵循的术语与网络上所有其他教程和课程都不一样,我希望它能流行起来,因为它对理解所有基本概念非常有帮助。
摘自专业网站:
了解深度学习的基础,了解如何构建神经网络,并学习如何领导成功的机器学习项目。你将了解卷积网络、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He 初始化等。你将从事医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理等方面的案例研究。
你可能想看看我的一些文章,同时试图了解本课程的一些材料:
网址:https://towardsdatascience.com/an-end-to-end-introduction-to-gans-bf253f1fa52f
网址:https://towardsdatascience.com/object-detection-using-deep-learning-approaches-an-end-to-end-theoretical-perspective-4ca27eee8a9a
8) Pytorch
我通常从不提倡学习工具,但在这里我提倡。原因是,Pytorch 令人难以置信,使用它你将能够阅读代码,研究许多最新的论文。Pythorch 已经成为从事深度学习的研究人员默认的编程语言,它只会对我们的学习产生推动作用。
学习 Pythorch 的一种结构化方法学习 Pythorch 相关的深神经网络课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14805039480&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Fdeep-neural-networks-with-pytorch)。以下来自课程网站:
课程将从 Pytorch 的张量和自动微分包开始。然后每个部分将涵盖不同的模型,从基本原理开始,如线性回归和 logistic/softmax 回归。其次是前馈型深层神经网络、作用不同的激活函数,归一化层和脱落层。然后介绍卷积神经网络和迁移学习。最后,还将介绍其他一些深度学习方法。
你也可以看看我的这篇文章,我试着解释如何使用PyTorch:
网址:https://towardsdatascience.com/moving-from-keras-to-pytorch-f0d4fff4ce79
9)AWS 机器学习入门
秘诀:你知道什么不重要,你展示什么才重要。
在构建一个伟大的机器学习系统时,有很多事情需要考虑。但作为数据科学家,我们常常只担心项目的某些部分。
但我们有没有想过,一旦我们拥有了模型,我们将如何部署它们呢?
我见过很多ML项目,其中很多项目注定要失败,因为它们从一开始就没有生产计划。
拥有一个好的平台,并了解该平台如何部署机器学习应用程序,将在现实世界中发挥重大作用。这门关于实现机器学习应用程序的 AWS 课程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14884356434&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Faws-machine-learning)就承诺了这一点。
本课程将教你:
如何使用带有内置算法和 Jupyter notebook 实例的 Amazon SageMaker 构建、训练和部署模型。
如何使用 Amazon-AI 服务构建智能应用程序,如 Amazon-Comprehend、Amazon-Rekognition、Amazon-Translate 等。
你也可以看看我的这篇文章,文章讨论了应用程序,并解释了如何做生产计划。
网址:https://towardsdatascience.com/how-to-write-web-apps-using-simple-python-for-data-scientists-a227a1a01582
网址:https://towardsdatascience.com/how-to-deploy-a-streamlit-app-using-an-amazon-free-ec2-instance-416a41f69dc3
网址:https://towardsdatascience.com/take-your-machine-learning-models-to-production-with-these-5-simple-steps-35aa55e3a43c
10)数据结构和算法
算法。是的,你需要它们。
算法和数据结构是数据科学的组成部分。虽然我们大多数的数据科学家在学习的时候并没有学习一门专门的算法课程,但它们都是必不可少的。
许多公司将数据结构和算法作为招聘数据科学家面试过程的一部分。它们需要和对数据科学算法充满热情,因此,你可能需要一些时间来研究算法、数据结构的问题。
我发现学习算法的最佳资源之一是 UCSanDiego 在 Coursera 上的算法课程(https://click.linksynergy.com/deeplink?id=lVarvwc5BD0&mid=40328&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fdata-structures-algorithms )。摘自网站:
你将学习解决各种计算问题的算法技术,并将使用你选择的编程语言实现大约 100 个算法编码问题。没有任何一门在线算法课程能让你在下一次面试中解决各种编程挑战。
你可能还想看看我的一些文章,同时了解一些在这个专业领域的资料。
网址:https://towardsdatascience.com/three-programming-concepts-for-data-scientists-c264fc3b1de8
网址:https://towardsdatascience.com/a-simple-introduction-of-linked-lists-for-data-scientists-a71f0eb31d87
网址:https://towardsdatascience.com/dynamic-programming-for-data-scientists-bb7154b4298b
网址:https://towardsdatascience.com/handling-trees-in-data-science-algorithmic-interview-ea14dd1b6236
via:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701
雷锋网(公众号:雷锋网)雷锋网雷锋网
雷锋网版权文章,未经授权禁止转载。详情见。