热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何自学成为一名数据科学家?

编者按:数据科学家被认为是21世纪最性感的职业。可是如果你没有大学学位,对数据和编程几乎没有了解该怎么办?又或者你原先干的不是这一行想要转

编者按:数据科学家被认为是21世纪最性感的职业。可是如果你没有大学学位,对数据和编程几乎没有了解该怎么办?又或者你原先干的不是这一行想要转行又怎么办?一直致力于为学习数据科学提供指导的Dario Radečić给出了他的建议和参考书籍。原文发表在Medium上,标题是:Becoming a Self-Taught Data Scientist

数据科学被认为是21世纪最性感的工作。这是一项大胆的声明,主要是因为我们目前才是2019年,谁知道50年后的就业市场会是什么样子的呢。

但是,如果只看过去15至20年的职位的话,那就完全是另一回事了。在本文中我将为大家找出一些最出色的资源,让你可以一举打入数据科学的领域。而且你是否拥有其他领域的学位一点都没有关系。

在本文中,我将深入探讨自学数据科学的路线,同时还将为你提供一些出色的资源来开始学习。

本文适用于谁?

  • 没有任何学位的人

  • 在一段时间前完成大学学习并想转向数据科学的人

好来,我们就不要再花时间在介绍上了——现在,我们将深入探讨真正的内容。

自学是什么意思?

好问题。简而言之,这意味着你没有在自己感兴趣的领域(比如说数据科学)修完任何的大学文凭,但是你又在从事着自己感兴趣的这个领域的工作(比如数据科学),那么就可以认为在该领域你是自学成才。

你还可以到网上去修在线课程,去看看书,但是并没有花几年在大学课桌后面接受正规教育。

那么我们就来看看自学成为数据科学家的第一种办法是什么吧。

从零开始的路线

如果符合以下情况的话你属于这一类:

  • 你没有大学学位

  • 你对数据和编程的了解很少或一点都不了解

那该怎么办?这是一个很难回答的问题。首先,你需要掌握一些基础知识,主要是数学和统计技能。而且,你也的学习如何编码,最好是用Python。

之前我写过一篇文章,里面列出了进入该领域所需先决条件的相关资源:

数据科学预修终极清单

我知道,要学的太多了,但是没有人说这件事情很容易。花一些时间来学习一下基础知识。你不需要手工去做大量计算,扎实的可视化理解应该就绰绰有余了。

我不建议手工进行大量计算有一个原因——因为那种事情计算机很容易做到。对于计算机来说困难的是如何框定问题,以及知道在哪种情况下要做什么(我说的不是条件语句)。这就是数学和统计方法的可视化是一座金矿的原因。

如果你愿意花时间深入学习一下数学、统计学以及程序设计的话,那你的起点就跟那些几年前在大学听这些课学习数据科学的人一样了(大学学数学的人除外)——至少在数据科学方面,那些完成学业的人绝对不会比你领先。

这就是从0开始的路线。接下来让我们探索另一条路线,然后再深入去研究一下相关资源。

转换职业的路线

转行可能会很艰难。你可能已经从事某个领域已经好几年,然后确定这一行不适合你。这没什么。也许你觉得很无聊,也许是工作动力不足……原因穷举不尽,我不想过多讨论。

你想要尽快做的一件事是要老实地评估自己的数学和统计技能。我是说要诚实面对自己。承认自己把10年前学到的东西全都还给了老师并不是什么可耻的事情。

如果您对以下学科的理解不是100%自信的话:

  • 线性代数

  • 微积分

  • 概率论

  • 统计

  • 程序设计

请参考本文并选择适合你需求的资源——无论是书籍还是在线课程都可以。

OK,该说的都说了吗?你可以继续看看我个人选择的资源。

为自学成才的数据科学家准备的资源

不管出于什么原因读大学都不应该是个选项,但是你可以每天花一两个小时去探索一下数据科学的世界。紧跟着的下一步因人而异,这很大程度上取决于你喜欢看书还是看视频。我更喜欢看视频——因为我不想上完8小时的班后还要看书。

我会从我个人的最爱开始——这是我跟数据科学的第一次接触:

适用数据科学和机器学习的Python训练营

Jose是一位了不起的讲师。他先是简单回顾一下基本的Python库,然后很快你就可以开始用Pandas和Numpy 进行数据分析,并用Matplotlib 和Seaborn进行一些数据可视化。是的,你还会练习机器学习。东西不多,也不够深入,但足以带你入门。

如果你更喜欢读书,那么我建议你看看这本书:

书名叫做《Python数据科学手册》,大概有550页,涵括的内容跟前面的视频课程一样—— numpy、Pandas、Matplotlib以及Scikit –Learn——都是些对搞数据科学至关重要的东西。

一旦掌握了基础知识,就该开始深入研究机器学习了。我有两本值得推荐的好书,其中一本是免费的。让我们仔细讲一下。

对于想要进一步学习机器学习的人来说,《统计学习入门》是一本非常出色的书,还是免费的。书里面偶尔会有些数学性的内容,但是读起来还是比较容易的。对于机器学习这么一个话题广泛的领域来说,此书能够把篇幅控制住400页左右,说明简洁性做的相当好。唯一的缺点是这本书的代码是用R语言而不是Python编写的。但是,你可以试着把R 代码“翻译” 成Python 代码,这肯定会是一个很好的练习。

我要推荐的下一本书叫《Scikit-Learn与TensorFlow机器学习实用指南》。如果我没记错的话,这本书大概有700页,厚是厚了点,但的确是一本好书。你还将学习到一些深度学习的概念,并且还会学习一些机器学习算法。

这两本书你选哪一本都不错,都是很好的入门读物(最好两本都看)。

至于在线课程,我得推荐一下Coursera的机器学习课程,因为这是机器学习的大牛吴恩达的课程学完这门课程需要10多周的时间,而且如果你基础不是很牢的话很快就会感觉到学习的困难。但是,在总共大约12万的用户里面这门拿到了4.9(满分为5)的高分,这已经说明了一切。

实验不是用Python写的,甚至也不是用R语言编写的,而是用Matlab 的免费版本Octave 写的,这一点需要考虑一下。

后续计划

你已经看过书或者课程(或者这两样都做了)了,现在你想知道下一步该怎么做。后续该怎么做其实要因人而异,但理想情况下,你应该去设立一个GitHub档案。

找到5个好一点的数据集,然后尽自己最大努力去做。去进行大量的分析,用Markdown格式写下结论和想法,制作自述文件,全身心地投入进去。

这样做很重要,原因有两个:

  • 这是在练习新习得的技能

  • 向潜在员工展示你写出高质量代码以及得出结论的能力

至于在职业发展方面,让潜在雇主看到你的最好作品非常重要。你没有大学学位,或者至少没有相关学位的话,你得以某种方式向他们展示自己的能力,让他们知道你知道怎么去完成工作。而GitHub是个不错的选择。

花一两个月的时间,做点让自己感到骄傲的事情吧。

————

编辑 ∑Gemini

来源:36Kr

☞数学家探索两个几何世界之间的镜像链接

☞数学天才帕吉特:他有如电影般的人生际遇

☞世界上最奇怪的数学天才,被奖励100万却拒领,宁愿过得像乞丐

☞斯坦福大学教育学院院长:学习本身就是一门学问

☞如果没有数学,我们如何测量

☞数学的真相:物理时空的数字模型还是现实本身?

算法数学之美微信公众号欢迎赐稿

稿件涉及数学、物理、算法、计算机、编程等相关领域,经采用我们将奉上稿酬。

投稿邮箱:math_alg@163.com

欢迎加入算与数学术交流群,请添加微信:nhyilin(备注:算数粉丝)



推荐阅读
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程,该课程广受好评,被誉为Python学习的最佳选择。通过生动有趣的教学方式,帮助初学者轻松掌握编程基础。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • golang常用库:配置文件解析库/管理工具viper使用
    golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ... [详细]
  • PyCharm下载与安装指南
    本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • Android 渐变圆环加载控件实现
    本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件,该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有