热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何自学成为一名数据科学家?

编者按:数据科学家被认为是21世纪最性感的职业。可是如果你没有大学学位,对数据和编程几乎没有了解该怎么办?又或者你原先干的不是这一行想要转

编者按:数据科学家被认为是21世纪最性感的职业。可是如果你没有大学学位,对数据和编程几乎没有了解该怎么办?又或者你原先干的不是这一行想要转行又怎么办?一直致力于为学习数据科学提供指导的Dario Radečić给出了他的建议和参考书籍。原文发表在Medium上,标题是:Becoming a Self-Taught Data Scientist

数据科学被认为是21世纪最性感的工作。这是一项大胆的声明,主要是因为我们目前才是2019年,谁知道50年后的就业市场会是什么样子的呢。

但是,如果只看过去15至20年的职位的话,那就完全是另一回事了。在本文中我将为大家找出一些最出色的资源,让你可以一举打入数据科学的领域。而且你是否拥有其他领域的学位一点都没有关系。

在本文中,我将深入探讨自学数据科学的路线,同时还将为你提供一些出色的资源来开始学习。

本文适用于谁?

  • 没有任何学位的人

  • 在一段时间前完成大学学习并想转向数据科学的人

好来,我们就不要再花时间在介绍上了——现在,我们将深入探讨真正的内容。

自学是什么意思?

好问题。简而言之,这意味着你没有在自己感兴趣的领域(比如说数据科学)修完任何的大学文凭,但是你又在从事着自己感兴趣的这个领域的工作(比如数据科学),那么就可以认为在该领域你是自学成才。

你还可以到网上去修在线课程,去看看书,但是并没有花几年在大学课桌后面接受正规教育。

那么我们就来看看自学成为数据科学家的第一种办法是什么吧。

从零开始的路线

如果符合以下情况的话你属于这一类:

  • 你没有大学学位

  • 你对数据和编程的了解很少或一点都不了解

那该怎么办?这是一个很难回答的问题。首先,你需要掌握一些基础知识,主要是数学和统计技能。而且,你也的学习如何编码,最好是用Python。

之前我写过一篇文章,里面列出了进入该领域所需先决条件的相关资源:

数据科学预修终极清单

我知道,要学的太多了,但是没有人说这件事情很容易。花一些时间来学习一下基础知识。你不需要手工去做大量计算,扎实的可视化理解应该就绰绰有余了。

我不建议手工进行大量计算有一个原因——因为那种事情计算机很容易做到。对于计算机来说困难的是如何框定问题,以及知道在哪种情况下要做什么(我说的不是条件语句)。这就是数学和统计方法的可视化是一座金矿的原因。

如果你愿意花时间深入学习一下数学、统计学以及程序设计的话,那你的起点就跟那些几年前在大学听这些课学习数据科学的人一样了(大学学数学的人除外)——至少在数据科学方面,那些完成学业的人绝对不会比你领先。

这就是从0开始的路线。接下来让我们探索另一条路线,然后再深入去研究一下相关资源。

转换职业的路线

转行可能会很艰难。你可能已经从事某个领域已经好几年,然后确定这一行不适合你。这没什么。也许你觉得很无聊,也许是工作动力不足……原因穷举不尽,我不想过多讨论。

你想要尽快做的一件事是要老实地评估自己的数学和统计技能。我是说要诚实面对自己。承认自己把10年前学到的东西全都还给了老师并不是什么可耻的事情。

如果您对以下学科的理解不是100%自信的话:

  • 线性代数

  • 微积分

  • 概率论

  • 统计

  • 程序设计

请参考本文并选择适合你需求的资源——无论是书籍还是在线课程都可以。

OK,该说的都说了吗?你可以继续看看我个人选择的资源。

为自学成才的数据科学家准备的资源

不管出于什么原因读大学都不应该是个选项,但是你可以每天花一两个小时去探索一下数据科学的世界。紧跟着的下一步因人而异,这很大程度上取决于你喜欢看书还是看视频。我更喜欢看视频——因为我不想上完8小时的班后还要看书。

我会从我个人的最爱开始——这是我跟数据科学的第一次接触:

适用数据科学和机器学习的Python训练营

Jose是一位了不起的讲师。他先是简单回顾一下基本的Python库,然后很快你就可以开始用Pandas和Numpy 进行数据分析,并用Matplotlib 和Seaborn进行一些数据可视化。是的,你还会练习机器学习。东西不多,也不够深入,但足以带你入门。

如果你更喜欢读书,那么我建议你看看这本书:

书名叫做《Python数据科学手册》,大概有550页,涵括的内容跟前面的视频课程一样—— numpy、Pandas、Matplotlib以及Scikit –Learn——都是些对搞数据科学至关重要的东西。

一旦掌握了基础知识,就该开始深入研究机器学习了。我有两本值得推荐的好书,其中一本是免费的。让我们仔细讲一下。

对于想要进一步学习机器学习的人来说,《统计学习入门》是一本非常出色的书,还是免费的。书里面偶尔会有些数学性的内容,但是读起来还是比较容易的。对于机器学习这么一个话题广泛的领域来说,此书能够把篇幅控制住400页左右,说明简洁性做的相当好。唯一的缺点是这本书的代码是用R语言而不是Python编写的。但是,你可以试着把R 代码“翻译” 成Python 代码,这肯定会是一个很好的练习。

我要推荐的下一本书叫《Scikit-Learn与TensorFlow机器学习实用指南》。如果我没记错的话,这本书大概有700页,厚是厚了点,但的确是一本好书。你还将学习到一些深度学习的概念,并且还会学习一些机器学习算法。

这两本书你选哪一本都不错,都是很好的入门读物(最好两本都看)。

至于在线课程,我得推荐一下Coursera的机器学习课程,因为这是机器学习的大牛吴恩达的课程学完这门课程需要10多周的时间,而且如果你基础不是很牢的话很快就会感觉到学习的困难。但是,在总共大约12万的用户里面这门拿到了4.9(满分为5)的高分,这已经说明了一切。

实验不是用Python写的,甚至也不是用R语言编写的,而是用Matlab 的免费版本Octave 写的,这一点需要考虑一下。

后续计划

你已经看过书或者课程(或者这两样都做了)了,现在你想知道下一步该怎么做。后续该怎么做其实要因人而异,但理想情况下,你应该去设立一个GitHub档案。

找到5个好一点的数据集,然后尽自己最大努力去做。去进行大量的分析,用Markdown格式写下结论和想法,制作自述文件,全身心地投入进去。

这样做很重要,原因有两个:

  • 这是在练习新习得的技能

  • 向潜在员工展示你写出高质量代码以及得出结论的能力

至于在职业发展方面,让潜在雇主看到你的最好作品非常重要。你没有大学学位,或者至少没有相关学位的话,你得以某种方式向他们展示自己的能力,让他们知道你知道怎么去完成工作。而GitHub是个不错的选择。

花一两个月的时间,做点让自己感到骄傲的事情吧。

————

编辑 ∑Gemini

来源:36Kr

☞数学家探索两个几何世界之间的镜像链接

☞数学天才帕吉特:他有如电影般的人生际遇

☞世界上最奇怪的数学天才,被奖励100万却拒领,宁愿过得像乞丐

☞斯坦福大学教育学院院长:学习本身就是一门学问

☞如果没有数学,我们如何测量

☞数学的真相:物理时空的数字模型还是现实本身?

算法数学之美微信公众号欢迎赐稿

稿件涉及数学、物理、算法、计算机、编程等相关领域,经采用我们将奉上稿酬。

投稿邮箱:math_alg@163.com

欢迎加入算与数学术交流群,请添加微信:nhyilin(备注:算数粉丝)



推荐阅读
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • 本文详细介绍了商汤科技面试中涉及的CV算法面经内容,包括CornerNet的介绍与CornerPooling的解决方案、Mimic知识蒸馏的实现方式、MobileNet的特点、普通卷积和DW PW卷积的计算量推导、Residual结构的来源等。同时还讨论了在人脸关键点和检测中的mimic实现方式、pose对人脸关键点的提升作用、目标检测中可能遇到的问题以及处理检测类别冲突的方法。此外,还涉及了对机器学习的了解程度和相似度分析的问题。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有