热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

成为数据科学家,究竟需要怎么的学历?

想做数据科学家的话,该不该读硕士、博士?本文作者根据自己的工作经历,基于收集过的上千样本给出了一个非常规的答案:这些都不是必须的。作者甚至认为,适当的时候本科辍学更好……我是一个辍

想做数据科学家的话,该不该读硕士、博士?本文作者根据自己的工作经历,基于收集过的上千样本给出了一个非常规的答案:这些都不是必须的。作者甚至认为,适当的时候本科辍学更好……

我是一个辍学的 PhD。

这意味着,尽管我已经完成了许多研究生课程,但最终收获的只有「辍学」这么个字眼。假如博士顺利毕业,你就是万千书呆子中的一个。但读了两年半后辍学,你就是一个前卫的书呆子。人们会想知道你接下来还会做些什么。他们会说,「马斯克也是从研究生学院辍学的。这家伙可能跟他一样!」

我之前的绰号是「无法确定未来、下 4D 棋的书呆子天才」,从研究生院退学对我的名声有了少量影响。我越来越清楚地知道,不是所有人都需要读博,你选择读博或者者中途辍学都可以。硕士学位也是如此。对于一般有志于 STEM 的专业人员来说,情况确实如此,而对有志于成为数据科学家的人来说更是如此。我马上就会讲到起因。

【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员就可免费领取

但首先,你可能想知道我是怎样知道这个的。

事情是这样的:我在一家数据科学导师创业公司工作。通过这份工作,我大概采访了一千多位有抱负的数据科学家——有些人有博士学位,有些人有硕士学位,有些人有本科学位,也有少量人在攻读各个学位的过程中辍学了。这给我留下了罕见而珍贵的东西:具备统计学意义的数据科学职业生涯故事的重要样本。

我从这些故事中理解到:不同学历对不同时间、地点的不同人来说都是有意义的。但是由于大部分人都会咨询大学学院的研究生导师来决定能否要进入研究生学院,因而他们在注册之前并不会完全理解研究生院的情况。

从一位前学术转型的创业公司创始人那里我理解到:不是所有学位都适合每个人。下面会陈述起因。

01?博士学位

「警告:以下内容可能会引起很多博士的不适。我提前道歉。」

「我看很多数据科学工作都需要博士学位。我肯定要有博士学位才能成为数据科学家吗?」

当然不了,这不是一码事。

不要误解我的意思,在电子邮件签名中能使用这三个字母(PhD)绝对是件好事。有的时候我也希望我能由于这个起因坚持下去。但随后现实有变。

假如你的目标是成为一名数据科学家或者机器学习工程师(研究员),那么读博士可能是很好的选择。但也可能不是,起因如下:

要很长时间才能取得博士学位。

除非你从「好的」导师那里取得了「好的」博士学位,否则你无法学到任何有价值的东西。

第一点:在美国或者加拿大,取得博士学位需要 4 至 7/8 年的时间。平均时间一般是 5-6 年,这取决于具体的院校。现在我们换个角度来看。

你知道 5 年前数据科学中没有什么吗?Spark、XGBoost、jupyternotebooks、GloVe、spaCy、TensorFlow、Keras、Pytorch、InceptionNet、ResNet、强化学习等等。

所以除非你决定自学这些层出不穷的新东西(我不确定研究生院会教你这些东西),否则你在读博的时候可能会像被冰冻在 2012 年一样,而后到毕业时解冻,你完全变成了一个新手。你会发现自己置身于数据科学技术的美丽新世界,你必需得在毕业之后自学这些技术。

关键是,数据科学和机器学习发展得非常快。而它们在未来只会发展得更快。所以假如你想在数据科学或者机器学习的相关领域取得博士学位,而且你的目标是未来有一天从事相关的工作,那么你本质上就是在赌博:你赌的是当自己毕业时,所学的专业知识仍旧相关而且有很高的需求。这个赌注的风险和收益都很高。

第二点:花一点时间想一下你的导师会是谁,以及他们为什么没在 Google 或者 Facebook 工作。

当然,有些人更喜欢做学术研究,而不是在业内做数据科学或者机器学习的工作。但值得注意的是,大部分资金都提供给了 ML 行业中顶级的人才,而这对学术领域的人造成了显著的下行选择压力。

有的地方也有少量例外情况。这些一般都是超级精英计划,比方加拿大的 Vector Institute(向量学院)或者 MILA、美国的麻省理工和伯克利的数据科学项目。当你看到这种项目就会知道它们的存在,但请记住,假如你当前所在的大学没能排进全球「前 200」,那你们学校就不太可能会有这种项目。

综上所述:假如你就想成为 Airbnb 的深度学习工程师,那么毫无疑问,博士学位可能是为数不多的敲门砖之一。但是假如你在读博时没有参加过一流的项目,就别指望受雇于一流的公司。

但是假如你只是想做一名普通的数据科学家,那么选择读博并非是明智之举。假如想成为一名真正的数据科学家,首先你最好要有 4 到 8 年的工作经验,在这个过程中每当有新技术出现时你都能学到,而且你可以在趋势改变之前更好地预测出新的趋势。

假如你想读与数据科学无关领域(如物理学、生物学、化学)的博士学位,但你的目标是成为数据科学家的话,我会建议你:假如你得花 18 个月或者更长时间才能毕业(而且你确定想成为一名数据科学家),那就辍学吧。沉没成本误区(sunk cost fallacy)会使你质疑这种说法(而你原本也应该认真思考),但就我的经验而言(统计而得),这才是更正确的选择。

02?硕士学位

要做数据科学的话需要硕士学位吗?

这要视情况而定。下面我刚做的计分卡。你可以根据自己的情况把分数加起来,假如分数大于 6,那你可能就需要一个硕士学位:

有「硬」STEM 背景(物理学/数学/CS 的本科或者其余学位):0 分

有「软」STEM 背景(生物学/生物化学/经济学的本科或者其余学位):2 分

没有 STEM 背景:5 分

使用 Python 的经验少于 1 年:3 分

从没涉及过编程相关的工作:3 分

无法独立学习:4 分

当我说这个计分卡是基本的逻辑回归算法时你无法了解:1 分

注意事项

你要想清楚,你需要的是数据科学硕士学位还是训练营。假如你选择参与训练营,要注意他们的激励措施:他们能否在不保障你被录用的前提下要求你付款?训练营有相关的职业服务吗?

大多数人都怀疑训练营。他们也的确值得怀疑。但是大多数人忘了他们也应该同样怀疑任何不提供就业保障的大学硕士学位。硕士学位其实也是一种训练营。要用同样的方式对待它们。不要把注意力放在成绩上,而是要放在所学内容上。问问你们项目的研究生就业率是多少。大学让学生们相信简单的项目就是好项目,或者者只是领你进门而已。这是一个心理游戏,而且通过「大学学位具备独立价值」这一已经过时的「传统观念」来强化这个游戏。但你的目标是取得工作,而不是「投入时间」后取得一张纸。

即使你已经完成了硕士课程,你也还有许多技能要学习。而且可能比你想象的还要多。但只需硕士课程足够短(不超过 2 年),而且花费没有那么高昂,那还是很值得去读的。

03?本科学位

一般来说,你要有本科学位才能成为数据科学家。这不肯定是由于你需要本科所学的知识,而是由于公司普遍还不能接受这一点:自学加上参与训练营和少量在线课程即可以让你做好参与工作的准备(虽然在某些情况下这是绝对可以的)。

本科学的东西可能与工作无关。假如你和少量科技领域的人交谈过,就会知道,就学习技术而言,工作经验远大于学习。部分起因是本科的教学内容一般会过时 5 到 10 年。假如你学的是不会发生太大变化的领域,比方物理学、数学或者统计学领域,这倒还好。

但是假如你在工程学或者 CS 领域,你暑假在一家很好的公司实习过,你想延迟毕业时间(或者辍学)来取得更多的工作经验,你百分百应该考虑这么做。假如你读本科的目的是找一份工作并且你已经在一家有极大发展空间的公司找到工作的话,那么支付更多的学费来毕业就没什么意义了。

我绝不是说你应该在本科时辍学。我说的是大部分人假如已经完成了实习,并且可以将实习转变成具体的全职工作,那他们就应该想开一点——学业没完成就算了。这种情况并不多见,但我怀疑这很大程度上只是由于许多本科生认为取得本科学历是「优秀的人做的事」而已。

我在本文给出的建议在很多方面都是非常规的。但是在像数据科学这样飞速发展的领域中,惯例一般都会远远落后于最佳方案。从社会角度讲,我们对研究生教育价值的看法很大程度上是源于传统观念的影响,而传统观念则是最需要赶上现实发展的。

当然这不意味着正规教育,或者者说研究生学位是不值得获取的。但是大家不应该把取得硕士学位或者博士学位当做必要条件:假如你只是为了良好的数据科学职业轨迹而申请硕士研究生,那也许你应该重新考虑你的策略。


推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得
    TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]
  • 本文源自极分享,详细内容请参阅原文。技术债务如同信用卡负债,随着时间推移,修复成本会越来越高,因此程序员必须对此有深刻认识。此外,团队应致力于培养一种持续维护和优化代码的文化,以减少技术债务的累积。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境,支持多种深度学习框架,并且提供免费的 GPU 计算资源。 ... [详细]
  • 非计算机专业的朋友如何拿下多个Offer
    大家好,我是归辰。秋招结束后,我已顺利入职,并应公子龙的邀请,分享一些秋招面试的心得体会,希望能帮助到学弟学妹们,让他们在未来的面试中更加顺利。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 基于OpenCV的图像拼接技术实践与示例代码解析
    图像拼接技术在全景摄影中具有广泛应用,如手机全景拍摄功能,通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法,并提供了示例代码解析,帮助读者深入理解该技术的实现过程。 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 超分辨率技术的全球研究进展与应用现状综述
    本文综述了图像超分辨率(Super-Resolution, SR)技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率(Low-Resolution, LR)图像中恢复出高质量的高分辨率(High-Resolution, HR)图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法,包括基于传统方法和深度学习的方法,并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
author-avatar
秋梯田那路77
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有