热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

腾讯高级数据分析师采访2

之前推荐了第1篇腾讯高级数据分析师的采访,可以点击查看:我采访了一位腾讯高级数据分析师今天推荐第二位来自腾讯天美的数据分析师。唐松——腾讯天美数据分析师

之前推荐了第 1 篇腾讯高级数据分析师的采访,可以点击查看:

我采访了一位腾讯高级数据分析师

今天推荐第二位来自腾讯天美的数据分析师。

唐松——腾讯天美数据分析师

第二期邀请的嘉宾是唐松,我个人最看好的一名数据分析师

唐松来腾讯之前,从事过数据解决方案的咨询工作,然后去美国进修了数据科学的研究生课程,进入腾讯后,快速成长,在直播行业和游戏运营有丰富经验。他开发的潜力主播挖掘模型,为运营创造了巨大价值,他同时也是python爬虫畅销书的作者(著有《Python网络爬虫从入门到实践 第2版》)。我从他身上看到敬业、拼搏、热爱、好学的优点,以及对理想的执着。

某种意义上,邀请他做这次访谈,是我这个前浪向这位后浪的致敬,我在他这个年纪,达不到这种高度。我内心深处,期待更多后浪数据分析师涌现,超越我们这些前浪,放大数据的力量。

▲唐松的自我介绍PPT

01

为何选择做数据分析师?

1、你为何选择数据分析师这个职业?

唐松:发现和探索未知是底层的原因,通过分析数据,可以得到很多原来未知的结论。还记得大学本科时代,当时帮香港的一家餐饮集团做数据分析项目,发现吃猪扒饭的食客很喜欢点可乐,这个小发现帮助了业务上的改进,当时的快乐和满足感一直无法忘记。

于是,本科找工作也是做了数据咨询,之后去了美国读数据科学的研究生,再然后来到腾讯做数据挖掘的模型,也是围绕着从数据中发现和探索,不断地输出自己的价值,为业务增长做出贡献来做。

2、你觉得美国的数据科学教育和中国的有什么不同?

唐松:我没有在国内学过数据科学,仅谈谈我在美国学习的感受。

在美国学数据,有一种被服务的感觉。教授会把机器学习的知识掰开揉碎了讲,学起来不费功夫。就算机器学习上课听不懂,课后也有21个左右的TA可以提问,平均下来每天3个,覆盖了早中晚,简直就是全方位的服务;还有一个类似论坛的线上平台,同学们可以随时提问,教授和TA一般会在1小时内回答。

此外,教授的上课会更讲究“道”。每一个算法,上课都会讲原理,总结出使用场景和优缺点;下课要用python从0实现一遍算法,然后在一个场景应用。这样撸一遍之后,基础会非常扎实。这也是我为什么当时面试腾讯,能拿到“技术大咖”的原因,问一个机器学习算法都能把公式背下来。

第三,学习的过程是双向的。上课的过程不只是老师在上面讲课,同学也可以随时提问。几乎每个老师都会把课程的参与列入最终成绩,会时不时提很多问题,激发同学的思考。回答没有对错,只有回答的勇气,以及是否对该问题有充分的思考。

3、你python学得很好,你认为学好python,最关键是什么?

唐松:Python的学习在我的书里也有分享,其实很简单:手输代码,反复练习。我们学Python的目的是为了解决问题,那么可以针对自己感兴趣的点,用Python去实现去钻研。很多同学和我说,我们从不生产代码,我们只是代码的搬运工。这点在学习的初期非常错误,如果你只是复制粘贴的话,给你一张白纸,你会什么代码都写不出。

4、什么原因促使你写了python爬虫的书?

唐松:缘分。因为给港中文的学生上课,讲Python爬虫,所以我在知乎更新了Python爬虫文章;因为我在知乎更新了Python爬虫教程,所以有编辑找上了我;因为我当时正好有空,所以我有时间把整个知识进行系统的输出,所以这是意想不到的缘分。

▲唐松的书

02

数据分析师应该指导团队打仗

5、你觉得什么人适合从事数据分析工作?

唐松:热爱数据分析的人。虽然听上去这句话是废话,但其实却是最真实的。没有适合不适合,只有热爱不热爱。如果你怀着热爱,你就会发动自己一切有限的技能去分析数据,并且坚持下去。对数据分析的爱终将发光,让你的数据分析技能就不断生长,最后人们会说,哇,你真的是一个数据分析天才。

6、你觉得优秀的数据分析师应该具备什么素质和技能?

唐松:要求的能力需要很全面,我这里应用我之前的老师,LinkedIn前数据总监的模型,Ask Measure Learn简单列一下。

(1)Ask,就是提出问题。真正的厉害的数据分析师,应该是团队的指挥官,用数据和思考指导团队打仗的:面对着复杂的业务场景,能进行深度思考,问出其中关键性的问题。相比之下,一般的数据分析师,能够将业务提的需求,转化成数据问题,用数据的角度来尝试解答,而不是一上来就瞎跑数。

(2)Measure,就是处理数据的过程。为了解决问题,一个优秀的数据分析师,必须有18般武艺,包括了写Python和SQL等代码的能力,包括了建模能力,统计概率知识,可视化等等。除了以上的硬实力,还有一点非常重要:逻辑推理能力,不能凭自己的感觉和猜想一步就跳到结论,整个过程必须要论据充分,论证严谨,需要具有经得起挑战的逻辑推导到结论。

(3)Learn,就是分析的结论如何?下一步该怎么做?一般来说,我们分析三类问题:

    1. 是什么?对产品的现状或者活动的好坏下定义

    2. 为什么?归因分析,找出好或者不好的原因

    3. 怎么做?下一步该怎么改进

这里我有8字箴言:“战战兢兢,如履薄冰”,因为对于数据分析报告中的每个字,对于团队而言就是一锤定音,每个字都要斟酌。一个优秀的数据分析师,需要抱着中立的态度,能够用简洁准确的话语,用准确形象的数据可视化来传递信息。

7、在数据分析工作中,你最不愿意干的活是哪些?

唐松:最不愿意做的是纯跑数,比如说帮我看一下xxx数据,却不告诉我为啥要看。这样感觉自己只是个没感情的机器,新时代的搬砖小工,不停转磨的那头驴。

8、在数据分析工作中,哪些让你觉得最有成就感?

唐松:最初我的感觉是自己数据分析的结果,最终能推动业务落地,带来价值,成就感就非常高了。在我慢慢转型业务的过程中,我慢慢觉得,我和业务是一体的,产品的收入上涨,活跃留存变好,我也非常有成就感。我觉得这个更像是一种增长的思维。

9、你觉得数据科学未来的趋势会是怎样?

唐松:data science这个词太大了,包含的内容很多,自认为还没到能够谈对未来趋势的水平。只是谈谈我自己对数据分析的看法。

(1)生产力整合和提升是未来的趋势。数据中台概念的提出,就是在于过去粗放式发展抢夺蓝海市场已经遇到瓶颈,必须深耕细作,才能将亩产不断提高。

(2)数据会被更多地放到业务的全局去看。就像目前大火的增长黑客一样,其实是从整个产品的大局出发,透过数据分析等多种方法找到增长点,既不忽视数据分析的作用,也不轻视商业思维产品思维的价值。

10、你觉得增长黑客的方法与传统的增长方法,有什么不同?

唐松:通过我自己在数据中台和运营团队的经验,我觉得主要的差异点有三个:

(1)增长黑客的方法强调AB Test

增长黑客的方法,非常强调决策的判断要通过科学而严谨的方法来进行测试,正向收益的行为和决策才会真正放到线上来实现;一般运营团队的方法是通过数据分析+强大的产品思维来判断,或者先上线,看数据再调整,再看数据再调整,但一般缺乏严谨的因果论证,另外也不够敏捷。

(2)增长黑客的方法强调性价比

增长黑客的方法强调行为的性价比,会将目标进行拆解,通过增长等式来量化收益,发现其中性价比最高的机会,团队之间也会围绕这目标一起努力。传统的增长方法,虽然都是会看KPI(也就是北极星指标)做事,但是一般缺少了对每个行为的绝对量化,一般是自我感觉或者老板来决定了做事的优先级,例如花费大量人力的事情去做新增,但是可能产品已经在成熟期,新增对DAU影响很小;或者花费大量时间拉付费渗透,其实对收入影响不大。

(3)增长黑客的方法强调团队的协作性

增长黑客强调了团队之前的协作性,统一向一个目标前进。传统的方法,各个团队的KPI可能是不一样的,例如数据分析可能会用数据分析报告的数量作为KPI,开发用bug率和完成量等作为KPI,市场用拉新作为KPI,活跃运营负责活跃,商业化运营负责收入。但是,增长团队是把大家的利益捆绑在一起,围绕北极星指标一起努力,作为一个团队努力。

▲增长黑客的含义

03

数据分析师的“蘑菇理论”

11、你觉得,最理想的数据分析团队,应该是怎样的?

唐松:数据团队往往被认为是业务的支撑角色,给业务写SQL提供报表服务的。但是理想的数据分析团队,绝不是完全的支撑部门,应该有自己的理想,去引领和驱动业务的前进。只有这样,每一个成员才有一定的使命感和成就感,才是有战斗力,有创造力的团队

想要让数据分析团队变得有价值,就必须站在半个产品/运营负责人的角度,用产品的语言和思维进行沟通,不仅仅去理解业务,而是和业务站在一起。天美工作室有个“蘑菇理论”去理解用户,同样的也可以用在数据分析师上。把这些思考,站在数据、技术、产品和用户的角度去理解,推动解决

注:蘑菇理论由天美总裁提出,核心思想是想办法潜入目标用户群,感同身受并理解用户。

12、你如何平衡你的工作和生活?

唐松:这是我目前非常大的挑战,平时工作时间比较长,而且可能随时被call,这对于平衡生活是很大的挑战。对于我而言,我会要求自己保持运动,另外在周末的时候,按照自己舒服的节奏来过,比如周日和朋友去吃个brunch,然后宅家看一天书,或者和朋友出去玩,把周末这一天过得舒服。除此之外,把自己的目标从单纯工作拓展到更多目标,例如目标是每年出去2次大旅游,比如今年打算去看极光和非洲(目前很难实现)等等。

13、善良和聪明,你觉得哪个更重要,为什么?

唐松:对于数据分析师来说,这里先引用一下Alice对于善良和聪明的理解:善良是让严谨的数据说话,不带任何个人偏向去解读数据;聪明是老板想要什么样的数据,或者你想让数据呈现什么样的结论。

在我看来,善良更重要。但做数据分析师,需要善良但不失聪明。

数据分析工作,无时无刻在强调善良的重要性,数据需要尽可能反映实际的表现情况,否则就被挑战。首先在准确性上,数据容不得半点错误,任何一个微小的错误,都会要被纠正;其次在态度上,数据同学需要尽量中立地反映实际的情况,整个过程必须论据充分,论证严谨,得出的结论必须是一锤定音,无懈可击的

但是为啥要加上不失聪明呢?因为没有绝对的对错,事物都是有两面性的,特别是从数据分析到落地策略的时候,如果不发挥自己的创造性和思考能力,是很难产生有价值的推动落地的。

14、你最近从支持部门的数据分析团队去到产品运营团队做数据分析,你觉得两者最大的不同是什么?

唐松:研究火箭和战场肉搏的区别。

我之前做过一个比喻,在支持部门做数据分析,就像是在研究所研究火箭和导弹,每天想着开发出新的模型和工具帮助各个业务精准击中敌人;在产品运营团队做数据分析,就像是上战场肉搏,每天都面临真实的商业环境,在战火中淬炼;在洞察--> 落地 -->评估,这个循环的流程中,不断强化自己的分析能力和业务推动力,身处在顶尖的游戏工作室,要求高,时间紧,一段时间下来,回头看看自己的业务能力已经提升了很多,但是对于高精尖的技术能力有些落下了。

15、你认为AI会取代数据分析师吗,为什么?它能够取代哪部分?

唐松:不会,目前看来对于人工智能来说,有多少人工就有多智能,能够解决的问题多在有监督学习的场景,例如人脸识别,语音识别等场景。数据分析师不光是和数据打交道,和人打交道才是重点。

04

给数据新人的推荐

16、对于想进入数据分析领域的新人,你有什么建议?推荐哪些书?

唐松:建议是真正到一款产品,从0开始,深入参与数据分析和策略落地过程,不断重复Ask Measure Learn这个过程。如果没有这个机会的话,可以开始看书上课打好基础:

推荐的课程:

(1)维上:《增长黑客》(Sean Ellis那本)和《硅谷增长黑客实战笔记》

(2)统计上:概率要懂,机器学习的基础算法要懂,推荐Andrew Ng的机器学习课,概率推荐Udacity的 Introduction to Inferential Statistics;以上都是基础课,想要更深入的话,网上有大量的美国名校免费课,比如首推我上过的康奈尔的大神Kilian教的机器学习CS480,还有Stanford的CS229(机器学习),哈佛的Stat 110(学概率论)

(3)AB测试:仅推荐Udacity的 A/B Testing课程,其他的中文书不推荐

(4)编程上:SQL和Python要会,这里不推荐书,SQL推荐去W3school学一遍,既简单又免费;Python的基础推荐去看廖雪峰老师的Python文章,免费又讲的好,然后去kaggle刷一个简单的比赛,看看大神的代码,想学爬虫的可以看我的书《Python网络爬虫》。

相关课程链接

1. 康奈尔的机器学习

https://www.youtube.com/watch?v=MrLPzBxG95I

2. Andrew Ng的机器学习课

https://www.coursera.org/learn/machine-learning

3. Udacity - Introduction to Inferential Statistics

https://www.udacity.com/course/intro-to-inferential-statistics--ud201

4. Stanford的CS229

http://cs229.stanford.edu/

5. 哈佛的Stat 110

https://projects.iq.harvard.edu/stat110/youtube

6. Udacity - A/B Testing

https://www.udacity.com/course/ab-testing--ud257

7. SQL - W3school

https://www.w3school.com.cn/sql/index.asp

8. 廖雪峰Python

https://www.liaoxuefeng.com/wiki/1016959663602400

  延伸阅读  
Python:
☞ 这是我看过的最好的Python零基础Pandas教程
☞ 入门必看 Python 书单汇总
☞ 我用 Pyhton 做了款可开淘宝店赚钱的工具☞ 一个超有意思的 Python 综合能力测试网站技能GET:
☞ 拍一拍,微信史上最短一行代码
☞ 立刻、马上对你的电脑做这三件事!
☞ 专为技术人员打造的搜索引擎,提升n倍搜索效率!
☞ 一个聚合全网热点信息的神网站




推荐阅读
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
  • Android实战——jsoup实现网络爬虫,糗事百科项目的起步
    本文介绍了Android实战中使用jsoup实现网络爬虫的方法,以糗事百科项目为例。对于初学者来说,数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据,并以糗事百科作为练手项目。同时,提到了使用jsoup需要结合前端基础知识,以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • Go语言实现堆排序的详细教程
    本文主要介绍了Go语言实现堆排序的详细教程,包括大根堆的定义和完全二叉树的概念。通过图解和算法描述,详细介绍了堆排序的实现过程。堆排序是一种效率很高的排序算法,时间复杂度为O(nlgn)。阅读本文大约需要15分钟。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 分享css中提升优先级属性!important的用法总结
    web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]
  • PHP函数实现分页含文本分页和数字分页【PHP】
    后端开发|php教程PHP,分页后端开发-php教程最近,在项目中要用到分页。分页功能是经常使用的一个功能,所以,对其以函数形式进行了封装。影视网源码带充值系统,vscode配置根 ... [详细]
  • 第七课主要内容:多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]
author-avatar
久福网_382
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有