热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

什么才是顶级数据团队?我们采访了领英、滴滴等6位数据团队负责人找答案

大数据文摘出品随着大数据的范畴被逐渐拓宽,也有越来越多的从业者加入了数据团队,其建设对于企业来说也更具挑战。为了解答这些疑惑,清华大学大数

大数据文摘出品

 

随着大数据的范畴被逐渐拓宽,也有越来越多的从业者加入了数据团队,其建设对于企业来说也更具挑战。

 

为了解答这些疑惑,清华大学大数据研究中心联合大数据文摘,发起了一次深度调研,我们在过去的两个多月里,走访了来自全球不同行业的6家顶级数据团队,并且跟他们的负责人深入聊了聊“数据团队”这个话题

 

6位顶级数据团队负责人分别是(按照走访顺序):

 


  • 滴滴技术副总裁、数据科学与智能部的负责人赖春波;

  • 领英全球数据科学团队负责人许亚;

  • 腾讯安全副总裁黎巍;

  • 联想数据智能业务集团产品及生态总经理田日辉;

  • 中国移动信息技术中心大数据平台部副总经理尚晶;

  • 美团数据平台负责人李闻。

 

本次访谈涵盖了国内外不同行业及发展阶段的公司或组织,力求从尽量多的角度还原现阶段数据团队的建设全景。

 

研究内容目前已经汇总入了一份《顶级数据团队建设全景报告》,如果你还没来得及看,那么今天,文摘菌就用这篇文章带大家回顾一下,他们是如何定义和建设自己的数据团队的。

 

以下为报告中对6位数据团队负责人深度访谈的精华内容。

 


滴滴:数据体系团队四大模块,助力业务可持续发展

 

据滴滴技术副总裁、数据科学与智能部负责人赖春波介绍道,滴滴的数据体系分为四大模块,大数据架构、数据平台、数据治理、数据科学。在职位划分中,下面三大模块多为工程师、产品经理、数据开发工程师,数据科学分为数据分析师和数据科学家,他们数量最多,以“嵌入式”的方式,分布在不同的业务部门中。其中,数据科学团队,需要在业务形态中实现广泛的运营智能、产品智能和决策智能,助力业务可持续发展。

 

 

赖春波介绍,由于滴滴有网约车、车主服务、两轮车、代驾、出租车等多个业务群,滴滴的数据科学家也就很自然地分散在不同的业务部门里。为了能更全面准确赋能业务,滴滴组建了数据科学委员会,增强跨业务数据科学家间的交流和协作,同时对复杂问题进行决策,迭代数据体系建设。

 

滴滴的数据科学委员会成员占比最多的是数据分析师,他们每季度开会一次,主要针对公司的规划服务和长期定位等进行商讨。

 

而这些例行会议并不只是技术交流。毕竟除了技术能力和批判性思考的能力外,一个好的数据分析师还需要足够的商业能力、战略视野、影响力、领导力和同理心等素养,每次会议也不可避免地涉及到相关领域的讨论。

 

“分析师需要把自己脑袋的东西放到别人脑袋,是靠嘴吃饭的。”赖春波笑称。

 

不过要想真正提升产品、运营和决策的智能化,只靠一张嘴是远远不够的。赖春波介绍,数据科学团队每周会产出四五十份的专题分析研究和每周几千次的实验和评估,这些都随时可能影响到公司决策。前者会呈金字塔式排列,最顶端的体系化和方向性研究是真正实现辅助战略的决策智能,投入的精力也更多;后者主要针对业务或产品的方案进行评估,相对更加自动化和流程化。

 


领英:三大KPI指标,量化数据团队工作


 

领英全球数据科学团队负责人许亚表示,两年前她接手领英数据团队后做的第一件事就是拟定了团队成功的三要素。虽然数据团队的价值有时候很难量化,但是有三个指标可以作为探讨的基础。在数据团队内部不同组可能会有不同的侧重,但对大部分组来说这三个因素都很重要。

  

 

数据易得性和工作效率

 

数据易得性,指的是当外界需要数据的时候,获得这些数据的难易程度;工作效率,指的是一个人的工作是否可以提升整个团队的工作效率。

 

许亚表示,数据科学家之前被人诟病过于追求新鲜感,喜欢挑战高难度问题,但做完MVP (Minimum Viable Product) 后没有维护迭代的习惯,永远都在追逐下一个新难题。数据团队拥有许多数据资源,比如原始数据,指标数据,数据模型,数据可视化。

 

当外界对这些资源有需要的时候,如何能够保证这些需求能够随时被满足?软件开发有一系列衡量数据获取难易程度的指标,比如SLA(Service-Level Agreement)的达标率就是一个很好的量化指标。

 

有些数据科学家做了一个很不错的分析,但是不太关心怎么把这个分析过程自动化,所以每次有人提需求的时候就需要有人再手动跑一次模型,其实都是重复劳动,不同的人在做相同的重复劳动。如果这个分析实现了自动化,大家都可以享用,其他人就不需要花太多时间精力在这个模型上,整个数据科学团队的集体工作效率都提高了。

 

以前许亚的团队也缺少这种分析自动化产品化的意识,所以她把这个设置为成功三要素之一,强调这种意识的重要性。

 

战略化思维

 

战略化思维,指的是数据分析结果对公司重要战略性决策是否有指导作用。

 

许亚的数据团队和公司很多高层会打交道,因为他们团队有一个很重要的职责就是通过数据来确保公司重要决策的大方向是准确的。比如他们需要了解用户在疫情期间是如何使用领英服务,如何通过领英的产品获取价值的。

 

许亚认为在疫情后,用户的行为多少会发生一些不可逆转的改变,数据可以帮助团队更好地去学习用户行为变化,从而在战略上指引公司对哪些领域进行重点投资。不管是产品开发还是市场战略的决定,都需要依靠数据。

 

直接商业影响力

 

直接商业影响力 (Direct Business Impact),指的是工作成果对公司商业目标的直接影响力。

 

每个部门的工作开展是和公司要实现的大目标息息相关的,领英有公司层面的四个核心指标,数据部门在计划工作的时候,需要考虑如何对公司的商业目标产生积极影响。

 


腾讯安全:“要做好内部建设,也要走出去”,安全团队建设的三个阶段

 

腾讯安全副总裁黎巍表示,腾讯自身的安全建设,在二十年的历程中,经历了三个阶段。

 

第一个阶段是启蒙阶段,成立初期的腾讯和其他公司一样,安全建设以防御和对抗黑客入侵为主。

 

 

当然,要建立自己的安全团队不是那么简单的事,制定安全规范、构建安全体系,这些都是必要的。随着后期腾讯业务不断扩展,团队发现很多安全问题具有共性,如果只是一味被动应对,不仅会陷入“持久战”,团队也很容易进入疲态。

 

所以10年前,腾讯安全开始主动做一些安全的运营和建设,也正是这个时期安全团队的建设进入了第二个阶段,即把安全体系化和产品化,进行主动地运营。这个阶段,安全团队就总体目标达成一致——保证核心资产数据不会被窃取和丢失。这也是二十多年的发展中腾讯安全一直在践行的理念。

 

第三个阶段,腾讯自身的安全生态已经做得比较系统了,但是放眼国内,还有不少企业在安全方面处于非常原始的阶段,这就触发了腾讯安全想要走出去,把20多年的安全经验和能力资源输出到整个产业中,帮助产业数字化转型。

 

黎巍坦言道,腾讯安全希望未来不只是为企业提供产品或解决方案,还能够为企业转型打造合适的安全战略观,更多维度的能帮助企业解决安全问题

 


联想:内外部数据治理结合,优化数据平台结构


 

和很多业务部门较多的集团型企业一样,业务规模庞大的联想也面临着数据分散在不同的业务系统中,难以整合的痛点。数据团队建设在初具规模之后的最重要任务,就是建立起一个更完善的企业级数据分析平台,把这些内部分散的数据以集中的方式进行整合管理并科学地利用起来。

 

 

联想注重业务与数据团队的紧密结合,内部的数据团队与不同业务部门分工合作。因此从2016年开始,联想就开始把联想几十年信息化中的大小数据系统整合起来,形成企业整体数据湖,并构建统一的数据模型。

 

联想数据智能业务集团产品及生态总经理田日辉给我们举了个销量预测的例子,说明联想数据智能团队内部是如何使用内部流程化工具为业务部门提供辅助的。

 

联想生产销售各种复杂的设备,因此销量预测是多层次的,总销量预测会分不同地区和不同产品线。在不断发展中,数据团队把预测模型放到平台上,通过几轮配型后,进行模型积累。平台本身提供很多分析和算法工具,使业务人员运用不同的数据级,使用自动化机器学习工具测试不同的算法,并给出最优结果,同时根据业务实践来判断哪个参数和配置最符合要求。

 

由于相关数据表极其庞大,可能会存在一些数据冲突,因此公司级大平台可以进行统一数据治理,让所有人的分析工作达到比较好的效果。

 

对于外部行业客户,联想内部的数据科学家在专业知识理解方面相对薄弱。在进入行业初期,团队与客户的行业专家一起做项目,客户对企业的数据积累情况与行业的机理模型更清楚,而团队对数据与算法比较清楚。渐渐,客户本身会具备数据使用能力,团队也会积累一些所谓的行业专家,进而把应用模型带给其他客户。由于很多案例和应用框架可以复用,团队也一直在尝试加强对行业的理解,建立一些行业专家人才队伍。

 

因此,田日辉对于意向进入数据科学领域的高校学生,也提出了一些行业知识的期待。

 

“掌握新技术有较好的基础,且自学能力与使用能力强。但是应该更多理解企业的运营模式,业务需求和机理模型,多参加一些真正与实战相结合的活动,或到企业里面参与一些实际的工作与项目。

 


中国移动:20年建设经验,数据团队建设“划重点”


 

中国移动的经营分析系统建设从2002年开始,技术上采用数据仓库。当时大数据这个概念还没有出现,考虑到初期投资成本较大,国内数据仓库系统的建设主要是电信运营商、银行、保险公司这些百强企业。2007年中国移动研究院首先开始跟进Hadoop的研究,2009年,中国移动开始在省级系统上热火朝天的开始新兴MPP技术、Hadoop技术的试点和大数据平台建设。

 

中国移动在2015年明确了大数据建设的组织机构,大规模推进集中化大数据平台的建设,并推进自研BC-Hadoop在现网的落地应用。2017年开始,集中化大数据平台开始小规模的推广大数据PaaS开放模式。这个开放平台被命名为“梧桐”平台,意在“梧桐花开,凤凰自来”,提供储算资源、大数据处理工具、全网汇聚数据和安全管理能力,向内部各单位开放赋能。

 

 

平台搭建好之后,数据团队需要进一步考虑的就是如何衡量大数据的价值。中国移动信息技术中心大数据平台部副总经理尚晶表示,这个问题是从经分时期就一直在被问的问题,但或许到现在也仍没有一个完美的答案,目前主要有以下几个考量角度:

 

1. 渗透行业领域的广度考核,比如金融行业、零售行业、交通行业、旅游行业、公共安全行业等行业,形成了哪些赋能应用。

 

2. 带来的经济价值或者间接经济价值,例如由于采用大数据,同等营销资源投入下,营销成功率的提升,大数据分析发现的收入漏损,大数据直接产生的政企行业合作收入。较难计算的是间接经济价值和拓展行业的机会成本,例如企业专线销售与打包的大数据服务,收入占比较难衡量。又如基于大数据分析,面向市场设计的产品,多少价值应该计入大数据带来。

 

尚晶也给我们举了个例子。普通的营销方案成功率可能就在1%,在流量市场这个比例甚至更低,但无论营销成功与否,营销成本还是需要花费的,比如外呼人员成本、短信端口信息成本、优惠券成本,这些都是成本消耗。如果采用大数据分析,可以得到一些更精准的目标群体,根据这些有针对性的有效目标群体做营销,成功率就会从1%上升到5%,提升了5倍,同等成本获取了更多的营收。公司给的营销费用要和成本费用一样,需要和收入一起纳入考核。

  


美团:四大发展阶段,数据团队承担着不同的角色


 

作为一家非常重业务的公司,美团业务经营核心诉求包括战略决策、经营策略、运营策略(从人工运营到机器运营),而这些都离不开数据的支撑。

 

但是,随着信息技术的发展和普及,产生数据的信息源越来越多,获得洞察所需要的信息也越加丰富,但是这些错综复杂甚至是无序不规范设计的信息系统的数据是不一致的、分散的,所以就需要有一个非常重要角色把这些数据进行重新的清洗、整合,形成统一商业视角下的数据“模型”。

 

 

访谈过程中,美团数据平台负责人李闻也从“互联网业务”整个生命周期的视角解读了数据和的价值和数据团队在这一周期过程中的发展阶段:

 

1.初创期:这是业务从无到有的阶段。此时企业经营的重点是找到让人信服的商业模式。对研发的诉求主要是后台和前端,让面向用户的产品能够运转起来。此时公司对数据的诉求主要是一些基础指标的表现,用以判断商业模式的合理性,往往让了解数据产生机制的后台和前端同学承担数据统计工作就可以了。当然,在基础比较好的团队里,可以通过敏捷的统计工具直接连接数据源,写SQL统计数据并做基本的数据展现。基础类的数据指标工具比如美团的“魔数”在此时发挥的作用最大,属于一个基础设施。

 

2.成长期:在这个阶段,商业模式已经被证明是可行的,进入扩张规模抢占市场阶段。业务规模快速膨胀,此时的数据量也随之大量增加,需求也在不断迭代。既要保障现有任务的稳定性,还要快速支持蜂拥而至的需求,需要打好数据基础,做好需求管理。该阶段是对数据技术压力最大的阶段,更多是如何高效应对需求且保障现有任务的稳定性和数据的准确性。

 

3.成熟期:在保障规模下追求“毛利”为正。此时,企业经营的基本思路已经成型,需要系统建设指标体系,利用数据科学严谨的指导经营,并利用用户画像等技术更精细地理解用户从而精准营销,提高运营ROI。此时需要做好数据的治理以及内容的体系化管理。比如美团数据中台就是在这个阶段演化出来的。

 

4.持续发展期:这属于通过数据来扩大利润的阶段,企业需要结合对业务的深刻理解和行业的发展趋势,采集和整合更多元的数据内容,结合本业务特点,发现高价值用户、挖掘更多商业机会、输出更多增值服务,丰富业务的利润结构。此时,还需要更深刻的理解用户,理解数据,通过数据产生更多洞察,提高经营效率。数据开发领域的终极发展目标,应该是懂数据开发(集成)技术,懂产品的业务逻辑,懂商业,懂分析,懂经营策略,懂运营策略,同时还能推动各相关角色配合行动的综合性人才。数据源越复杂,为保障交付数据的准确性,挑战就越大,数据开发的核心价值就越大。

 

没看够?点击阅读原文/扫描下方二维码可下载报告获取更多数据团队洞察。

 

 

最后,为了答谢每一位填写问卷的朋友,报告“完整高清版”将于2020年8月4日24:00前,通过问卷中填写的邮件免费发给所有问卷参与者。


推荐阅读
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 智慧博物馆信息系统建设方案
    3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]
  • 地产科技战:10+
    作者|肖漫出品|雷锋网产业组一场房地产巨头的求变征战,正悄然开启。近年来,在限价限购、“房住不炒”以及三道红线的调控政策下,房地产企业竞相加快转型升级的步伐。一方面,房地产市场增量 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 从高级程序员到CTO的4次能力跃迁!如何选择适合的技术负责人?
    本文讲解了从高级程序员到CTO的4次能力跃迁,以及如何选择适合的技术负责人。在初创期、发展期、成熟期的每个阶段,创业公司需要不同级别的技术负责人来实现复杂功能、解决技术难题、提高交付效率和质量。高级程序员的职责是实现复杂功能、编写核心代码、处理线上bug、解决技术难题。而技术经理则需要提高交付效率和质量。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 开足马力“拼经济” 闯出崭新“精气神”
    开足马力“拼经济” 闯出崭新“精气神” ... [详细]
  • 携手生态伙伴,希捷发布银河X16数据存储方案
    2019年6月26日,希捷科技在北京举办“容海量数据筑云之基石”——2019希捷科技企业级生态合作伙伴沟通会暨银河ExosX16新品发布会。在本次发布会上࿰ ... [详细]
  • Harmony 与 Game Space 达成合作,在 Shard1 上扩展 Web3 游戏
    旧金山20 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 寻求更强大的身份和访问管理(IAM)平台的企业正在转向云,并接受身份即服务(IDaaS)的灵活性。要为IAM选择正确的场外解决方案,业务管理人员和IT专业人员必须在实施之前评估安全 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 鞭牛士报道9月22日上午,由杭州跨境电商综合试验区与PingPong联合发起的“以数字贸易为引擎外贸韧性看杭州”主题交流活动在杭州举行ping。杭州市商务 ... [详细]
author-avatar
用户rmgq8prdxo
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有