【InfoQ】TalkingData肖文峰：移动大数据技术团队的高效敏捷进化之旅

作者：1403390367_f5c8a8 | 来源：互联网 | 2023-05-18 22:47

在“移动＋大数据”的创业浪潮里，TalkingData无疑是国内最引人关注的新锐企业之一。作为目前国内最大的独立第三方移动数据服务品牌，其产品及服务涵盖了移动应用数据统计、移动广告监测、移动游戏运营、

在“移动＋大数据”的创业浪潮里，TalkingData无疑是国内最引人关注的新锐企业之一。作为目前国内最大的独立第三方移动数据服务品牌，其产品及服务涵盖了移动应用数据统计、移动广告监测、移动游戏运营、公共数据查询、综合数据管理、数据咨询服务等多款极具针对性的产品及服务。InfoQ 以移动大数据团队架构为切入口，与TalkingData CTO 肖文峰就近年来 TalkingData移动大数据业务快速升级迭代中的技术更新和团队建设话题进行了交流，并围绕“移动，数据，价值”核心理念畅想了大数据应用的未来愿景。

InfoQ：请您就 TalkingData的创业背景，和公司这几年的发展状况做一个简单介绍。

肖文峰：TalkingData 创建于 2011 年，它的核心团队来自于甲骨文、微软、IBM、BAT 还有 360，所以TalkingData 的基因既有传统 IT 行业的严谨务实的风格，也有新型互联网公司的开放精神。TalkingData在创立之初就赶上了移动互联网的浪潮，最开始是提供统计分析平台，2012 年研发了网络监测平台，从 2013年开始，随着移动游戏的发展，TalkingData 提供了游戏运营分析平台。随后，TalkingData决定不只做开发服务平台工具，而是面向数据提供更多的产品线，包括数据中心，移动观象台等数据产品。经过这几年的发展，TalkingData已经提供了开发者服务平台、数据服务平台和数据商业化平台等产品，这三个平台集合成一个强大的数据生态系统。

InfoQ：移动大数据处理最近几年非常火爆，这方面的一些新的技术和应用点也是日新月异，TalkingData平台是怎么看待和应用这些技术创新的？

肖文峰：TalkingData 是一个相对比较务实的团队，所以不会为了追新而盲目追求新技术。最开始做统计分析平台的时候，我们是用Hadoop 加 Hive的方式做离线分析，离线计算。有些用户因为需要一些实时的分析支持商业决策，所以我们就增加了实时计算的部分，同时支持实时计算和离线计算。这个和Storm的作者 Nathan Marz 提出的 Lambda 架构非常类似。在 2013年左右，移动数据量开始呈爆发性的增长，这时候平台的一些不足之处逐渐体现出来。以前用的 Hive 和MR，随着数据量和数据复杂度和计算量指数级的增加，计算资源的消耗越来越多。以前 1 分钟出的结果后来就变得 1 小时才能出，以前 1天出的结果可能最后就已经算不出来了。这时候我们必须要引入新技术去改变它，所以引入了 Spark的架构，当时Spark是属于比较新的一个架构。

另外，我们在计算和算法方面也面临同样的挑战，以前我们用的是 ML－Learning那个方式，但后来发现这个库对计算资源造成非常大的一个消耗，所以也对它进行了改进，把里面的一些算法重新改写，降低了迭代次数，把算法复杂度压了下来，数据计算结果才能很快出来。还有，我们之前用的是Kestrel，但随着数据量的增长，它的平行扩展能力变得非常差，而且多消费者支持也不是特别灵活，这时候就引进 Kafka，当时Kafka 也比较新的，也克服了很多坑，现在我们整个后台的数据中心都是架构在 Kafka 0.8.2 消息通道上面。

然后，在统计分析平台里面会大量的用到多维交叉计算。比如说我要知道三天之内小米手机本机用户在三天之内登陆过两次以上的数据有多少。这个时候就需要跨很多纬度的多维数据交叉计算。以前的交叉计算效率非常低，那我们必须引进 BitMap的那种计算方式，自己写了计算引擎，指数级的改善了效率，相当于一百倍的提升。所以，TalkingData是基于问题才考虑新的技术去解决它。这方面，其实对很多年轻人来说，他们也经常有误解，过分追求一门新工具或技术。这是非常错误的，大数据和新技术的关系是它必须基于特定的业务场景才有意义。

InfoQ：TalkingData业务的发展变化是这么的快速，这种变化对团队架构有没有带来一些挑战和改变？

肖文峰：这个问题问的蛮好的。在公司整个发展过程中呢，研发团队架构确实经过受到业务的影响而产生的几个阶段的变化。最开始从 2011到 2013年，我们做得都是针对移动开发者和社区提供一些工具与平台，如项目统计分析，通用统计分析，像移动运营分析平台等。这些平台都是烟囱型的方式，以产品部门来垂直化运作。每一个产品线，它后面都跟随着一个垂直化的一个部门，从 BD到产品，到研发部门，都是垂直性的完整团队。对研发工程师来说，从前端JS，到Java逻辑，到后端的 Kafka 再到Hadoop，到计算和运维人员，这有一套专门的人来配合。在前期做新业务的时候，它比较灵活，资源可以自由配置，很快就能出产品，能出效果，而且相对来说风险隔离在一个小的团队里面。但是，慢慢的随着公司发展，当 TalkingData决定从以工具为核心转到以数据为核心这个变化过程中，我们发现各个产品线收集出来的数据都需要进行融合，所以这时候就专门开辟了一个团队叫数据中心，针对所有平台的数据进行统一规范化，统一的通道进来，然后统一清洗、加工和处理，然后放到格式统一的数据中心里边，就可以进行打标签和做用户分群。

随着我们数据加工处理能力的稳定提升，与传统行业结合的越来越多，量级在爆发式长，比如说广告行业有一个产品线，那接下来针对房地产、银行、保险公司、奢侈品行业、餐饮、汽车等，每个行业都要有相应的平台，而每个行业需求都不太一样。所以，TalkingData团队急需要一个更加灵活的架构来应对这种挑战，相当于又把这些团队又重新打散，然后形成一些比如前端可视化团队，专门的运维团队，然后有统一的存储管理团队，还有计算，和数据挖掘团队。然后再把业务层，数据业务相关的东西薄薄的抽出来，每个业务单独的抽一个或者两个人去负责，其他的全部由公司统一来提供服务支持。基于现在的架构，未来我们依然是以数据为核心，但希望围绕 TalkingData有更多的合作方，形成一种网状的结构，这个结构里的数据都可以自由流通，这个是我们对未来的一个期望。

InfoQ：TalkingData大数据团队在打造团队文化和凝聚力这块，您可否做一些分享？

肖文峰：我个人的经历也比较复杂，之前在传统行业，在朗讯、甲骨文、微软都呆过，后来也自己创业，也在新型的互联网公司呆过，包括在360做无线安全方面的一些东西，包括清理大师和手机卫视的一些模块。在我看来，研发团队其实对不同公司和行业都是一样的，它都是为了提供交付服务而存在。具体到 TalkingData，公司同时有传统行业的人，包括从甲骨文，IBM，微软过来的，也有新型的互联网公司，BAT，360等。这些人碰撞会发生什么样的问题？

其实有几点比较关键，第一个就是平等。TalkingData研发体系职级非常扁平化，从上到下不会超过三级，所有员工都可参与月会，知道整个公司的真实发展状况。不仅是公司级别的会议，也有研发团队的周会，对所有的员工敞开，大家在一个宽松的环境里可以提出各种置疑。因为TalkingData相信数据是平等的，数据和信息也必须能够在我们内部进行自由流通。甚至前一段时间一个刚入职的研发人员就对我提出一些疑问，这在我看来是非常好的！我对这个事情是比较自豪的，因为他只有感觉到平等，他才敢质疑。

第二点就是开放。TalkingData觉得数据是开放的，我们公司的文化也具有非常强的开放性。内部鼓励各种分享，我们为此给大家提供“生育费”——学生教育费用。所有的人只要参与分享，那怕是一分钟，五分钟，我们都会给到相应的奖励。对外 TalkingData 也积极参加像InfoQ社区举办的交流活动，把自己的技术上的踩得一些坑，把它分享出来，避免更多的开发者遇到这样的问题。我们在产品上也要求必须具备很强的开放性，移动观象台就是基于开放数据的考虑而开发的产品，比如过去经常有人问说滴滴，或者快滴，他们的用户量，覆盖范围以及活跃度有什么不一样等。由于经常会遇到类似问题，TalkingData就觉得需要把这些数据开放出来，给业界提供更多的一些参考，移动观象台就应运而生。它会把所有的应用排名，内部所有的相关数据公开出来，给业界提供一个比较公正、公平、公开的大数据环境。

第三就是聚焦。TalkingData团队在产品研发过程中遇到很多次“诱惑”。比如，最开始做广告监测平台的时候，很多人就说，“TalkingData 接入了国内这么多家的DSP和网盟，那为什么不去做广告业务？广告业务是非常大的一个行业，可以快速挣很多钱”。但我们当时就决定要以数据为核心的，我们对数据更有兴趣。虽然切入到某个行业，可能短期能挣钱，但是这跟团队初始目标和长期愿景是不相符的。我们还是决定基于大数据，把数据加工处理这件基础的事情给做好。类似的，TalkingData做游戏分析平台以及银行业务数据平台的时候，也抵制住了做游戏发行和金融征信，去赚风口上快钱的诱惑，我们会非常的聚焦在自己的方向上面，这对我们团队建设也有很重要的影响。

InfoQ：TalkingData大数据平台未来的进阶发展有哪些方向？你对这方面人才的需求有哪些考量？

肖文峰：TalkingData是以数据为核心的，我们的企业愿景是，通过数据去改变企业做决定的方式，同时，要用数据去帮助人们了解周围的环境。所以对TalkingData 来说呢，基础数据的加工处理是非常重要的一件事情。我觉得未来存在两个很重要的挑战也可以叫愿景。

第一，怎么更加丰富的去刻画人。比如现在手机本身就是一个传感器集合体，它可以搜集像湿度信息、温度信息、光感信息、声音信息，位置信息等，但还有很多信息我们现在都没有搜集或用到。就拿走路这个简单的事情来说，在不同的地方，不同的时段走路的场景是不一样的，你在公园走路可能是在健身，你在大街上走路可能是在上班的路上，你在会议室走路可能是在做演示。如果想做一个信息推送，那针对不同场景，推送的内容可能是不一样的。我们接下来想要做的一件事情就是更加精细化的去刻画人，更加实时和全面的刻画他当时的状态，把这个基础设施整理出来以后，就能够给开发者去使用。举个简单例子，一个桌面软件，在家和在公司它给你显示出来的应用和内容都是不一样的。

第二，TalkingData有大量的数据资源和数据加工处理能力，那怎么把这些数据包装出来，能够让传统行业和新型的互联网企业，让合作伙伴能更加快速高效的利用这些数据是很重要的愿景。打个比方，我们把自己看作一个水库，水库的水源是来自于各个不同的合作方，各种不同的水源会聚到水库里面，TalkingData会把这些水经过各种加工处理提供给各个行业去使用。比如对数据质量要求高的行业提供的是西藏冰川5100这样的高端水源，对普通行业来说，我们可以提供像娃哈哈、农夫山泉这种普通的水，也可以提供桶装水，生活用水。那这个过程中，需要解决很多技术问题，包括数据提纯、加工、清洗、合规、交易、估值，以及数据安全等等。这些都是 TalkingData 要面临的技术挑战！我觉得能把这两点做好就已经是非常了不起。

至于对人才的要求，从我们这么多年来看，第一，要对数据有好奇心。对于理解数据的价值有很强的自驱力，这是非常重要的一点；第二，要有足够的热情和精力投入到数据的分析实践里面。有这两个就足够了，至于其他的技术知识，我真不觉得技术是个很高的门槛。所以只要符合这两点的年轻人，都可以来TalkingData 试一试。

InfoQ：感谢肖总接受我们的采访，也祝愿 TalkingData作为移动大数据处理的先行者和开拓者能够发展的越来越好，谢谢。

更多内容，请关注我的知乎专栏：【峰言峰语】

推荐阅读

web
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
case
深入解析 Android 值动画实现细节

本文详细介绍了如何在 Android 中使用值动画（ValueAnimator）来动态调整 ImageView 的高度，并探讨了相关的关键属性和方法，包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]

蜡笔小新 2024-12-20 17:58:54
web
EasyMock实战指南

本文介绍了如何使用EasyMock进行单元测试，特别是当测试对象的合作者依赖于外部资源或尚未实现时。通过具体的示例，展示了EasyMock在模拟对象行为方面的强大功能。 ... [详细]

蜡笔小新 2024-12-18 13:03:19
web
优化使用Apache + Memcached-Session-Manager + Tomcat集群方案

本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构，解决了单虚拟机环境无法真实模拟分布式环境的问题，并详细记录了性能测试结果。 ... [详细]

蜡笔小新 2024-12-14 10:07:53
go
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
function
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
list
理解反向投影技术及其应用

反向投影技术主要用于在大型输入图像中定位特定的小型模板图像。通过直方图对比，它能够识别出最匹配的区域或点，从而确定模板图像在输入图像中的位置。 ... [详细]

蜡笔小新 2024-12-23 12:24:22
case
Android 自定义绘图板应用

本文介绍如何使用 Android 的 Canvas 和 View 组件创建一个简单的绘图板应用程序，支持触摸绘画和保存图片功能。 ... [详细]

蜡笔小新 2024-12-23 10:12:53
case
Hadoop与Java间的数据类型互转详解

本文详细介绍了如何在Hadoop和Java之间进行数据类型的相互转换，包括基本类型的转换方法以及对应的Hadoop类型，如从Java的String类型转换到Hadoop的Text类型等。 ... [详细]

蜡笔小新 2024-12-13 09:58:43
web
构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系

本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责，确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]

蜡笔小新 2024-12-08 14:48:22
web
Elasticsearch (ES) 基础概念解析

本文介绍了Elasticsearch (ES)，这是一个基于Java开发的开源全文搜索引擎。ES通过JSON接口提供服务，支持分布式集群管理和索引功能，特别适合大规模数据的快速搜索与分析。 ... [详细]

蜡笔小新 2024-12-06 18:41:45
list
Apache ZooKeeper 中 FileTxnLog.setPreallocSize 方法详解与应用实例

本文详细介绍了 Apache ZooKeeper 的 FileTxnLog 类中的 setPreallocSize 方法，并提供了多个实际应用中的代码示例。通过这些示例，读者可以更好地理解如何在不同场景下合理设置日志文件的预分配大小。 ... [详细]

蜡笔小新 2024-12-05 13:52:17
web
ArchSummit深圳2014：讲师阵容公布，报名进入倒计时

ArchSummit深圳2014将于7月18日拉开帷幕，所有讲师已确认，涵盖9个热门话题，共36场精彩报告。InfoQ中文站提供了详细的讲师和报告列表。 ... [详细]

蜡笔小新 2024-12-05 12:26:16
list
Kafka入门指南

本文将详细介绍如何在CentOS 7上安装和配置Kafka，包括必要的环境准备、JDK和Zookeeper的配置步骤。 ... [详细]

蜡笔小新 2024-11-18 17:41:13
list
2020全网最全面的行业研究报告

最近我亲手采集了2020年7月前和2019年全年的最新一批行业研究报告，一共汇总了接近1000份行业研究报告，大小为5G多一点。这也是我做行业研究报告采集分享的第三年，感谢 ... [详细]

蜡笔小新 2024-09-25 10:05:48

1403390367_f5c8a8

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章