热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于数据库:TCL-基于-StarRocks-构建统一的数据分析平台

作为随同改革开放浪潮成长起来的中国当先电子企业,TCL领有13万员工,业务遍布160多个国家和地区,寰球累计服务用户超9.6亿。如此宏大的企业体量和业

作者:陈树煌,TCL 实业数据管理部副总监(本文为作者在 StarRocks Summit Asia 2022 上的分享)

作为随同改革开放浪潮成长起来的中国当先电子企业,TCL 领有 13 万员工,业务遍布 160 多个国家和地区,寰球累计服务用户超 9.6 亿。如此宏大的企业体量和业务规模,构建对立的数据分析平台势在必行。

截止目前,TCL 已将 StarRocks 利用于新方舟实时大屏、团体 HR 服务、邮件告警等场景。新方舟实时大屏场景中,TCL 基于 StarRocks 构建了实时数仓,均匀的响应速度在 200-500 毫秒内;团体 HR 服务场景中,TCL 把小时级数据从 ClickHouse 切换到 StarRocks 上进行多表关联的自助剖析,查问性能晋升了 3-5 倍;在邮件告警场景中,TCL 基于 StarRocks 构建了实时日志数据的数据分析及算法利用,实现了秒级预警性能,准确率达到 92.3%。

本文将围绕背景、OLAP 建设历程、StarRocks 典型利用场景、将来布局等几点开展介绍 TCL 抉择并利用 StarRocks 的最佳实际。

#01

背景介绍

TCL 团体通过四十多年的倒退,造成了两大团体和三大外围产业,其中 TCL 实业次要聚焦在智能终端业务,包含 TV、空调、冰箱等等。而 TCL 科技则向产业链的上游倒退,聚焦在半导体显示、新能源与半导体资料等高科技产业。目前 TCL 有 13 万名员工,业务遍布 160 多个国家地区。

格创东智是 2018 年 TCL 策略孵化的工业互联网企业,背靠 TCL 这棵大树,对内负责 TCL 的数字化转型建设工作,对外则将在 TCL 外部实际成熟的计划转化成产品或服务对外输入。在去年刚取得工信部双跨平台的认证,累计为 20 多个行业提供产品和咨询服务。

TCL 行将迎来第 41 个生日,目前 TCL 正在进行第四次大的改革,全面地进行数字化转型,TCL 总部负责整体的兼顾以及对立投资建设各个产业公共的设施以及技术平台,大数据平台是其中的共享平台之一。产业则依据本身的状况,自行布局转型的节奏。

TCL 实业目前正在进行业务模式、业务流程、规定等的梳理,输入了 13 个一级流程。最近几年会聚焦在研发畛域的 IPD、供应链畛域的 ISC、财务畛域的 IFS 等重点的几个流程,梳理分明每个业务的步骤以及下面所承载的数据将流程数据固化到新的自研的一套业务零碎,用这套业务零碎替换掉现有的业务零碎。

在往年年中,咱们在一家子公司投入了 300 多名业务人员、200 多名技术人员,同时上线了七套供应链零碎。紧接着在八月份上线了国内的营销中台,目前正在进行的是国内的服务售后平台、研发平台,以及相干其余子公司的供应链零碎的建设。

接下来的一两年是 TCL 实业建设的高峰期,对集体而言,这是积攒能力或者学习历练的好机会。放眼当今中国,很少有团体级的企业做这么大的投入,这对集体来说还是比拟好的时机,再此也欢送感兴趣的敌人退出咱们,助力 TCL 的数字化转型胜利。

为什么 TCL 会投入这么多资源做规范的建设呢?做过数据分析平台的敌人应该比较清楚,数据分析的难点不在于技术,而是数据。就像厨师要做出美味的佳肴,要害不在于应用多先进、多精美的厨具,而是在于食材以及相应的办法。

TCL 实业是与多家原先独立经营的子公司整合而成,各个子公司的业务、数据、规范、流程都不统一,以研发运维为例,就存在了四套 PLM,在这下面所承载的对同一个电容,各个系统的编码是不统一的,而形容这个电容所应用的字段是不一样的。有些零碎可能用 10 个字段去形容这个电容,有些零碎用 50 个字段形容这个电容,从零碎层面是没方法辨认成同一个电容,这导致后续无奈进行集中洽购,通过规模去降低成本,同时也无奈进行整个库存的剖析,撑持后续的排查。有可能在 a 零碎显示的是缺料,但在 b 零碎其实资料曾经积压。

所以实业目前想通过业务流程的标准化零碎整合数据的治理,从数据产生就保证数据的洁净、清洁,实现数据在全流程的贯通。一方面晋升整个业务的运作效率,同时数据会汇聚到大数据平台,做进一步的数据分析,撑持量化的决策,驱动业务的改良。

为了撑持数据从产生到前期的生产、经营,全生命周期的治理,咱们在建设整个数据管理体系,包含一些政策、标准、流程组织等一些 IT 零碎。

#02

OLAP 建设历程

这是咱们在建设的大数据及 AI 平台的利用架构,最下面是数据分析的平台,次要撑持的是自助 BI、大屏等等的一些剖析。

TCL 通过几十年的倒退,有一些数据分析平台,最简略的就是关系数据库,再加一些开源的组件,简单点的是基于 Hive 平台其它 BI 做相应的建设。

为了保障业务的平滑迁徙,在团体对立的平台建设的时候,咱们也是基于整个 Hadoop 生态构建的 Hive 的数仓,将加工后的数据导入到关系型数据库或 Kudu 等数据库去做数据的剖析。

2021 年随着财务数据的接入,海量剖析的问题凸显,于是咱们引入了 ClickHouse。随着业务倒退、自助剖析场景的利用越来越多,截至八月份,整个自助剖析平台累计达到 6000 用户。多表关联的性能以及并发的问题也逐步呈现,同时,业务对数据的实效性也要求更高,在此背景下,咱们引入了 StarRocks 解决相应的问题。

上图展示的是以后数据分析的相干组件,能看出组件还是比拟多的,包含一些关系型的数据库、Kudu、ClickHouse 的组件。这导致运维的老本比拟高,开发也要基于不同的场景选用不同的组件,减少了开发的难度。咱们心愿逐步替换成 StarRocks,去升高运维老本以及开发的难度,晋升开发的效率。

目前咱们也在做 StarRocks 相应些场景的验证,基于后面的一些实际,咱们总结了 ClickHouse 与 StarRocks 的一些优缺点,ClickHouse 目前来说还是单表的性能最优,StarRocks 的长处在于多表关联、写入的性能以及高并发,整体来说跟业界的指标是统一的,这里就不开展。


这是年初咱们在做 POC 的时候做的多表上的写入和查问的比照,能够看出,随着数据量减少,StarRocks 的劣势越来越显著。

#03

StarRocks 典型利用场景介绍

1、新方舟实时大屏

第一个场景是新方舟的实时大屏,咱们基于 StarRocks 构建了实时数仓,去撑持实时数据的剖析,体现的是 StarRocks 的时效性和高并发。

新方舟是咱们往年刚上线的营销中台。基于营销,咱们要做很多方面的数据的剖析,这个场景要面临逾越营销、供给、制作等等多域的数据的集成剖析,不同域的数据时效性,对剖析的要求不一样。


新方舟的整体架构如上图所示。对于实时性要求比拟高的剖析,咱们通过构建实时数仓去接入,而对于时效性要求比拟低的,咱们则通过离线数仓去接入。实时数仓和离线数仓加工后的数据全副导入到 StarRocks,以反对前端的数据利用,包含一些大屏的剖析、自助剖析等等。


这是过后做的 618 的销售看板,通过新方舟场景的验证,StarRocks 能很好的撑持实时数仓以及实时报表剖析的需要。

整体的体验还是比拟好的,均匀的响应在 200 到 500 毫秒内。

2、团体 HR 服务

第二个场景是团体 HR 的服务,这里次要是验证 StarRocks 自助剖析的过程中多表关联的查问性能。

团体 HR 是咱们首个建设的数据资产,咱们接入了各个产业的 E-HR 零碎,进行数据的荡涤,造成了整个数据的资产,撑持了几个人力的利用和数字化经营的剖析。

这外面会有个指标极其的场景,TCL 每年会收到政府的一些长期的报数要求,为了应酬这种场景,咱们会做一个花名册,花名册外面有 200 多个字段,字段会散布在 30 多张表外面。

没有做整个数据分析平台之前,HR 是从 SAP 每月导出数据到 Excel 进行报数剖析,整个导入的过程将近 30 分钟。上线整个数据分析平台之后,咱们在数据平台外面会生成每个月的快照,撑持须要的自助剖析,起初时效性进步到每天,往年提出更高的要求,要求小时级别的刷新。

这个场景次要面临的是多表关联的查问,刚开始,咱们通过 ClickHouse 实现,包含每月的快照,每日的快照,用大宽表这种形式,整个体验还是比拟好的。但到了小时级别,就须要做多表的关联,整个查问的工夫比拟长,大略 15 秒左右。

在往年咱们引进了 StarRocks 之后,把小时级的数据切换到下面,查问的性能晋升了 3-5 倍,查问只须要 3-5 秒,用户体验比拟好。

3、邮件告警

第三个场景是邮件告警,次要验证的是 StarRocks 海量的读写、实时、高并发的能力。

整个 TCL 目前有 7 万多名用户,每天都面对着黑客攻击等威逼,为了防止相干的安全隐患给公司造成损失,咱们目前在尝试通过一些 AI 等新技术去辨认相应的危险。

这个场景次要面临的挑战是实时的要求比拟高,海量数据的写入性能要求比拟高,以及高并发的数据统计查问。

以前咱们用 Kudu 加 Impala 实现,咱们外部做了几个 StarRocks 和 Kudu 的性能比照,发现 StarRocks 的整体性能优于 Kudu,包含写入、查问和高并发。于是咱们整个场景都切换成 StarRocks 去实现,整体的成果还是比拟好的。目前我到当地出差,一下飞机关上邮件很快就能收到相应的提醒。

#04

将来布局

1. 买通交融: StarRocks 是咱们往年新上线的 MPP 数据库,跟咱们自研的大数平台存在很多整合的工作,咱们会持续往下发展。

2. 晋升效力: 整个实时数仓这块布局逐步切换到 StarRocks,晋升整个实时数仓效力。

3. 化繁为简: 咱们逐步去收敛 OLAP 引擎到 StarRocks,升高经营以及开发的老本。

4. 极速对立: 极速对立相干的开发。打造以 StarRocks 为主的 OLAP 数据分析平台,并基于此实现数据对立存储、对立剖析、对立服务、赋能不同业务场景,减速数据价值产出。

5. 稳固运行: StarRocks 还算比拟新的 MPP 产品,可靠性、稳定性有待进一步的察看,咱们也在逐步完善 StarRocks 的监控。

对于 StarRocks

StarRocks 创建两年多来,始终专一打造世界顶级的新一代极速全场景 MPP 数据库,帮忙企业建设“极速对立”的数据分析新范式,助力企业全面数字化经营。

以后曾经帮忙腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳固运行的 StarRocks 服务器数目达数千台。 

2021 年 9 月,StarRocks 源代码凋谢,在 GitHub 上的星数已超过 3600 个。StarRocks 的寰球社区飞速成长,至今已有超百位贡献者,社群用户冲破 7000 人,吸引几十家国内外行业头部企业参加共建。


推荐阅读
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
author-avatar
dsgfg
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有