7 月 31 日至 8 月 1 日,“全球开发者开源技术盛会”的 GOTC 全球开源技术峰会在深圳顺利举办。Tapdata 创始人唐建法(TJ) 以特邀嘉宾身份出席并发表主题演讲:实时打通数据孤岛最佳实践。
TJ 指出,早期系统设计,不考虑数据互通,传统的 ERP、OA、CRM……每个系统都是独立的,不同架构之间具有天然的层级,数据库也多为单体式,在数据指数级增长的今天,陷入性能无法扩展的窘境,数据孤岛问题对企业而言将会“越来越痛”。如何从根本上解决数据孤岛问题? 近年来行业有着各种各样的尝试,比如数仓、大数据平台、数据中台等几代数据工具和架构,但似乎一直没有找到最佳方案。
原因是,以 Teradata、Vertica 和 Greenplum 为代表的数仓基于 MPP 架构,拓展性较差,跨节点关联计算瓶颈明显,而且不支持半结构化和非结构化数据;基于 Hadoop 架构的数据湖、大数据平台由于是开放式架构,横向扩展性强,能以原始格式存储数据而无需对数据进行结构化处理,一度占据大数据技术“顶流”地位,直到近期数据中台的概念横空出世,但数据中台的技术底层仍然以大数据平台的技术为基础,更多只是一种企业管理理念的创新。
在 TJ 看来,当前大热的主流数据中台解决方案仍存在不少误区:如贪大求全—— 产品化体验不容易达到,需要大量人力堆砌;数据业务化走的太远,各种地产中台、营销中台、金融中台… 已经越来越脱离数据;几乎都是基于 Hadoop 大数据底层,以离线数据为主,支持的核心业务场景更偏向 BI 报表、各种数据分析等 OLAP 场景,重在对历史数据做洞察和分析。
TJ 一直在强调:回归数据本质。
“为新业务提供统一、完整、实时的数据,并且支持十万级并发和毫秒级响应,能够完美支撑 TP+AP 业务” 才是新时代打通数据孤岛方案的标配。这也正是 Tapdata 在做的事情——打造一个“务实”的实时数据服务平台。所谓“务实”,包括:
-
聚焦于数据,承担“采集,融合,治理,建模,质量,安全”等核心职责,将“洞察画像,推荐,AI
引擎,营销引擎,大屏可视化”等非核心职责由下游业务系统完成。
-
能够提供离线和“真实时”数据处理能力,即全链路实时:实时获取数据 + 实时处理 + 实时服务,在支撑 AP 型业务基础之上,更能支持 TP
型业务或场景。
通过 Tapdata 实时数据服务平台“实时”打通数据孤岛,从而支撑全渠道业务(OLTP + OLAP):
TJ 的目标是:要让数据随时可用,就像使用自来水一样简单。
无论企业现在有多少个业务系统,用了多少个不同的数据库,Tapdata 实时数据服务平台能以一种无痛接入的方式,使用基于日志同步的数据虚拟化技术,为企业构建一个虚拟、统一的数据访问层。如此一来,企业需要数据的时候只需要到一个中央化的地方,通过 Tapdata 提供的标准化接口(tap),就可以简单方便地获取到想要的数据,就像打开自来水龙头取水一样简单。
要实现这一目标看似简单,实则困难重重。比如:实时数据同步的可靠性、反向更新问题,还要考虑各种异构库的同步问题等。
为了让用户体验最优,并降低客户建设成本、长期运维成本和学习曲线,Tapdata 率先采用数据即服务(Data as a Service,简称 DaaS)架构理念,没有使用主流的类似 Flink 或者 Kafka 这样的大数据技术,而是自研数据虚拟化技术,相比传统的联邦查询方式,基于同步的虚拟化对技术要求更高,容错性更低,毕竟需要对各种底层实现完全不同的数据库进行事务级别的日志解析,忠实还原并在亚秒级延迟下重放到 DaaS 平台。这个架构没有捷径,Tapdata 经过大量的实战研发,并且在不断优化实现和算法的基础上,形成了技术壁垒,能够安全可靠的将源系统数据无需其他 ETL 工具,就可以实时镜像到 DaaS 平台,并提供准确的数据服务。
Tapdata 的异构数据源统一访问框架通过定义一个支持绝大部分数据库的标准,从统一的 URL 连接方式,到富结构的数据模型,到标准的 DML 和 DDL,来为具有多源异构数据库的企业用户提供一个简单、一致的数据访问能力。只需要一种语法,就可以对企业所有数据进行浏览查看,甚至简单的更新管理。
从此,用户无需再做多种存储方案,解决元数据、搜索、缓存、队列等问题,只需使用 Tapdata 实时数据服务平台,就拥有了一个架构简单,部署轻量,低成本和上手快的 DaaS 平台,可为业务应用及大部分数仓、大数据平台和中台建设提供最完整、统一、准确的实时源数据。
为了加快实时 DaaS 架构的普及,释放企业实时数据的巨大价值,Tapdata 将坚持开放+开源战略。 目前,Tapdata 通过云上开放的方式( http://cloud.tapdata.net ) ,已将异构数据库实时同步能力免费提供给开发者使用,虽然,Tapdata Cloud 还只是 Tapdata 的一小部分功能,但已具备独立完成多达十几种数据库的异构数据同步能力,为新业务扩展,缓存加速, 全文检索,数据库备份容灾等很多新型业务场景提供生产级的支撑,后续会逐步将 Tapdata 的所有能力迁移上云。随着 Tapdata 完成数千万美元 Pre-A 轮融资,将进一步加大研发投入,并启动核心能力的开源路线图。
- *申请试用 Tapdata 实时数据服务平台和了解更多信息 https://tapdata.net/
- Tapdata 是全球首个基于数据即服务(Data as a Service,简称 DaaS)架构理念、面向 OLTP 业务或场景的企业实时数据服务平台。*