热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何实时打通数据孤岛?Tapdata创始人唐建法GOTC深度分享

7月31日至8月1日,“全球开发者开源技术盛会”的GOTC全球开源技术峰会在深圳顺利举办。Tapdata创始人唐建法(TJ)以特邀嘉宾身份出席并发表主题演讲ÿ

7 月 31 日至 8 月 1 日,“全球开发者开源技术盛会”的 GOTC 全球开源技术峰会在深圳顺利举办。Tapdata 创始人唐建法(TJ) 以特邀嘉宾身份出席并发表主题演讲:实时打通数据孤岛最佳实践。

TJ 指出,早期系统设计,不考虑数据互通,传统的 ERP、OA、CRM……每个系统都是独立的,不同架构之间具有天然的层级,数据库也多为单体式,在数据指数级增长的今天,陷入性能无法扩展的窘境,数据孤岛问题对企业而言将会“越来越痛”。如何从根本上解决数据孤岛问题? 近年来行业有着各种各样的尝试,比如数仓、大数据平台、数据中台等几代数据工具和架构,但似乎一直没有找到最佳方案。

原因是,以 Teradata、Vertica 和 Greenplum 为代表的数仓基于 MPP 架构,拓展性较差,跨节点关联计算瓶颈明显,而且不支持半结构化和非结构化数据;基于 Hadoop 架构的数据湖、大数据平台由于是开放式架构,横向扩展性强,能以原始格式存储数据而无需对数据进行结构化处理,一度占据大数据技术“顶流”地位,直到近期数据中台的概念横空出世,但数据中台的技术底层仍然以大数据平台的技术为基础,更多只是一种企业管理理念的创新。

在 TJ 看来,当前大热的主流数据中台解决方案仍存在不少误区:如贪大求全—— 产品化体验不容易达到,需要大量人力堆砌;数据业务化走的太远,各种地产中台、营销中台、金融中台… 已经越来越脱离数据;几乎都是基于 Hadoop 大数据底层,以离线数据为主,支持的核心业务场景更偏向 BI 报表、各种数据分析等 OLAP 场景,重在对历史数据做洞察和分析。

TJ 一直在强调:回归数据本质。

“为新业务提供统一、完整、实时的数据,并且支持十万级并发和毫秒级响应,能够完美支撑 TP+AP 业务” 才是新时代打通数据孤岛方案的标配。这也正是 Tapdata 在做的事情——打造一个“务实”的实时数据服务平台。所谓“务实”,包括:

  • 聚焦于数据,承担“采集,融合,治理,建模,质量,安全”等核心职责,将“洞察画像,推荐,AI
    引擎,营销引擎,大屏可视化”等非核心职责由下游业务系统完成。

  • 能够提供离线和“真实时”数据处理能力,即全链路实时:实时获取数据 + 实时处理 + 实时服务,在支撑 AP 型业务基础之上,更能支持 TP
    型业务或场景。

Tapdata 实时数据服务平台架构

通过 Tapdata 实时数据服务平台“实时”打通数据孤岛,从而支撑全渠道业务(OLTP + OLAP):

  • 实时采集融合——建立统一数据平台

  • 实时处理——构建数据资产(模型)

  • 实时服务——支持上层应用业务

TJ 的目标是:要让数据随时可用,就像使用自来水一样简单。

无论企业现在有多少个业务系统,用了多少个不同的数据库,Tapdata 实时数据服务平台能以一种无痛接入的方式,使用基于日志同步的数据虚拟化技术,为企业构建一个虚拟、统一的数据访问层。如此一来,企业需要数据的时候只需要到一个中央化的地方,通过 Tapdata 提供的标准化接口(tap),就可以简单方便地获取到想要的数据,就像打开自来水龙头取水一样简单。

要实现这一目标看似简单,实则困难重重。比如:实时数据同步的可靠性、反向更新问题,还要考虑各种异构库的同步问题等。

为了让用户体验最优,并降低客户建设成本、长期运维成本和学习曲线,Tapdata 率先采用数据即服务(Data as a Service,简称 DaaS)架构理念,没有使用主流的类似 Flink 或者 Kafka 这样的大数据技术,而是自研数据虚拟化技术,相比传统的联邦查询方式,基于同步的虚拟化对技术要求更高,容错性更低,毕竟需要对各种底层实现完全不同的数据库进行事务级别的日志解析,忠实还原并在亚秒级延迟下重放到 DaaS 平台。这个架构没有捷径,Tapdata 经过大量的实战研发,并且在不断优化实现和算法的基础上,形成了技术壁垒,能够安全可靠的将源系统数据无需其他 ETL 工具,就可以实时镜像到 DaaS 平台,并提供准确的数据服务。

Tapdata 的异构数据源统一访问框架通过定义一个支持绝大部分数据库的标准,从统一的 URL 连接方式,到富结构的数据模型,到标准的 DML 和 DDL,来为具有多源异构数据库的企业用户提供一个简单、一致的数据访问能力。只需要一种语法,就可以对企业所有数据进行浏览查看,甚至简单的更新管理。
Tapdata 实时 DaaS 架构

从此,用户无需再做多种存储方案,解决元数据、搜索、缓存、队列等问题,只需使用 Tapdata 实时数据服务平台,就拥有了一个架构简单,部署轻量,低成本和上手快的 DaaS 平台,可为业务应用及大部分数仓、大数据平台和中台建设提供最完整、统一、准确的实时源数据。

为了加快实时 DaaS 架构的普及,释放企业实时数据的巨大价值,Tapdata 将坚持开放+开源战略。 目前,Tapdata 通过云上开放的方式( http://cloud.tapdata.net ) ,已将异构数据库实时同步能力免费提供给开发者使用,虽然,Tapdata Cloud 还只是 Tapdata 的一小部分功能,但已具备独立完成多达十几种数据库的异构数据同步能力,为新业务扩展,缓存加速, 全文检索,数据库备份容灾等很多新型业务场景提供生产级的支撑,后续会逐步将 Tapdata 的所有能力迁移上云。随着 Tapdata 完成数千万美元 Pre-A 轮融资,将进一步加大研发投入,并启动核心能力的开源路线图。



  • *申请试用 Tapdata 实时数据服务平台和了解更多信息 https://tapdata.net/
  • Tapdata 是全球首个基于数据即服务(Data as a Service,简称 DaaS)架构理念、面向 OLTP 业务或场景的企业实时数据服务平台。*

推荐阅读
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • Python 数据分析领域不仅拥有高质量的开发环境,还提供了众多功能强大的第三方库。本文将介绍六个关键步骤,帮助读者掌握 Python 数据分析的核心技能,并深入探讨六款虽不广为人知但却极具潜力的数据处理库,如 Pandas 的替代品和新兴的可视化工具,助力数据科学家和分析师提升工作效率。 ... [详细]
  • 本文深入解析了Java面向对象编程的核心概念及其应用,重点探讨了面向对象的三大特性:封装、继承和多态。封装确保了数据的安全性和代码的可维护性;继承支持代码的重用和扩展;多态则增强了程序的灵活性和可扩展性。通过具体示例,文章详细阐述了这些特性在实际开发中的应用和优势。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 在拉斯维加斯举行的Interop 2011大会上,Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异,并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素,以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 本文详细介绍了如何安全地手动卸载Exchange Server 2003,以确保系统的稳定性和数据的完整性。根据微软官方支持文档(https://support.microsoft.com/kb833396/zh-cn),在进行卸载操作前,需要特别注意备份重要数据,并遵循一系列严格的步骤,以避免对现有网络环境造成不利影响。此外,文章还提供了详细的故障排除指南,帮助管理员在遇到问题时能够迅速解决,确保整个卸载过程顺利进行。 ... [详细]
  • 在Python网络编程中,多线程技术的应用与优化是提升系统性能的关键。线程作为操作系统调度的基本单位,其主要功能是在进程内共享内存空间和资源,实现并行处理任务。当一个进程启动时,操作系统会为其分配内存空间,加载必要的资源和数据,并调度CPU进行执行。每个进程都拥有独立的地址空间,而线程则在此基础上进一步细化了任务的并行处理能力。通过合理设计和优化多线程程序,可以显著提高网络应用的响应速度和处理效率。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 解决Android应用在手机安装时出现安全风险提示的方法与对策
    解决Android应用在手机安装时出现安全风险提示的方法与对策 ... [详细]
  • Hired网站最新发布的开发者调查显示,Python 语言继续受到开发者的广泛欢迎,而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据,深入分析了当前编程语言的使用趋势和开发者偏好。此外,报告还探讨了其他热门语言如 JavaScript 和 Java 的表现,并提供了对技术招聘市场的洞见。 ... [详细]
  • 2021年度回顾与深度分析
    2021年度回顾与深度分析 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
author-avatar
临沂李晓楠
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有