黄东旭：可插拔性×调度能力×云上几乎无限的资源=？丨PingCAPDevCon2021

作者：sweet梓潼_470 | 来源：互联网 | 2023-07-23 12:39

黄,东,旭,可,插,拔,性,调度,能力,云,上,几乎,无限,的,资源,丨,pingcap,d

这次我分享的主题和 2019 年还是一样的——《The Future of Database》，如果你是 PingCAP 的老朋友，参加过之前几次 DevCon 就会知道，这是我的一个保留节目。如果要说我哪里有一些与众不同的气质，我觉得除了发型之外，还有一个是对技术的信仰和执著。这个保留节目我们还是聊聊技术。

过去两年，**TiDB 在技术上发生的最大变化是什么？**可能有很多同学觉得性能变得越来越好，功能变得越来越多，生态功能越来越大，其实不是。

从一个程序员角度看，在过去两年中 TiDB 其实完成了一个很重要的转变，那就是开发模式的转变。上图中左边是一个工程师对着屏幕在写代码，这是我们早年在第一个办公室里面开始写 TiDB 第一行代码的状态。旁边放了一瓶可乐和披萨，想到什么写什么。现在 TiDB 整个研发流程越来越像右边这张图，一个小工厂流水线化做月饼。虽然现在离中秋节还稍微有点距离，还是很可爱。

TiDB 这两年最重要的一件事情，是研发流程以一个全新的发版模型去做软件工程，我们称它为“火车发版”模型。这个模型的特点，是我们会把很多大的 feature 以小的迭代进行逐步增量发布，意味着更易于管理发布周期。

很多人可能会说“关我什么事？”，这件事情非常重要的意义在于，TiDB 从一个纯粹社区的开源软件开始慢慢变成面向企业级的数据库产品。说得再接地气一点，用户真实场景里面需要的 feature 最快两个月就能合并到 TiDB 的主干，并交付给用户。

两年前，我的演讲题目也是《The Future of Database》，上图是两年前演讲的截图。向量化，当时这是一个挑战，现在已经完成了；TiFlash ，当时只是在草图上设计的一个架构，在 5.0 引入 MPP 后让它变成了一个真正的 Real-time HTAP 的数据库；IPC /异步提交，5.0 的性能和稳定性都得到了稳步提升；TiDB DBaaS，现在 TiDB Cloud 已经是服务千家万户，服务全球各个地方的真实产品；本地事务异地多活，两年时间也做完了。

两年前的五大构想，今天都变成了现实。

从 2019 年到现在的两年时间中，在**这些 feature 背后我们经历了什么？**是两年时间超过三万个 PR 的合并。人总是有成长的，两年前的我和现在的我区别是什么？发型没有变，T 恤也是一样的，变化的是 TiDB 合并了三万多个 PR。回头看我两年前的 PPT，我在思考一个问题，TiDB 的竞争力或核心优势是什么？很多数据库都说自己的核心优势是性能好、功能多。那么，TiDB 的优势是什么？

两年前我的 PPT 里面有一页叫 Everything is Pluggable，我觉得特别有味道，**TiDB****的真正优势在于技术开放性。**架构开放就意味着能够产生更多的连接，更多连接意味着更快的迭代速度、更多的可能性。

为什么 TiDB 的系统核心优势是开放性？大家可以花几秒钟时间去思考一下，这一个思考的角度，让我这两年慢慢开始变成一个哲学家。这个角度是：单机数据库和分布式数据库最本质的区别是什么？做分布式数据库的工程师的这些痛苦和幸福的根源在哪里？我们真正的敌人是什么？我们要解决什么样的问题？我们怎么解决这些问题？

作为一个系统的设计者，在思考系统的时候，**我觉得我们真正的敌人是复杂性。**TiDB 这么一个几百万行代码的软件，跑在 3 台机器上，跑在 30 台、300 台、3 万台的服务器上还是这一套代码。大家想象一下， 3 台机器的复杂性和 3 万台机器的复杂性是一样的吗？

我们生活中见过最复杂的系统是什么？就是活生生的生命，生命是最复杂的系统。包括每个人每天在和这个世界发生各种各样的交互，我们没有办法预料明天。我们去看生命这么一个复杂的系统，我们往里看人的生命最开始就是一个受精卵，细胞不停分裂，很简单。再往下看 DNA，排列组合，所以我觉得从生命和自身的角度看，才能真正找到解决对抗复杂性的办法，这就简单了。

这里有肖邦老师的一句话，真正难的事情是把系统做简单，简单意味着美。TiDB 在这方面的设计理念和很多的常规做法还是有点不一样的，刚才我提到一句话，我们幸福和痛苦的根源在哪？刚才也提到我们是一个不一样的公司，技术上往深去思考我们到底和其他的数据库区别是什么？最根源的区别我觉得在于核心的设计理念，当理解了 TiDB 核心设计理念再去看 TiDB 的技术架构设计，有很多具体技术问题大家自然就能够想通了，也能想到为什么我们会这么做。

左边这是一个惯常思维，1）我要做一个数据库，2）做一个分布式数据库会怎么做，3）我试着把这些数据库上面的表给做分片，分区表，不同的分区放在不同的服务器上就是分布式了。

我们过去从来没有做过数据库，但是我们有一个疯狂的想法，这个想法就是我们要做一个分布式数据库，我们开始是去定义数据最小的流转单元，像刚才看到的那张动图里面的细胞一样，我们去定义这些细胞的分裂、合并、移动，复制，繁殖。把这些规则用最极简，正交，自洽的规则赋予这些细胞生命，让这些细胞长成一个数据库，是 TiDB 最核心的理念。单机数据库和分布式数据库本质区别在什么，分布式数据库在一台台机器上是可以生长的。

左边这张图解释了一下，常规是这样去设计，几乎所有的数据库都是从上往下设计的，TiDB 是一个 bottom-up 的设计，先定义底层细胞，在让它长成一个数据库的样子。

下一个问题，让大家思考几秒钟，给大家铺垫一下，左边的名词，两地三中心，异地多活，跨地域数据分布能力，本地事务，动态热点打散，实时在线捞数，只读表。这些功能的共同点是什么？

问：如果我要去实现这些功能该怎么去实现？这些功能背后的共同点是什么？有没有一个关键的点，解决了这个点所有能力都能马上拥有，有没有这样的东西？

答案揭晓，刚才所有这些技术的名词和所有的这些刚才提到的用户看到的东西，背后都依赖一个能力就是“调度”，刚才我提到了那个问题，一个单机数据库，一个单机系统和分布式系统最本质的区别到底是什么？我给出答案是可调度能力，这是区别于单机系统最主要的能力。可调度能力是开放的基础，开放架构不能让这个数据库以不变应万变，这个万变就像把自己重塑成更适合用户的场景的数据库，如果没有这样的能力分布式系统就变得没有意义，就不能说自己是一个开放的系统。

所以，这个其实是 TiDB 在技术架构上最核心最闪光的价值。今天聊技术，我们在可调度性上做了哪些事情，这是一盘大棋，不是一个 feature，这是一个理念，我们看这个理念过去现在和未来会长成什么样子。熟悉 Raft Proxy 技术的朋友，底层架构上，刚才我提到的细胞是基于 Raft 复制协议的复制组，这其实是我们整个调度最细粒度的单元，我们在这些一个个数据复制组上赋予它自我繁殖、分裂、合并、移动的能力。右边这张图有一个 Learner，用户会心一笑，选择这样的单元作为细胞是很合适的，每一个细胞的行为都是一样的，它是同构的。

我们再放飞一下，原来 Learner 这个技术的第一次引用我们想给它找一个应用场景，这个应用场景就是 TiFlash，本来只是我们脑中一个小实验，我能不能在这个细胞上让它多复制一小块，让它干点别的事情? 当时，我们觉得 AP 能力不太强，需要底层数据存储列存的数据结构，我们把这个架构在副本上让它支持列存，于是 TiDB 就有了 HTAP 的能力，在这个基础上不到两年时间一个小团队把整个 Real-Time HTAP 这个系统就做出来了。

为什么这么快做出来？TiFlash 是可调度性的理念绝佳的一个例子，而且我脑子里还有很多很奇怪的想法，Real-Time HTAP，TiFlash 只是开始。

最细粒度的调度能力，可调度上的调度能力，我们再进一步往上看，有一些朋友熟悉 Foreign Data Wrapper（FDW），现在 TiDB 还不支持 Foreign Data Wrapper。这个功能比较好理解的一个说法，让 TiDB 把其他的数据源当作它内部一张表来进行查询，比如说当这个功能支持了以后，我可以把 Redis 作为 TiDB 中的一张外表，把 MySQL 数据作为一张外表，可以一起关联分析 HBase 这些数据。

但是，FDW 意义仅仅停留在"联邦查询"吗？我在思考这个 feature 是为什么？因为我在看这个 feature 的时候联想到关于数据库的本质，数据库这种软件的本质是什么？**当你抛开所有的数据结构，存储的能力，抛开所有功能，数据库里面到底存了什么东西？**数据库把所有刚才我说的概念都剥离开，它只干两件事情，一是存储真实的数据，另外一部分是叫做索引，数据库无非就是数据和索引，怎么在这两种概念中辗转腾挪。按照刚才的思路把整个数据库当成数据和索引的容器，索引这个概念其实就是一种特殊映射的表关系，索引也是一张表，你要索引的内容对应到数据上的映射关系。

那我们就跟着这个思路重新思考 FDW。右边是我的灵魂画风，有点难以看懂，今天整个数据库行业的趋势，其中一个趋势是各种各样的细分领域的数据库诞生，图数据库，向量搜索数据库，全文检索数据库，TiDB 能不能把这些数据库的能力变成它的索引能力？比如说我有一张表这里面存储着用户的关系，用户的信息，大家知道在一个关系上的搜索、查询用图的模型更好，如果是用传统的比如说我用索引的数据结构查询得很慢，用图模型可以极大加速这个性能。如果从这个角度去思考，TiDB 的索引能够接入其他的这些数据库，让其他的数据库作为 TiDB 的索引，同时以一个统一的接口给用户提供服务，是不是打开了新世纪大门的感觉？

今天大会的主题是开放×连接×预见。

我觉得特别有意思就是这个“×”号，我也不知道这些东西加进去以后能对 TiDB 的生态带来多大的可能性，任何人试图去预估它的价值都是傲慢的，我们能做的就是把这些基础给开发者打好，这是索引的部分。

我们再把目光往下看，数据库的本质一个是数据，一个是索引，现在我们看数据，关于数据大家第一个联想就是存储引擎，数据的存储是最关键的一个话题。熟悉 TiDB 整体系统架构的同学肯定对左边这张灵魂画风的图不会陌生，刚才我提到 TiDB 在内部其实是把数据已经拆分成了无数个小小的细胞，每个细胞是一个复制组，分裂，合并，移动。但是在物理层面上存储我们现在是使用基于 Database 的 Real-time HTAP。TiKV 底层用的是 Rocks DB ，TiFlash 用的存储引擎我们命名叫 Delta tree，两种引擎。

还能不能有更多？

在存储上去体现开放性和可调度性的能力，有一个基础的前提就是对存储引擎进行抽象，熟悉 TiDB 的代码的同学如果去看它的代码仓库，发现有一个很有意思的文件夹叫Engine API，这件事情特别有意思，我直接把代码放上了，意思就是我们试图去对存储本身的能力进行抽象，这个抽象是一个基础。

这个抽象的意义在哪？我们为什么做这件事情？我对未来的一个判断，为什么一般来说数据库技术负责人总会谈到性能、功能，为什么今天我们来讨论哲学？因为我觉得从更长的一个维度来看，当你的软件在保持高速迭代能力的时候，它是一个动态的进化过程，进化的终局是什么？

先来看性能，在 TiDB 发展过程中，每一个版本都保持着 100% 性能提升的速度往前走，可以保持到 6.0，7.0 每次都是百分之百增长，未来优化是无止境的。我个人认为，不会说发明了一种新的硬件和算法解决了全世界所有应用场景的性能问题，粒度会变得越来越细，有一些优化用于某些具体场景，比如用来存用户的关联和关系就是图的模型最好。但是有一点，我觉得用户不用去关心他在使用什么样的数据库的结构，哪一块数据在使用哪一种数据结构，这些都不重要。

右边的图透露了 TiDB 在做的巨大的一个事情，信息量非常大，我们做的事情，刚才 Engine API 的抽象让我们能做一件事情，熟悉 TiDB 的朋友都知道，我们在一台存储节点上是共享一个存储引擎，现在我们慢慢对每一块数据分片，每一个细胞让它能够自己拥有自己的存储引擎，这个事情在我们实验室里已经做完了，效果非常棒，当时都震惊了。

下一步发展，当我把数据的细胞存储拆分了以后，下一步到底是不是 Delta tree 这件事情不重要了，比如我有一部分数据在业务场景里面一年只访问一次，但是不能丢，我又不希望用 SSD 来存，我能不能用云上 S3 的存储，甚至在一张表里面的一个数据特别热，对一致性要求没有那么高，是不是能在内存中对这一块数据的形态做一个变换。而且更有意思的是，这些所有的变换都是动态的，对业务都是透明的，回想刚才我说的可调度性和细胞这几个概念。

我刚才说所有这些技术都是为了一件事情，都需要构建在一个基础上，刚才我说了分布式系统的终局，分布式系统可调度是它的核心优势，**这个基础我相信各位大概能够猜出是什么，我需要有一个近乎无限的弹性资源池，就是云。**关于云的重要性我觉得现在整个行业还在低估，现在天天说云，但是我觉得云其实是构建未来新一代软件的最重要的一个基石。

我觉得对于云有一个很好的说法，我作为一个软件工程师看待云就像什么？我用了无限的资源，就像一堆积木我怎么去拼，手上有多少钱能拼成什么样子。右边这张图是 Flink 的架构，Flink 是一个很有意思的产品，它上市有各种各样的新闻，但是我最早注意到它是在 2016 年，它发表第一篇论文的时候，我看那篇论文，是我这几年最喜欢的论文之一，那篇论文更大意义在于它开创了一种新的软件设计的思路，开创了新的物种，基于云的服务去构建的基础软件，它是第一个，但绝对不是最后一个，TiDB 在这个领域是走在最前面的软件之一。

TiDB 的核心思想，开放性体现在可插拔，存储和计算可插拔、可调度，借用今天主题“ × ”号，乘以调度能力，可插拔以后还能调度，细粒度，粗粒度调度，乘以云上几乎无限的资源它又等于什么。

回顾一下我今天的题目，The Future Database，终极的 Future 是什么，这张图是我理想中的数据库的样子：底层各种各样的资源池，各种各样的云，公有云、私有云，混合云；上面中间逻辑这一层是数据平台，用户不同的业务不同数据，对数据库有不同要求，数据库会根据用户的需要自动去重塑自己；在不同的颗粒度上，从副本分布我们去做全球跨数据中心部署，这种能力对于 TiDB 来说工程代价并不是太高，刚我说调度能力，索引，我们通过 FDW 未来可以引入各种各样多种形态的索引。开了一个小小脑洞，图的数据库作为 TiDB 的索引，根据用户需求变换自己的形态。

所以，大胆预测一下，刚才那个公式“可插拔性 × 调度能力 × 云上几乎无限的资源 = ？”，数据库作为一个独立的软件形态我认为会被颠覆，同时意味着整个数据库的“数据服务平台化”会崛起，我们下一代很多在场的各位为人父母，下一代的小朋友可能到他们写程序的年纪，可能不知道什么是 CPU，什么是内存，什么是磁盘，什么是操作系统，可能看到的就是一个个云服务，比如要用数据库的时候好象有一个 TiDB 的东西，我把信用卡绑上去之后就可以直接用一个 SQL 的接口里操作就完了，不需要知道什么叫索引，什么叫 Delta tree。

我们回头看一下今天我们大会三个关键字，开放，连接，预见，只有开放的架构才能有更多连接，更多的连接才能让我们有更好未来，这是今天我关于 TiDB 的技术和设计理念的分享。

推荐阅读

regex
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
ip
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49
grid
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
email
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
ip
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
ip
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
ip
开源数据库与数据结构算法

本文介绍了多种开源数据库及其核心数据结构和算法，包括MySQL的B+树、MVCC和WAL，MongoDB的tokuDB和cola，boltDB的追加仅树和mmap，levelDB的LSM树，以及内存缓存中的一致性哈希。 ... [详细]

蜡笔小新 2024-11-14 12:53:50
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
ip
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
ip
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
ip
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
ip
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56

sweet梓潼_470

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章