当前位置: 开发笔记 > 编程语言 > 正文

设计数据密集型应用DataIntensiveApplication

作者：jx轩宝妈咪 | 来源：互联网 | 2023-09-11 18:55

不懂数据库的全栈工程师不是好架构师——Vonng周六停更SpringBoot从入门到实践系列教程读一本好书《设计数据密集型应用》-DesigningData-Intensive

不懂数据库的全栈工程师不是好架构师 —— Vonng

周六停更 Spring Boot 从入门到实践系列教程

读一本好书《设计数据密集型应用》- Designing Data-Intensive Application

简称&＃xff1a;DDIA

在正确的时候读一本合适的书是一种幸运~

作者&＃xff1a; Martin Kleppmann
原书名称&＃xff1a;《Designing Data-Intensive Application》
译者&＃xff1a;冯若航
Gitbook地址&＃xff1a;https://legacy.gitbook.com/book/vonng/ddia-cn/details&＃xff08;需要科学上网&＃xff09;
建议使用Typora或Gitbook以获取最佳阅读体验。

这本书的作者是少有的从工业界干到学术界的牛人&＃xff0c;知识面广得惊人&＃xff0c;也善于举一反三&＃xff0c;知识之间互相关联&＃xff0c;比如有个地方把读路径比作programming language的lazy evaluation而写路径比作eager evaluation&＃xff0c;令人拍案。这一本数囊括了几乎所有数据处理相关工作中可能遇到了的内容&＃xff0c;而且也有非常棒的实操经验。比如书的一开始&＃xff0c;作者反复强调监控中分位数的作用&＃xff0c;可以揭示一些被平均数掩盖的事实&＃xff0c;我也正好有一个监控从都是监控平均值变成主要监控若干p99分位数的经历&＃xff0c;看到这里&＃xff0c;不由得掩卷叹息。

这本书循循善诱的写作手法应该是相当高超了&＃xff0c;讲解得非常深入浅出&＃xff0c;一般照着提出问题 -> 解决方案 -> 这个方案的长处短处 -> 发散到其它方案这个模式讲解&＃xff0c;看起来可以说是不知不觉&＃xff0c;非常轻松&＃xff0c;也没有有些作者的拽文习惯&＃xff0c;几乎全部是中学词汇&＃xff0c;句子也不复杂&＃xff0c;保证非英语母语的人可以流畅阅读&＃xff0c;这点可以说是非常良心了。

作者在最后一小节还讨论了大数据的伦理问题&＃xff0c;尽管现实世界中&＃xff0c;金钱利益面前&＃xff0c;可能无人理会这些事情&＃xff0c;但是这些夫子自道&＃xff0c;还是很体现作者情怀。我觉得这是升华整本书的地方。

每一个数据工程师和产品经理都应该把最后一节&＃xff0c;Doing the right thing&＃xff0c;读十遍。

为了说服大家为什么值得读十遍&＃xff0c;我摘抄几句&＃xff1a;

automated systems can systematically and arbitrarily exclude a person from participating in society without any proof of guilt, and with little chance of appeal

machine learning is like money laundering for bias

when services become good at predicting what content users want to see, they may end up showing people only opinions they already agree with, leading to echo chambers in which stereotypes, misinformation, and polarization can breed

Data is the pollution problem (as in Industrial Revolution) of the information age

作者最后说&＃xff1a;

we should stop regarding users as metrics to be optimized, and remember that they are humans who deserve respect, dignity and agency.

做一个有情怀的工程师当如是啊&＃xff01;

内容简介

第一部分数据系统的基石

本书前四章介绍了数据系统底层的基础概念&＃xff0c;无论是在单台机器上运行的单点数据系统&＃xff0c;还是分布在多台机器上的分布式数据系统都适用。

第一章将介绍本书使用的术语和方法。可靠性&＃xff0c;可扩展性和可维护性 &＃xff0c;这些词汇到底意味着什么&＃xff1f;如何实现这些目标&＃xff1f;
第二章将对几种不同的数据模型和查询语言进行比较。从程序员的角度看&＃xff0c;这是数据库之间最明显的区别。不同的数据模型适用于不同的应用场景。
第三章将深入存储引擎内部&＃xff0c;研究数据库如何在磁盘上摆放数据。不同的存储引擎针对不同的负载进行优化&＃xff0c;选择合适的存储引擎对系统性能有巨大影响。
第四章将对几种不同的数据编码进行比较。特别研究了这些格式在应用需求经常变化、模式需要随时间演变的环境中表现如何。

第二部分&＃xff1a; 分布式数据

在本书的第一部分中&＃xff0c;我们讨论了数据系统的各个方面&＃xff0c;但仅限于数据存储在单台机器上的情况。现在我们到了第二部分&＃xff0c;进入更高的层次&＃xff0c;并提出一个问题&＃xff1a;如果多台机器参与数据的存储和检索&＃xff0c;会发生什么&＃xff1f;

你可能会出于各种各样的原因&＃xff0c;希望将数据库分布到多台机器上&＃xff1a;

可扩展性

如果你的数据量、读取负载、写入负载超出单台机器的处理能力&＃xff0c;可以将负载分散到多台计算机上。

容错/高可用性

如果你的应用需要在单台机器&＃xff08;或多台机器&＃xff0c;网络或整个数据中心&＃xff09;出现故障的情况下仍然能继续工作&＃xff0c;则可使用多台机器&＃xff0c;以提供冗余。一台故障时&＃xff0c;另一台可以接管。

延迟

如果在世界各地都有用户&＃xff0c;你也许会考虑在全球范围部署多个服务器&＃xff0c;从而每个用户可以从地理上最近的数据中心获取服务&＃xff0c;避免了等待网络数据包穿越半个世界。

扩展至更高的载荷

如果你需要的只是扩展至更高的载荷&＃xff08;load&＃xff09;&＃xff0c;最简单的方法就是购买更强大的机器&＃xff08;有时称为垂直扩展&＃xff08;vertical scaling&＃xff09;或向上扩展&＃xff08;scale up&＃xff09;&＃xff09;。许多处理器&＃xff0c;内存和磁盘可以在同一个操作系统下相互连接&＃xff0c;快速的相互连接允许任意处理器访问内存或磁盘的任意部分。在这种共享内存架构&＃xff08;shared-memory architecture&＃xff09;中&＃xff0c;所有的组件都可以看作一台单独的机器。

i. 在大型机中&＃xff0c;尽管任意处理器都可以访问内存的任意部分&＃xff0c;但总有一些内存区域与一些处理器更接近&＃xff08;称为非均匀内存访问&＃xff08;nonuniform memory access, NUMA&＃xff09;。为了有效利用这种架构特性&＃xff0c;需要对处理进行细分&＃xff0c;以便每个处理器主要访问临近的内存&＃xff0c;这意味着即使表面上看起来只有一台机器在运行&＃xff0c;分区&＃xff08;partitioning&＃xff09;仍然是必要的。

共享内存方法的问题在于&＃xff0c;成本增长速度快于线性增长&＃xff1a;一台有着双倍处理器数量&＃xff0c;双倍内存大小&＃xff0c;双倍磁盘容量的机器&＃xff0c;通常成本会远远超过原来的两倍。而且可能因为存在瓶颈&＃xff0c;并不足以处理双倍的载荷。

共享内存架构可以提供有限的容错能力&＃xff0c;高端机器可以使用热插拔的组件&＃xff08;不关机更换磁盘&＃xff0c;内存模块&＃xff0c;甚至处理器&＃xff09;——但它必然囿于单个地理位置的桎梏。

另一种方法是共享磁盘架构&＃xff08;shared-disk architecture&＃xff09;&＃xff0c;它使用多台具有独立处理器和内存的机器&＃xff0c;但将数据存储在机器之间共享的磁盘阵列上&＃xff0c;这些磁盘通过快速网络连接ii。这种架构用于某些数据仓库&＃xff0c;但竞争和锁定的开销限制了共享磁盘方法的可扩展性【2】。

ii. 网络附属存储&＃xff08;Network Attached Storage, NAS&＃xff09;&＃xff0c;或存储区网络&＃xff08;Storage Area Network, SAN&＃xff09;

无共享架构

相比之下&＃xff0c;无共享架构&＃xff08;shared-nothing architecture&＃xff09;&＃xff08;有时称为水平扩展&＃xff08;horizontal scale&＃xff09; 或向外扩展&＃xff08;scale out&＃xff09;&＃xff09;已经相当普及。在这种架构中&＃xff0c;运行数据库软件的每台机器/虚拟机都称为节点&＃xff08;node&＃xff09;。每个节点只使用各自的处理器&＃xff0c;内存和磁盘。节点之间的任何协调&＃xff0c;都是在软件层面使用传统网络实现的。

无共享系统不需要使用特殊的硬件&＃xff0c;所以你可以用任意机器——比如性价比最好的机器。你也许可以跨多个地理区域分布数据从而减少用户延迟&＃xff0c;或者在损失一整个数据中心的情况下幸免于难。随着云端虚拟机部署的出现&＃xff0c;即使是小公司&＃xff0c;现在无需Google级别的运维&＃xff0c;也可以实现异地分布式架构。

在这一部分里&＃xff0c;我们将重点放在无共享架构上。它不见得是所有场景的最佳选择&＃xff0c;但它是最需要你谨慎从事的架构。如果你的数据分布在多个节点上&＃xff0c;你需要意识到这样一个分布式系统中约束和权衡 ——数据库并不能魔术般地把这些东西隐藏起来。

虽然分布式无共享架构有许多优点&＃xff0c;但它通常也会给应用带来额外的复杂度&＃xff0c;有时也会限制你可用数据模型的表达力。在某些情况下&＃xff0c;一个简单的单线程程序可以比一个拥有超过100个CPU核的集群表现得更好【4】。另一方面&＃xff0c;无共享系统可以非常强大。接下来的几章&＃xff0c;将详细讨论分布式数据会带来的问题。

复制 vs 分区

数据分布在多个节点上有两种常见的方式&＃xff1a;

复制&＃xff08;Replication&＃xff09;

在几个不同的节点上保存数据的相同副本&＃xff0c;可能放在不同的位置。复制提供了冗余&＃xff1a;如果一些节点不可用&＃xff0c;剩余的节点仍然可以提供数据服务。复制也有助于改善性能。第五章将讨论复制。

分区 (Partitioning)

将一个大型数据库拆分成较小的子集&＃xff08;称为分区&＃xff08;partitions&＃xff09;&＃xff09;&＃xff0c;从而不同的分区可以指派给不同的节点&＃xff08;node&＃xff09;&＃xff08;亦称分片&＃xff08;shard&＃xff09;&＃xff09;。第六章将讨论分区。

复制和分区是不同的机制&＃xff0c;但它们经常同时使用。如图II-1所示。

图II-1 一个数据库切分为两个分区&＃xff0c;每个分区都有两个副本

理解了这些概念&＃xff0c;就可以开始讨论在分布式系统中需要做出的困难抉择。第七章将讨论事务(Transaction)&＃xff0c;这对于了解数据系统中可能出现的各种问题&＃xff0c;以及我们可以做些什么很有帮助。第八章和第九章将讨论分布式系统的根本局限性。

在本书的第三部分中&＃xff0c;将讨论如何将多个&＃xff08;可能是分布式的&＃xff09;数据存储集成为一个更大的系统&＃xff0c;以满足复杂的应用需求。但首先&＃xff0c;我们来聊聊分布式的数据。

第三部分&＃xff1a;衍生数据

在本书的第一部分和第二部分中&＃xff0c;我们自底向上地把所有关于分布式数据库的主要考量都过了一遍。从数据在磁盘上的布局&＃xff0c;一直到出现故障时分布式系统一致性的局限。但所有的讨论都假定了应用中只用了一种数据库。

现实世界中的数据系统往往更为复杂。大型应用程序经常需要以多种方式访问和处理数据&＃xff0c;没有一个数据库可以同时满足所有这些不同的需求。因此应用程序通常组合使用多种组件&＃xff1a;数据存储&＃xff0c;索引&＃xff0c;缓存&＃xff0c;分析系统&＃xff0c;等等&＃xff0c;并实现在这些组件中移动数据的机制。

本书的最后一部分&＃xff0c;会研究将多个不同数据系统&＃xff08;可能有着不同数据模型&＃xff0c;并针对不同的访问模式进行优化&＃xff09;集成为一个协调一致的应用架构时&＃xff0c;会遇到的问题。软件供应商经常会忽略这一方面的生态建设&＃xff0c;并声称他们的产品能够满足你的所有需求。在现实世界中&＃xff0c;集成不同的系统是实际应用中最重要的事情之一。

记录和衍生数据系统

从高层次上看&＃xff0c;存储和处理数据的系统可以分为两大类&＃xff1a;

记录系统&＃xff08;System of record&＃xff09;

记录系统&＃xff0c;也被称为真相源&＃xff08;source of truth&＃xff09;&＃xff0c;持有数据的权威版本。当新的数据进入时&＃xff08;例如&＃xff0c;用户输入&＃xff09;首先会记录在这里。每个事实正正好好表示一次&＃xff08;表示通常是标准化的&＃xff08;normalized&＃xff09;&＃xff09;。如果其他系统和记录系统之间存在任何差异&＃xff0c;那么记录系统中的值是正确的&＃xff08;根据定义&＃xff09;。

衍生数据系统&＃xff08;Derived data systems&＃xff09;

衍生系统中的数据&＃xff0c;通常是另一个系统中的现有数据以某种方式进行转换或处理的结果。如果丢失衍生数据&＃xff0c;可以从原始来源重新创建。典型的例子是缓存&＃xff08;cache&＃xff09;&＃xff1a;如果数据在缓存中&＃xff0c;就可以由缓存提供服务&＃xff1b;如果缓存不包含所需数据&＃xff0c;则降级由底层数据库提供。非规范化的值&＃xff0c;索引和物化视图亦属此类。在推荐系统中&＃xff0c;预测汇总数据通常衍生自用户日志。

从技术上讲&＃xff0c;衍生数据是冗余的&＃xff08;redundant&＃xff09;&＃xff0c;因为它重复了已有的信息。但是衍生数据对于获得良好的只读查询性能通常是至关重要的。它通常是非规范化的。可以从单个源头衍生出多个不同的数据集&＃xff0c;使你能从不同的“视角”洞察数据。

并不是所有的系统都在其架构中明确区分记录系统和衍生数据系统&＃xff0c;但是这是一种有用的区分方式&＃xff0c;因为它明确了系统中的数据流&＃xff1a;系统的哪一部分具有哪些输入和哪些输出&＃xff0c;以及它们如何相互依赖。

大多数数据库&＃xff0c;存储引擎和查询语言&＃xff0c;本质上既不是记录系统也不是衍生系统。数据库只是一个工具&＃xff1a;如何使用它取决于你自己。记录系统和衍生数据系统之间的区别不在于工具&＃xff0c;而在于应用程序中的使用方式。

通过梳理数据的派衍生关系&＃xff0c;可以清楚地理解一个令人困惑的系统架构。这将贯穿本书的这一部分。

第四部分&＃xff1a;关于作者

Martin Kleppmann是英国剑桥大学分布式系统的研究员。此前他曾在互联网公司担任过软件工程师和企业家&＃xff0c;其中包括LinkedIn和Rapportive&＃xff0c;负责大规模数据基础架构。在这个过程中&＃xff0c;他以艰难的方式学习了一些东西&＃xff0c;他希望这本书能够让你避免重蹈覆辙。

Martin是一位常规会议演讲者&＃xff0c;博主和开源贡献者。他认为&＃xff0c;每个人都应该有深刻的技术理念&＃xff0c;深层次的理解能帮助我们开发出更好的软件。

更快更新请关注我公众号&＃xff1a;be_coder

公众号&＃xff1a;【转行程序员】专注新人转行入门指导&＃xff0c;老兵技术提升&＃xff0c;包含各种新手学习资料&＃xff0c;架构师技能提升系列文章&＃xff0c;欢迎关注。

推荐阅读

ci
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
install
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
usb
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
java
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
cmd
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
install
开发笔记:软件测试知识点之数据库压力测试方法小结

篇首语：本文由编程笔记#小编为大家整理，主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-10 20:29:19
io
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
io
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
java
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
java
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03
config
解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法

本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题，并给出了正确的解决方法。详细描述了问题的出现情况和报错信息，并提供了解决该问题的步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-13 16:31:57
io
开发笔记:计网局域网：NAT 是如何工作的？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了计网-局域网：NAT是如何工作的？相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-13 13:04:08
java
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
io
CentOS 7部署KVM虚拟化环境之一架构介绍

本文介绍了CentOS 7部署KVM虚拟化环境的架构，详细解释了虚拟化技术的概念和原理，包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]

蜡笔小新 2023-12-12 21:38:57
io
从SQL数据库读取星型模式数据文件

我们有（据我所知）星型模式SQL数据库中的数据文件。该数据库有5个不同的文件，扩展名为 ... [详细]

蜡笔小新 2023-12-12 10:09:07