当前位置: 开发笔记 > 后端 > 正文

【巨杉访谈】分布式数据库如何实现海量数据实时查询

作者：yuanyuan | 来源：互联网 | 2023-06-18 20:05

巨杉数据库高访问量、海量数据业务背后的基础系统架构是如何设计和优化的？分布式数据库是如何做到数据的透明水平、垂直拆分，实现海量数据实时查询的࿱

巨杉数据库高访问量、海量数据业务背后的基础系统架构是如何设计和优化的&＃xff1f;分布式数据库是如何做到数据的透明水平、垂直拆分&＃xff0c;实现海量数据实时查询的&＃xff1f;

访谈实录

1.巨杉数据库作为国内第一款自主研发的 NewSQL 数据库&＃xff0c;在发展过程中是否遇到困难或质疑&＃xff1f;与海外产品如 MongoDB 有什么区别&＃xff1f;

巨杉数据库是巨杉团队从零开始研发的&＃xff0c;数据库内核是没有基于任何的开源数据库产品的。这一点也是我们团队非常自豪的一个成绩。

在发展过程中&＃xff0c;自然也是有一些人对我们表示质疑&＃xff0c;或者是认为国内团队不可能从零开始开发数据库&＃xff0c;或者即使是国内开发的&＃xff0c;性能和稳定性也一定不如海外产品。不过如今&＃xff0c;巨杉经过了企业市场的考验&＃xff0c;也真正用产品和技术服务证明了自己。我们超过百家的企业用户&＃xff0c;特别是银行这样客户的认可和大规模使用&＃xff0c;也是对我们最好的褒奖吧。

对于海外产品的对比&＃xff0c;我们的性能通过第三方的测试&＃xff0c;与 MongoDB、Cassandra 等都在统一水平&＃xff0c;部分性能甚至大大优于海外的产品。同时&＃xff0c;上面提到的多个企业应用场景&＃xff0c;我们也是实打实的磨炼出来的&＃xff0c;许多企业级应用场景&＃xff0c;比硅谷的 NoSQL/NewSQL 产品都要领先。

2.巨杉数据库在企业的应用场景有哪些&＃xff1f;在解决用户需求方面有什么心得&＃xff1f;

巨杉数据库发布5年以来&＃xff0c;在企业级大数据应用中积累了丰富的经验&＃xff0c;也打磨出我们的主要场景。

企业对于数据库的新需求主要包括海量数据的管理、非结构化数据的管理、历史数据在线化以及数据全维度展现等等。因此巨杉也培育了几大解决方案&＃xff0c;包括&＃xff1a;海量历史数据平台&＃xff0c;企业内容管理平台&＃xff0c;大数据湖&＃xff0c;全量数据视图等等。

3.能否谈谈巨杉数据库在海量数据存储以及高性能的查询这块技术上有什么亮点&＃xff1f;

首先&＃xff0c;由于巨杉数据库是天生的分布式架构&＃xff0c;因此能方便快捷地在X86架构下实现集群规模和存储容量的水平扩展&＃xff0c;这使得海量数据的存储不仅变得简单易行&＃xff0c;而且和传统方式相比成本大幅下降。

而在数据的录入和使用方面&＃xff0c;巨杉数据库更是充分发挥分布式架构的优势&＃xff0c;提供了一系列的技术手段以实现最佳效率&＃xff0c;比如垂直分区、水平分区、自动读写分离、自定义存储分布策略等。除此之外&＃xff0c;我们并没有丢弃现有的技术&＃xff0c;而是充分利用了已经在数据库领域中广泛使用的一些技术手段&＃xff0c;比如灵活高效的索引机制、高效数据压缩等&＃xff0c;进一步提高了数据操作时的效率。最后&＃xff0c;为了方便传统的数据库使用者&＃xff0c;我们还特意提供了 SQL 引擎&＃xff0c;并结合巨杉数据库的技术特点对 SQL 引擎做了优化&＃xff0c;让 SQL 使用者在巨杉数据库上也能有最佳体验。

综合以上特点可以看出&＃xff0c;对于有海量数据存储和高效查询要求的用户来说&＃xff0c;巨杉数据库是非常好的选择&＃xff01;

4、当数据达到亿级或者百亿级以上&＃xff0c;数据库平台构架如何设计和优化&＃xff1f;在这个领域有什么坑是开发者可以避免的&＃xff1f;

在银行这样的企业级应用中&＃xff0c;亿级的数据基本是比较小儿科。通常数据量都是百亿级别&＃xff0c;超过百TB。

对于这样的海量数据来说&＃xff0c;“分布式”技术几乎是不二之选&＃xff01;以巨杉数据库为例&＃xff0c;可利用垂直分区、水平分区等功能&＃xff0c;充分结合业务数据的特点&＃xff08;这一点很重要&＃xff09;&＃xff0c;在数据库层面做好架构设计&＃xff0c;这样就能将海量数据均匀分布到分布式集群的各个节点上&＃xff0c;同时又不会增加应用的复杂度。一旦做好了这样的架构设计&＃xff0c;应用层无论是数据的录入操作还是查询操作&＃xff0c;在数据底层都能自动定位成部分节点内甚至单节点内的操作&＃xff0c;从而将针对海量数据的操作转化成了小批量的操作&＃xff0c;必然实现效率上的极大提升。

但是&＃xff0c;也必须要意识到在“大数据”时代&＃xff0c;数据量的膨胀速度是超乎人们想象的&＃xff0c;局部节点内的数据也可能会达到一个不小的数量级&＃xff0c;这几乎是难以避免的情况。在这种情况下&＃xff0c;除了在现有集群上继续做水平扩展之外&＃xff0c;也要充分利用高效索引及数据压缩等传统技术以提高单节点内的效率。

最后&＃xff0c;不要忘记巨杉数据库的读写分离和自定义数据分布策略等机制&＃xff0c;它们可以帮助你将负载均匀分散到不同的节点上&＃xff0c;从而最大程度上避免“热点”竞争的出现&＃xff0c;这也是分布式技术所具有的天然优势。

5、如何评价现有的分布式大数据处理开源架构&＃xff1f;它们中有何需要改进或者值得借鉴的地方&＃xff1f;

第一&＃xff0c;Hadoop 不代表大数据的全部&＃xff0c;现在国内好像行成了一种风气&＃xff0c;Hadoop 就代表了大数据。但事实 Hadoop 能解决的也只是一部分的需求&＃xff0c;特别在大数据的在线实时交互这一块&＃xff0c;NewSQL/NoSQL 也是不错的选择。而这一点近一年多来&＃xff0c;我们也在众多的企业级用户身上证实了。

第二&＃xff0c;对于分布式数据库本身。NoSQL 和关系型数据库这两者肯定是逐渐融合的过程&＃xff0c;NoSQL 数据库会不断注重企业级功能如 SQL 支持的提升&＃xff0c;也是因此现在衍生出了 NewSQL 的概念。数据库未来将会是一个分布式、高性能的立足实时处理和在线服务同时作为数据源支持上层的数据分析应用的定位。

6.为什么很多分布式的数据库都采用开源的模式&＃xff1f;这种形式有什么优劣势&＃xff1f;

我们很认同一种划分就是 “开源软件商业化”和“商业软件开源化”。巨杉走的是“商业软件开源化”的路线。

我们坚持以商业化软件为核心&＃xff0c;向企业用户提供为企业用户提供高质量、稳定可靠的商业化产品与标准化专业化的技术服务&＃xff0c;这也是企业市场不变的需求。

可以说是一种技术上的情怀&＃xff0c;让我们也和硅谷的前辈们一样选择开源&＃xff0c;我们自己开发的数据库产品&＃xff0c;我们也希望和更多的开发者分享我们的技术。

同时我们也在商业化经营同时&＃xff0c;通过产品的开源和开源生态建立&＃xff0c;快速推进产品技术的品牌和用户&＃xff0c;同时能帮助构建自己的技术生态。

此外&＃xff0c;开源也有出于我们团队的技术自信&＃xff0c;也是一种程度回应对于我们自己研发的质疑吧。

而对于“开源软件商业化”&＃xff0c;如果完全开放开源&＃xff0c;对于商业化运营会有不小的影响。主要也就是商业化与社区版发展的关系&＃xff0c;社区的需求与企业用户的需求不一定一直&＃xff0c;商业版本与社区版本的发展方向也可能互相冲突&＃xff0c;甚至于商业化团队无法完全掌握核心技术&＃xff0c;这对于用户来说可不是好消息。

7.对于想踏入或刚刚进入这个领域的新人来说&＃xff0c;有没有什么心得建议&＃xff1f;

对于在这个领域经验尚不够丰富的朋友们来说&＃xff0c;我个人认为最重要的两点建议就是&＃xff1a;

1&＃xff09;充分了解你想使用的分布式技术有哪些特点&＃xff0c;并且一定要充分结合你的业务特点&＃xff0c;这样你才有可能做出最佳选择。记住&＃xff0c;绝没有哪一项技术在所有的业务场景下都是最佳选择&＃xff0c;最适合业务场景的才是最佳选择&＃xff01;

2&＃xff09;理论分析固然重要&＃xff0c;但实测更有说服力&＃xff01;不要嫌麻烦&＃xff0c;一定要用全面的测试结果来支持&＃xff08;或者推翻&＃xff09;你的方案。

上面这两点看上去都是很朴素的道理&＃xff0c;但实际操作中却经常被忽略&＃xff0c;也是极容易掉进去的坑。

【巨杉访谈】分布式数据库如何存储管理非结构化数据&＃xff1f;

巨杉数据库王涛&＃xff1a;NewSQL重新定义企业级大数据应用

产品特性
解决方案与案例
数据库下载
技术文档

微信客服&＃xff1a;
sequoiadb111

%$(LAXO}X%1H2{JOLG640GP.jpg

推荐阅读

x86
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
service
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
x86
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
x86
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
x86
React Native 开发者如何高效替换 Android 图标与布局资源

针对未接触过 Android 开发的 React Native 开发者，本文提供了详细的指南，帮助他们了解如何轻松替换 Android 应用中的图标和布局资源，包括对 APK 结构的基本认识及多种替换方法。 ... [详细]

蜡笔小新 2024-11-29 16:22:28
uuid
Windows 系统中 Flutter 与 IntelliJ IDEA 的环境配置指南

本指南详细介绍了如何在 Windows 操作系统上设置 Flutter 开发环境，并集成至 IntelliJ IDEA 中，适合初学者及专业人士参考。 ... [详细]

蜡笔小新 2024-11-29 15:07:45
package
深入解析 Android 中的 ActivityGroup 实现

本文详细探讨了如何在 Android 应用中使用 ActivityGroup 来实现类似微博客户端主界面的效果，并分析了 TabActivity 的局限性，推荐使用更为灵活的 ActivityGroup 方案。 ... [详细]

蜡笔小新 2024-11-29 14:14:32
x86
远程访问用户 Kindle通过电子书实现控制

介绍自2007年以来，亚马逊已售出数千万台Kindle，令人印象深刻。但这也意味着数以千万计的人可能会因为这些Kindle中的软件漏洞而被黑客入侵。他 ... [详细]

蜡笔小新 2024-11-29 07:58:24
x86
Python安全实践：Web安全与SQL注入防御

本文旨在介绍Web安全的基础知识，特别是如何使用Python和相关工具来识别和防止SQL注入攻击。通过实际案例分析，帮助读者理解SQL注入的危害，并掌握有效的防御策略。 ... [详细]

蜡笔小新 2024-11-28 19:57:23
x86
匠心|传统_2021年度总结 | 葡萄城软件开发技术回顾（上）

匠心|传统_2021年度总结 | 葡萄城软件开发技术回顾（上） ... [详细]

蜡笔小新 2024-11-28 16:47:46
x86
LeetCode 300. 最长递增子序列：动态规划详解

本文详细解析了LeetCode第300题——最长递增子序列的解题方法，特别是如何使用动态规划来高效解决问题。文章不仅提供了详细的代码实现，还探讨了常见的错误理解和正确的解题思路。 ... [详细]

蜡笔小新 2024-11-28 13:14:06
队列
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
package
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
service
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
x86
Mac平台下的MySQL安装与配置指南

本文详细介绍了在Mac平台上安装和配置MySQL的步骤，包括下载安装包、卸载MySQL以及解决命令行中找不到mysql命令的问题。 ... [详细]

蜡笔小新 2024-11-17 18:44:08

yuanyuan

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章