7.1IcebergTrino如何解决链上数据面临的挑战

作者：雨水-_-打湿我的脸_950 | 来源：互联网 | 2023-08-12 19:07

*此文章是#HowFootprintWorks*系列的其中一个章节。链上数据处理面临的挑战区块链数据公司，在索引以及

* 此文章是 #How Footprint Works* 系列的其中一个章节。

链上数据处理面临的挑战

区块链数据公司，在索引以及处理链上数据时，可能会面临一些挑战，包括：

海量数据。随着区块链上数据量的增加，数据索引将需要扩大规模以处理增加的负载并提供对数据的有效访问。因此，它导致了更高的存储成本；缓慢的指标计算和增加数据库服务器的负载。
复杂的数据生产流程。区块链技术是复杂的，建立一个全面和可靠的数据索引需要对底层数据结构和算法有深刻的理解。这是由区块链实现方式的多样性所决定的。举一个具体的例子，以太坊中的 NFT 通常是在遵循 ERC721 和 ERC1155 格式的智能合约中进行创建的，而像 Polkadot 上通常是直接在区块链运行时间内构建的。对于用户来说，不管是任何形式的存在，这些数据应该被视为 NFT 的交易，需要被存储，并且处理为可读状态，方便分析以及进行计算。
集成能力。为了给用户提供最大的价值，区块链索引解决方案可能需要将其数据索引与其他系统集成，如分析平台或 API。这很有挑战性，需要在架构设计上投入大量精力。

随着区块链技术的使用越来越广泛，存储在区块链上的数据量也在增加。这是因为更多的人在使用该技术，而每笔交易都会给区块链增加新的数据。此外，区块链技术的使用已经从简单的资金转移应用，如涉及使用比特币的应用，发展到更复杂的应用，包括智能合约之间的相互调用。这些智能合约可以产生大量的数据，从而造成了区块链数据的复杂性和规模的增加。随着时间的推移，这导致了更大、更复杂的区块链数据。

本文中，我们将以 Footprint Analytics 的技术架构演变作为分析案例，探索 Iceberg-Trino 如何解决链上数据面临的挑战。

Footprint Analytics 拥有最全面的链上数据索引仓库，目前涵盖 22 个公链，17 个 NFT 市场，超过 1900 个 GameFi 项目，以及超过 66 万个 NFT 收藏。当我们谈及 22 条公链底层数据时，不同与其他行业，区块链的数据大部分都是交易数据，而非单纯传统行业的日志数据，22 条公链大概数量级行数大概是 200 亿以上，而这些是经常需要被查询的数据。

在过去几个月中，我们经历了以下三次大的系统版本升级，以满足不断增长的业务需求：

架构 1.0 Bigquery

在 Footprint Analytics 初创阶段，我们使用 Bigquery 作为存储和查询引擎。Bigquery 是一款优秀的产品，它提供的动态算力，和灵活的 UDF 语法帮助我们解决了很多问题。

不过 Bigquery 也存在着一些问题：

数据没有经过压缩，存储费用过高，特别是我们需要存储将近 20 条区块链的原始数据；
并发能力不足：Bigquery 同时运行的 Query 只有 100 条，不能为 Footprint Analytics 提供高并发查询；
非开源产品，绑定 Google 一家供应商。

所以我们决定探索新架构。

架构 2.0 OLAP

我们对最近很火热的 OLAP 产品非常感兴趣，OLAP 让人印象深刻的地方就是其查询反应速度，仅需亚秒级响应时间即可返回海量数据下的查询结果，对高并发的点查询场景也支持比较好。

我们挑选了其中一款 OLAP 数据库，Doris 进行了深入的尝试。

但是很快，我们碰到了以下问题：

不支持 Array JSON 等数据类型
- 在区块链的数据中，数组 Array 是个很常见的类型，例如 evm logs 中的 topic 字段，无法对 Array 进行计算处理，会影响我们计算很多指标。
DBT 支持有限，不支持 merge 语法来 update data
- DBT 是数据工程师比较典型的处理 ETL/ELT 的工具，尤其是 Footprint Analytics 团队。merge and update 这也是很常见的需求，我们需要对一些新探索的数据进行更新操作。

也就是说，我们无法在 Doris 上完成我们的数据生产流程，所以我们退而求其次，让 OLAP 数据库解决我们的部分问题，作为查询引擎，提供快速且高并发的查询能力。

很遗憾的是，该方案无法将 Bigquery 作为 Data Source 替换掉，我们必须把不断地把 Bigquery 上的数据进行同步，同步程序的不稳定性给我们带来了非常多的麻烦，因为在使用存算分离的架构，当其查询压力过大时，也会影响写入程序的速度，造成写入数据堆积，同步无法继续进行吗，我们需要有固定的人员来处理这些同步问题。

我们意识到，OLAP 可以解决我们所面临的几个问题，但不能成为 Footprint Analytics 的全套解决方案，特别是在数据处理以及生产方面。我们的问题更大更复杂，我们可以说，OLAP 作为一个查询引擎对我们来说是不够的。

架构 3.0 Iceberg + Trino

在 Footprint Analytics 架构 3.0 的升级中，我们从头开始重新设计了整个架构，将数据的存储、计算和查询分成三个不同的部分。从 Footprint Analytics 早期的两个架构中吸取教训，并从其他成功的大数据项目中学习经验，如 Uber、Netflix 和 Databricks。

4.1. 数据湖的引入

我们首先把注意力转向了数据湖，这是一种新型的结构化和非结构化数据的存储方式。数据湖非常适合链上数据的存储，因为链上数据的格式范围很广，从非结构化的原始数据到结构化的抽象数据，都是 Footprint Analytics 特色亮点。我们期望用数据湖来解决数据存储的问题，最好还能支持主流的计算引擎，如 Spark 和 Flink，这样随着 Footprint Analytics 的发展，与不同类型的处理引擎整合起来能更容易，更具备拓展性。

Iceberg 可以与 Spark，Flink，Trino 等计算引擎都有着非常良好的集成，我们可以为我们的每一个指标选择最合适的计算方式。例如：

需要复杂计算逻辑的，选择 Spark；
需要实时计算的，选择 Flink；
使用 SQL 就能胜任的简单 ETL 任务，选择 Trino。

4.2. 查询引擎

有了 Iceberg 解决了存储和计算的问题，我们接下来就要思考，如何选择查询引擎。实际上可以选的方案不多，备选的有：

Trino: SQL Query Engine
Presto: SQL Query Engine
Kyuubi：Serverless Spark SQL

在深度使用之前，我们考虑最多的是，未来的查询引擎必须要兼容我们当前的架构。

要支持将 Bigquery 作为 Data Source
要支持 DBT，我们要很多指标是依赖 DBT 完成生产的
要支持 BI 工具 metabase

基于以上个点，我们选择了 Trino，Trino 对 Iceberg 的支持非常完善，而且团队执行力非常强，我们提了一个 BUG，在第二天就被修复，并且在第二周就发布到了最新版本中。这对同样要求高执行响应速度的 Footprint Analytics 团队，无疑是最佳选择。

4.3 性能测试

选定了方向之后，我们对 Trino+Iceberg 这个组合做了个性能测试，以确定其性能是否能满足我们的需求，结果出乎我们依赖，查询速度不可思议地快。

要知道，在各大 OLAP 的宣传文章中，Presto + Hive 可是常年作为最差的对比项存在的，Trino + Iceberg 的组合完全刷新了我们的认知。

下面是我们的测试结果：

case 1: join big table

一个 800 GB 的 table1 join 另一个 50 GB 的 table2 并做复杂业务计算

case2: 大单表做 distinct 查询

测试用的 sql ： select distinct(address) from table group by day

相同配置下，Trino+Iceberg 组合速度大约是 Doris 的 3 倍。

除此之前，还有一个惊喜，因为 Iceberg 底层可以使用 Parquet、ORC 等 data format，会对数据进行压缩存储，Icberg 的 table 存储空间只需要其他数据仓库的 ¹⁄₅ 左右。

同样一个 table，在三个数据库中的存储大小分别是：

注：以上测试都是我们实际生产中碰到的个别业务例子，结论不严谨，仅供参考。

4.4 升级效果

性能测试报告给了我们足够的性能，我们团队使用了大概 2 个月时间来完成迁移，这个是我们升级之后的架构图：

丰富的计算引擎让我们可以应对各种计算需求；
Trino 可以直接查询 Iceberg，我们再也不用处理数据同步问题；
Trino + Iceberg 让人惊艳的性能，让我们可以开放所有 Bronze 数据给到用户。

总结

自 2021 年 8 月推出以来，Footprint Analytics 团队在不到一年半的时间里完成了三次架构升级，这得益于其为加密货币用户带来最佳数据库技术优势的强烈愿望和决心，以及在实施和升级其底层基础设施和架构方面的扎实执行。

Footprint Analytics 架构升级 3.0 为其用户买到了全新的体验，让来自不同背景的用户在更多样化的使用和应用中获得洞察力。
与 Metabase 商业智能工具一起构建的 Footprint 便于分析师获得已解析的链上数据，完全自由地选择工具（无代码或编写代码）进行探索，查询整个历史，交叉检查数据集，在短时间内获得洞察力。
整合链上和链下的数据，在 web2 和 web3 之间进行分析。
通过在 Footprint 的业务抽象之上建立 / 查询指标，分析师或开发人员可以节省 80% 的重复性数据处理工作的时间，并专注于有意义的指标，研究和基于其业务的产品解决方案。
从 Footprint Web 到 REST API 调用的无缝体验，都是基于 SQL 的。
对关键信号进行实时提醒和可操作的通知，以支持投资决策

课后小测试

做个简单的小测试看看你掌握了多少知识吧！如果你想探讨更多跟课程有关的内容，欢迎加入我们的Discord 社区一起讨论。

推荐阅读

#EVM Analysis

#DeFi Analysis

#NFT Analysis

#GameFi Analysis

#Wallet Analysis

#Footprint for Developer

#How Footprint Works

Footprint Analytics 是首家 Crypto 领域支持无代码数据分析平台。平台还提供一个统一的数据 API，让用户可以快速检索超过 22 条公链生态的 NFT，GameFi 以及 DeFi 数据。

如果您对该课程有任何反馈或建议，您可以通过以下方式联系我们。

Footprint Website: https://www.footprint.network

Discord: https://discord.gg/3HYaR6USM7

Twitter: https://twitter.com/Footprint_Data

推荐阅读

数组
揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节

揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]

蜡笔小新 2024-11-03 18:33:00
ip
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
future
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
数组
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
数组
【并发编程】全面解析 Java 内存模型，一篇文章带你彻底掌握

本文深入解析了 Java 内存模型（JMM），从基础概念到高级特性进行全面讲解，帮助读者彻底掌握 JMM 的核心原理和应用技巧。通过详细分析内存可见性、原子性和有序性等问题，结合实际代码示例，使开发者能够更好地理解和优化多线程并发程序。 ... [详细]

蜡笔小新 2024-11-02 09:09:51
数组
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
ip
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
int
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
int
深入解析数据库并发控制机制

本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制（MVCC）、乐观并发控制和悲观并发控制等内容。 ... [详细]

蜡笔小新 2024-11-12 12:37:08
int
在什么情况下MySQL的可重复读隔离级别会导致幻读现象？

在什么情况下MySQL的可重复读隔离级别会导致幻读现象？ ... [详细]

蜡笔小新 2024-11-11 19:42:44
数组
深入解析 Synchronized 锁的升级机制及其在并发编程中的应用

深入解析 Synchronized 锁的升级机制及其在并发编程中的应用 ... [详细]

蜡笔小新 2024-11-11 13:09:38
数组
如何选择合适的MySQL存储引擎：全面解析与专业建议

本文深入探讨了如何选择适合业务需求的MySQL存储引擎，详细解析了不同存储引擎的特点、适用场景及其在数据存储和管理中的优势。通过对比InnoDB、MyISAM等主流引擎，为读者提供了全面的技术指导和专业建议，帮助开发者在实际应用中做出明智的选择。 ... [详细]

蜡笔小新 2024-11-09 20:09:00
数组
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
get
卓盟科技：动态资源加载技术的兼容性优化与升级 | Android 开发者案例分享

随着游戏内容日益复杂，资源加载过程已不仅仅是简单的进度显示，而是连接玩家与开发者的桥梁。玩家对快速加载的需求越来越高，这意味着开发者需要不断优化和提升动态资源加载技术的兼容性和性能。卓盟科技通过一系列的技术创新，不仅提高了加载速度，还确保了不同设备和系统的兼容性，为用户提供更加流畅的游戏体验。 ... [详细]

蜡笔小新 2024-11-09 13:07:52
get
池子比率：BSV 区块链上的去中心化金融应用——Uniswap 分析

池子比率：BSV 区块链上的去中心化金融应用——Uniswap 分析 ... [详细]

蜡笔小新 2024-11-01 13:03:17

雨水-_-打湿我的脸_950

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章