当前位置: 开发笔记 > 编程语言 > 正文

【转载】Delta，Hudi和Iceberg数据湖的搭建

作者：merlion-p | 来源：互联网 | 2023-09-05 15:11

原文链接https:zhuanlan.zhihu.comp1098264611.引入作为依赖Spark的三个数据湖开源框架Delta，Hudi和Iceberg&#x

原文链接 https://zhuanlan.zhihu.com/p/109826461

1. 引入

作为依赖Spark的三个数据湖开源框架Delta&＃xff0c;Hudi和Iceberg&＃xff0c;本篇文章为这三个框架准备环境&＃xff0c;并从Apache Spark、Hive和Presto的查询角度进行比较。主要分为三部分

准备单节点集群&＃xff0c;包括&＃xff1a;Hadoop&＃xff0c;Spark&＃xff0c;Hive&＃xff0c;Presto和所有依赖项。
测试Delta&＃xff0c;Hudi&＃xff0c;Iceberg在更新&＃xff0c;删除&＃xff0c;时间旅行&＃xff0c;Schema合并中的行为方式。还会检查事务日志&＃xff0c;以及默认配置和相同数据量的大小差异。
使用Apache Hive和Presto查询。

2. 环境准备

2.1 单节点集群

版本如下

ubuntu-18.04.3-live-server-amd64 openjdk-8-jdk scala-2.11.12 spark-2.4.4-bin-hadoop2.7 hadoop-2.7.7 apache-hive-2.3.6-bin presto-server-329.tar org.apache.iceberg:iceberg-spark-runtime:0.7.0-incubating org.apache.hudi:hudi-spark-bundle:0.5.0-incubating io.delta:delta-core_2.11:0.5.0

在Ubuntu中&＃xff0c;我使用的是超级用户spuser&＃xff0c;并为该用户生成hadoop所需的授权密钥。

ssh-keygen -t rsa -P &＃39;&＃39; -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

为Spark安装Java 1.8

#1. sudo add-apt-repository ppa:openjdk-r/ppa sudo apt-get update sudo apt-get install openjdk-8-jdk sudo update-alternatives --config java sudo update-alternatives --config javac

确认版本为Java 1.8

#2. spuser&＃64;acid:~$ java -version openjdk version "1.8.0_232" OpenJDK Runtime Environment (build 1.8.0_232-8u232-b09-0ubuntu1~16.04.1-b09) OpenJDK 64-Bit Server VM (build 25.232-b09, mixed mode)

下载所有的依赖包

#3. mkdir downloads cd downloads/ wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.deb wget http://apache.mirror.vu.lt/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz wget http://apache.mirror.vu.lt/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.7/hadoop-2.7.7.tar.gz wget http://apache.mirror.vu.lt/apache/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz wget https://repo1.maven.org/maven2/io/prestosql/presto-cli/329/presto-cli-329-executable.jar wget https://repo1.maven.org/maven2/io/prestosql/presto-server/329/presto-server-329.tar.gz

检查下载项

#4. spuser&＃64;acid:~/downloads$ ll -h

安装Scala

#5. sudo dpkg -i scala-2.11.12.deb

安装至/usr/local目录&＃xff0c;对于特定版本&＃xff0c;创建符号链接&＃xff0c;以便将来进行更轻松的迁移

#6. sudo tar -xzf apache-hive-2.3.6-bin.tar.gz -C /usr/local/ sudo tar -xzf hadoop-2.7.7.tar.gz -C /usr/local/ sudo tar -xzf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/ sudo tar -xzf spark-3.0.0-preview2-bin-hadoop2.7.tgz -C /usr/local/ sudo tar -xzf presto-server-329.tar.gz -C /usr/local sudo chown -R spuser /usr/local/apache-hive-2.3.6-bin/ sudo chown -R spuser /usr/local/hadoop-2.7.7/ sudo chown -R spuser /usr/local/spark-2.4.4-bin-hadoop2.7/ sudo chown -R spuser /usr/local/spark-3.0.0-preview2-bin-hadoop2.7/ sudo chown -R spuser /usr/local/presto-server-329/ cd /usr/local/ sudo ln -s /usr/local/apache-hive-2.3.6-bin/ /usr/local/hive sudo chown -h spuser:spuser /usr/local/hive sudo ln -s /usr/local/hadoop-2.7.7/ /usr/local/hadoop sudo chown -h spuser:spuser /usr/local/hadoop sudo ln -s /usr/local/spark-2.4.4-bin-hadoop2.7 /usr/local/spark sudo chown -h spuser:spuser /usr/local/spark sudo ln -s /usr/local/spark-3.0.0-preview2-bin-hadoop2.7 /usr/local/spark3 sudo chown -h spuser:spuser /usr/local/spark3 sudo ln -s /usr/local/presto-server-329 /usr/local/presto sudo chown -h spuser:spuser /usr/local/presto

为日志和HDFS创建几个文件夹。在根目录下创建一些文件夹并不是最佳做法&＃xff0c;但可起到沙盒作用

#7. sudo mkdir /logs sudo chown -R spuser /logs mkdir /logs/hadoop #Add dir for data sudo mkdir /hadoop sudo chown -R spuser /hadoop mkdir -p /hadoop/hdfs/namenode mkdir -p /hadoop/hdfs/datanode #create tmp hadoop dir: mkdir -p /tmp/hadoop

更新环境变量&＃xff0c;.bashrc

#8. sudo nano ~/.bashrc #Add entries in existing file: export JAVA_HOME&＃61;/usr/lib/jvm/java-8-openjdk-amd64 export PATH&＃61;$PATH:$JAVA_HOME/bin export HADOOP_HOME&＃61;/usr/local/hadoop export HIVE_HOME&＃61;/usr/local/hive export PATH&＃61;$PATH:$HADOOP_HOME/bin export PATH&＃61;$PATH:$HADOOP_HOME/sbin export PATH&＃61;$PATH:$HIVE_HOME/bin export HADOOP_MAPRED_HOME&＃61;$HADOOP_HOME export HADOOP_COMMON_HOME&＃61;$HADOOP_HOME export HADOOP_HDFS_HOME&＃61;$HADOOP_HOME export HADOOP_CONF_DIR&＃61;$HADOOP_HOME/etc/hadoop export YARN_HOME&＃61;$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR&＃61;$HADOOP_HOME/lib/native export HADOOP_OPTS&＃61;"-Djava.library.path&＃61;$HADOOP_HOME/lib/native" export HADOOP_LOG_DIR&＃61;/logs/hadoop export SPARK_HOME&＃61;/usr/local/spark export PATH&＃61;$PATH:$SPARK_HOME/bin #Save it! #Source it: source ~/.bashrc

2.2 Hadoop配置

更改Hadoop配置&＃xff0c;切换至目录

#9. cd /usr/local/hadoop/etc/hadoop

hadoop-env.sh

#10. #Comment existing JAVA_HOME and add new one: export JAVA_HOME&＃61;/usr/lib/jvm/java-8-openjdk-amd64

core-site.xml

#11. hadoop.tmp.dir/tmp/hadoopA base for other temporary directories. fs.defaultFShdfs://localhost:9000

mapred-site.xml

#12. mapreduce.framework.nameyarn

hdfs-site.xml

#13. dfs.replication1 dfs.namenode.name.dirfile:/hadoop/hdfs/namenodedfs.datanode.data.dirfile:/hadoop/hdfs/datanode

yarn-site.xml

#14. yarn.nodemanager.aux-servicesmapreduce_shuffle

准备好HDFS之后&＃xff0c;格式化并启动服务

#15. hdfs namenode -format start-all.sh

检查运行情况

#16. spuser&＃64;acid:/usr/local/hadoop/etc/hadoop$ jps 9890 DataNode 10275 ResourceManager 10115 SecondaryNameNode 10613 NodeManager 9705 NameNode 10732 Jps

2.3 Hive配置

为Hive创建Hdfs目录

#17. #Create HDFS dirs: hdfs dfs -mkdir -p /user/hive/warehouse hdfs dfs -mkdir /tmp hdfs dfs -chmod g&＃43;w /user/hive/warehouse hdfs dfs -chmod g&＃43;w /tmp

切换至Hive conf目录

#18. cd /usr/local/hive/conf

hive-site.xml

#19. javax.jdo.option.ConnectionURL jdbc:derby:;databaseName&＃61;/usr/local/hive/metastore_db;create&＃61;true JDBC connect string for a JDBC metastore. To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL. For example, jdbc:postgresql://myhost/db?ssl&＃61;true for postgres database. hive.metastore.warehouse.dir /user/hive/warehouse location of default database for the warehouse hive.metastore.uris Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Driver class name for a JDBC metastore javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory class implementing the jdo persistence hive.metastore.schema.verification false

hive-env.sh

#20. # The heap size of the jvm stared by hive shell script can be controlled via: # export HADOOP_HEAPSIZE&＃61;512 # # Larger heap size may be required when running queries over large number of files or partitions. # By default hive shell scripts use a heap size of 256 (MB). Larger heap size would also be # appropriate for hive server (hwi etc). # Set HADOOP_HOME to point to a specific hadoop install directory export HADOOP_HOME&＃61;/usr/local/hadoop # Hive Configuration Directory can be controlled by: export HIVE_CONF_DIR&＃61;/usr/local/hive/conf # Folder containing extra ibraries required for hive compilation/execution can be controlled by: export HIVE_AUX_JARS_PATH&＃61;/usr/local/hive/lib/*.jar

在创建Hive metastore之前请更新hive-schema-2.3.0.derby.sql&＃xff0c;否则iceberg将无法创建表&＃xff0c;会有如下错误

#21. ERROR metastore.RetryingHMSHandler: Retrying HMSHandler after 2000 ms (attempt 8 of 10) with error: javax.jdo.JDODataStoreException: Insert of object "org.apache.hadoop.hive.metastore.model.MTable&＃64;604201a0" using statement "INSERT INTO TBLS (TBL_ID,OWNER,CREATE_TIME,SD_ID,TBL_NAME,VIEW_EXPANDED_TEXT,LAST_ACCESS_TIME,DB_ID,RETENTION,VIEW_ORIGINAL_TEXT,TBL_TYPE) VALUES (?,?,?,?,?,?,?,?,?,?,?)" failed : Column &＃39;IS_REWRITE_ENABLED&＃39; cannot accept a NULL value.

更新hive-schema-2.3.0.derby.sql

#22. nano /usr/local/hive/scripts/metastore/upgrade/derby/hive-schema-2.3.0.derby.sql #update statement: "APP"."TBLS" CREATE TABLE "APP"."TBLS" ("TBL_ID" BIGINT NOT NULL, "CREATE_TIME" INTEGER NOT NULL, "DB_ID" BIGINT, "LAST_ACCESS_TIME" INTEGER NOT NULL, "OWNER" VARCHAR(767), "RETENTION" INTEGER NOT NULL, "SD_ID" BIGINT, "TBL_NAME" VARCHAR(256), "TBL_TYPE" VARCHAR(128), "VIEW_EXPANDED_TEXT" LONG VARCHAR, "VIEW_ORIGINAL_TEXT" LONG VARCHAR, "IS_REWRITE_ENABLED" CHAR(1) NOT NULL DEFAULT &＃39;N&＃39;);

更新后创建Hive metastore

#23. schematool -initSchema -dbType derby --verbose

检查schema是否创建成功

#24. ... beeline> Initialization script completed schemaTool completed

通过CLI创建Hive

#25. hive -e "show databases"

2.4 Presto配置

创建config目录

#26. mkdir -p /usr/local/presto/etc

创建配置文件 /usr/local/presto/etc/config.properties

#27. coordinator&＃61;true node-scheduler.include-coordinator&＃61;true http-server.http.port&＃61;8080 query.max-memory&＃61;5GB query.max-memory-per-node&＃61;1GB query.max-total-memory-per-node&＃61;2GB discovery-server.enabled&＃61;true discovery.uri&＃61;http://localhost:8080

创建JVM配置文件/usr/local/presto/etc/jvm.properties

#28. -server -Xmx16G -XX:&＃43;UseG1GC -XX:G1HeapRegionSize&＃61;32M -XX:&＃43;UseGCOverheadLimit -XX:&＃43;ExplicitGCInvokesConcurrent -XX:&＃43;HeapDumpOnOutOfMemoryError -XX:&＃43;ExitOnOutOfMemoryError

创建节点配置文件 /usr/local/presto/etc/node.properties

#29. node.environment&＃61;production node.id&＃61;ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir&＃61;/var/presto/data

创建相关目录

#30. sudo mkdir -p /var/presto/data sudo chown spuser:spuser -h /var/presto sudo chown spuser:spuser -h /var/presto/data

创建catalog和hive配置文件 /usr/local/presto/etc/catalog/hive.properties

#31. connector.name&＃61;hive-hadoop2 hive.metastore.uri&＃61;thrift://localhost:9083

2.5 Spark相关配置

检查scala版本

切换至Spark conf目录

#33. cd /usr/local/spark/conf

spark-env.sh

#34. #add export HADOOP_CONF_DIR&＃61;$HADOOP_HOME/etc/hadoop export SPARK_CONF_DIR&＃61;/usr/local/spark/conf export SPARK_LOCAL_IP&＃61;127.0.0.1

拷贝hive-site.xml&＃xff0c;以便使用Hive和Presto测试delta&＃xff0c;hudl&＃xff0c;iceberg行为

#35. cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf/

下载所有的依赖

#36. spark-shell --packages org.apache.iceberg:iceberg-spark-runtime:0.7.0-incubating,org.apache.hudi:hudi-spark-bundle:0.5.0-incubating,io.delta:delta-core_2.11:0.5.0 --conf &＃39;spark.serializer&＃61;org.apache.spark.serializer.KryoSerializer&＃39;

2.6 测试三个框架

Delta

#37. import org.apache.spark.sql.SaveMode._ spark.range(1000).toDF.write.format("delta").mode(Overwrite).save("/tmp/delta_tab01")

Hudi

#38. import org.apache.spark.sql.SaveMode._ import org.apache.hudi.DataSourceWriteOptions._ import org.apache.hudi.config.HoodieWriteConfig._ spark.range(1000).write.format("org.apache.hudi").option(TABLE_NAME, "hudi_tab01").option(PRECOMBINE_FIELD_OPT_KEY, "id").option(RECORDKEY_FIELD_OPT_KEY, "id").mode(Overwrite).save("/tmp/hudi_tab01")

Iceberg

#39. import org.apache.iceberg.hive.HiveCatalog import org.apache.iceberg.catalog._ import org.apache.iceberg.Schema import org.apache.iceberg.types.Types._ import org.apache.iceberg.PartitionSpec import org.apache.iceberg.spark.SparkSchemaUtil import org.apache.iceberg.hadoop.HadoopTables val name &＃61; TableIdentifier.of("default","iceberg_tab01"); val df1&＃61;spark.range(1000).toDF.withColumn("level",lit("1")) val df1_schema &＃61; SparkSchemaUtil.convert(df1.schema) val partition_spec&＃61;PartitionSpec.builderFor(df1_schema).identity("level").build val tables &＃61; new HadoopTables(spark.sessionState.newHadoopConf()) val table &＃61; tables.create(df1_schema, partition_spec, "hdfs:/tmp/iceberg_tab01") df1.write.format("iceberg").mode("append").save("hdfs:/tmp/iceberg_tab01")

检查HDFS上结果

#40. hdfs dfs -ls -h -R /tmp/delta* && hdfs dfs -ls -h -R /tmp/hudi* && hdfs dfs -ls -h -R /tmp/iceberg*

3. 总结

本篇文章展示了如何搭建测试三个数据湖环境所依赖的所有环境&＃xff0c;以及进行了简单的测试&＃xff0c;希望这对你有用。

推荐阅读

数组
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
cmd
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
jar
在 Ubuntu 22.04 LTS 上部署 Jira 敏捷项目管理工具

Jira 敏捷项目管理工具专为软件开发团队设计，旨在以高效、有序的方式管理项目、问题和任务。该工具提供了灵活且可定制的工作流程，能够根据项目需求进行调整。本文将详细介绍如何在 Ubuntu 22.04 LTS 上安装和配置 Jira。 ... [详细]

蜡笔小新 2024-11-19 09:56:22
jar
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
jar
Vulnhub DC3 实战记录与分析

本文记录了在 Vulnhub DC3 靶机上的渗透测试过程，包括漏洞利用、内核提权等关键步骤，并总结了实战经验和教训。 ... [详细]

蜡笔小新 2024-11-17 20:50:03
数组
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
数组
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
数组
Linux核心概念与发行版概览

本文介绍了Linux操作系统的核心组成部分——内核及其版本分类，以及市面上常见的几种Linux发行版，旨在为初学者提供一个清晰的学习路径。 ... [详细]

蜡笔小新 2024-11-20 10:09:16
数组
2017年软件开发领域的七大变革

随着技术的不断进步，2017年对软件开发人员而言将充满挑战与机遇。本文探讨了开发人员需要适应的七个关键变化，包括人工智能、聊天机器人、容器技术、应用程序版本控制、云测试环境、大众开发者崛起以及系统管理的云迁移。 ... [详细]

蜡笔小新 2024-11-19 20:17:20
数组
PHP面试题精选及答案解析

本文精选了新浪PHP笔试题及最新的PHP面试题，并提供了详细的答案解析，帮助求职者更好地准备PHP相关的面试。 ... [详细]

蜡笔小新 2024-11-19 20:00:19
cmd
Git配置及常用命令详解

本文介绍了如何在不同操作系统上安装Git，以及一些基本和高级的Git操作，包括项目初始化、文件状态检查、版本控制、分支管理、标签处理、版本回退等，并简要提及了开源许可协议的选择。 ... [详细]

蜡笔小新 2024-11-19 19:52:34
cmd
Kettle 内存配置与日志时间戳设置指南

本文详细介绍了如何调整 Kettle 的内存配置以优化性能，并指导用户如何正确设置日志输出中的时间类型，确保数据处理和监控的准确性。 ... [详细]

蜡笔小新 2024-11-19 18:36:30
int
探讨设计模式在VFP中的应用

本文旨在探讨设计模式在Visual FoxPro (VFP) 中的应用可能性。虽然VFP作为一种支持面向对象编程(xbase语言)的工具，其OO特性相对简明，缺乏高级语言如Java、C++等提供的复杂特性，但设计模式作为一种通用的解决方案框架，是否能有效应用于VFP，值得深入研究。 ... [详细]

蜡笔小新 2024-11-19 14:01:24
jar
解决Tomcat启动时出现org.apache.catalina.LifecycleException异常的方法

在尝试启动Java应用服务器Tomcat时，遇到了org.apache.catalina.LifecycleException异常。本文详细记录了异常的具体表现形式，并提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-11-19 11:46:52
string
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11

merlion-p

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章