nebulagraphexchange3.0.x

作者：mobiledu2502862363 | 来源：互联网 | 2023-10-11 06:34

文章目录什么是NebulaExchange版本系列适用场景产品优点数据源Q&Aexchange-spark2.4不能把hive表数据导入什么是NebulaExchangeNebu

文章目录

什么是 Nebula Exchange
版本系列
适用场景
产品优点
数据源
Q & A
exchange-spark2.4不能把hive表数据导入

什么是 Nebula Exchange

Nebula Exchange&＃xff08;简称 Exchange&＃xff09;是一款 Apache Spark™ 应用&＃xff0c;用于在分布式环境中将集群中的数据批量迁移到 Nebula Graph 中&＃xff0c;能支
持多种不同格式的批式数据和流式数据的迁移。
Exchange 由 Reader、Processor 和 Writer 三部分组成。Reader 读取不同来源的数据返回 DataFrame 后&＃xff0c;Processor 遍历 DataFrame 的
每一行&＃xff0c;根据配置文件中fields 的映射关系&＃xff0c;按列名获取对应的值。在遍历指定批处理的行数后&＃xff0c;Writer 会将获取的数据一次性写入到 Nebula
Graph 中。下图描述了 Exchange 完成数据转换和迁移的过程。

在这里插入图片描述

版本系列

Exchange 有社区版和企业版两个系列&＃xff0c;二者功能不同。社区版在 GitHub 开源开发&＃xff0c;企业版属于 Nebula Graph 企业套餐&＃xff0c;详情参见版本对比

适用场景

Exchange 适用于以下场景&＃xff1a;

需要将来自 Kafka、Pulsar 平台的流式数据&＃xff0c;如日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务&＃xff0c;以及来自
数据中心内所连接设备或仪器的遥测数据等转化为属性图的点或边数据&＃xff0c;并导入 Nebula Graph 数据库。
需要从关系型数据库&＃xff08;如 MySQL&＃xff09;或者分布式文件系统&＃xff08;如 HDFS&＃xff09;中读取批式数据&＃xff0c;如某个时间段内的数据&＃xff0c;将它们转化为属性图的点或边数
据&＃xff0c;并导入 Nebula Graph 数据库。
需要将大批量数据生成 Nebula Graph 能识别的 SST 文件&＃xff0c;再导入 Nebula Graph 数据库。
需要导出 Nebula Graph 中保存的数据。

仅企业版 Exchange 支持从 Nebula Graph 中导出数据。

产品优点

适应性强&＃xff1a;支持将多种不同格式或不同来源的数据导入 Nebula Graph 数据库&＃xff0c;便于迁移数据。
支持导入 SST&＃xff1a;支持将不同来源的数据转换为 SST 文件&＃xff0c;用于数据导入。
支持 SSL 加密&＃xff1a;支持在 Exchange 与 Nebula Graph 之间建立 SSL 加密传输通道&＃xff0c;保障数据安全。
支持断点续传&＃xff1a;导入数据时支持断点续传&＃xff0c;有助于节省时间&＃xff0c;提高数据导入效率。(目前仅迁移 Neo4j 数据时支持断点续传。)
异步操作&＃xff1a;会在源数据中生成一条插入语句&＃xff0c;发送给 Graph 服务&＃xff0c;最后再执行插入操作。
灵活性强&＃xff1a;支持同时导入多个 Tag 和 Edge type&＃xff0c;不同 Tag 和 Edge type 可以是不同的数据来源或格式。
统计功能&＃xff1a;使用 Apache Spark™ 中的累加器统计插入操作的成功和失败次数。
易于使用&＃xff1a;采用 HOCON&＃xff08;Human-Optimized Config Object Notation&＃xff09;配置文件格式&＃xff0c;具有面向对象风格&＃xff0c;便于理解和操作。

数据源

Exchange 3.0.0 支持将以下格式或来源的数据转换为 Nebula Graph 能识别的点和边数据&＃xff0c;然后通过 nGQL 语句的形式导入 Nebula Graph&＃xff1a;

存储在 HDFS 或本地的数据&＃xff1a;
Apache Parquet
Apache ORC
JSON
CSV
Apache HBase™
数据仓库&＃xff1a;
Hive
MaxCompute
图数据库&＃xff1a;Neo4j&＃xff08;Client 版本 2.4.5-M1&＃xff09;
关系型数据库&＃xff1a;
MySQL
PostgreSQL
列式数据库&＃xff1a;ClickHouse
流处理软件平台&＃xff1a;Apache Kafka®
发布/订阅消息平台&＃xff1a;Apache Pulsar 2.4.5

除了用 nGQL 语句的形式导入数据&＃xff0c;Exchange 还支持将数据源的数据生成 SST 文件&＃xff0c;然后通过 Console 导入 SST 文件。
此外&＃xff0c;企业版 Exchange 支持以 Nebula Graph 为源&＃xff0c;将数据导出到 CSV 文件。

Q & A
exchange-spark2.4不能把hive表数据导入

Q:
用exchange-spark2.4 最终编译为nebula-exchange_spark_2.4-3.0.0.jar

现在操作为从hive中导入到nebulagraph3.0遇到两问题
1 在用spark2.4.8 scala212导入时,应该是兼容问题不能成功导入
2 后来用spark.2.4.5 操作现在提示找不到hive中表,可以确认单独运行spark查询这张表是没有问题的
后又看3.0.2文档中有写加入-h true才能开启hive,但这个参数应该在最后加,加上后如下错误
在这里插入图片描述
A:
与文档一样操作编译jar

mvn clean package -Dmaven.test.skip&＃61;true -Dgpg.skip -Dmaven.javadoc.skip&＃61;true -pl nebula-exchange_spark_2.4 -am -Pscala-2.11 -Pspark-2.4

文档导入hive写的,需要参数hive支持
在这里插入图片描述
需要改变下参数写法

export SPARK_HOME&＃61;/opt/spark-2.4.5-211 $SPARK_HOME/bin/spark-submit \ --master yarn \ --deploy-mode client \ --class com.vesoft.nebula.exchange.Exchange \ --files /home/bigdata_tec/wsw/graph/application.conf \ /home/bigdata_tec/wsw/graph/nebula-exchange_spark_2.4-3.0.0.jar -c /home/bigdata_tec/wsw/graph/application.conf -h

还有提示版本为Nebula Graph Exchange 2.0.0可能是个内部小bug

推荐阅读

import
基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发

本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]

蜡笔小新 2024-12-22 15:31:28
int
使用预处理器开关确定类的版本

本文探讨了如何通过预处理器开关选择不同的类实现，并解决在特定情况下遇到的链接器错误。 ... [详细]

蜡笔小新 2024-12-22 12:03:31
php
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新 2024-12-22 09:34:59
php
使用Powershell Studio快速构建GUI应用程序

本文介绍了如何利用Powershell Studio创建功能强大的可视化界面。相较于传统的开发工具，Powershell Studio提供了更为简便和高效的开发体验，尤其适合需要快速构建图形用户界面（GUI）的场景。 ... [详细]

蜡笔小新 2024-12-21 19:52:59
int
优化C++项目中的JSON处理：选择高性能的RapidJSON库

在高并发需求的C++项目中，我们最初选择了JsonCpp进行JSON解析和序列化。然而，在处理大数据量时，JsonCpp频繁抛出异常，尤其是在多线程环境下问题更为突出。通过分析发现，旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估，我们最终选择了RapidJSON作为替代方案，并实现了显著的性能提升。 ... [详细]

蜡笔小新 2024-12-21 18:13:59
input
深入解析CTF中的PWN挑战：Fastbin与堆溢出

本文将探讨2015年RCTF竞赛中的一道PWN题目——shaxian，重点分析其利用Fastbin和堆溢出的技巧。通过详细解析代码流程和漏洞利用过程，帮助读者理解此类题目的破解方法。 ... [详细]

蜡笔小新 2024-12-21 18:09:12
install
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
import
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
tree
版本控制工具——Git常用操作（下）

本文由云+社区发表作者：工程师小熊摘要：上一集我们一起入门学习了git的基本概念和git常用的操作，包括提交和同步代码、使用分支、出现代码冲突的解决办法、紧急保存现场和恢复 ... [详细]

蜡笔小新 2024-12-21 14:25:43
php
2023年最新：如何查看和配置电脑上的PHP环境

本文详细介绍了如何检查和配置电脑上的PHP环境，包括位数、运行支持以及文件格式的打开方式。适合初学者了解PHP的基础知识和操作方法。 ... [详细]

蜡笔小新 2024-12-21 11:29:05
import
深入解析 Android IPC 中的 Messenger 机制

本文详细介绍了 Android 中基于消息传递的进程间通信（IPC）机制——Messenger。通过实例和源码分析，帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]

蜡笔小新 2024-12-21 11:11:40
input
Issue with @name Annotation in Documentation Generation

This post discusses an issue encountered while using the @name annotation in documentation generation, specifically regarding nested class processing and unexpected output. ... [详细]

蜡笔小新 2024-12-21 13:50:08
int
ElasticSearch 集群监控与优化

本文详细介绍了如何有效地监控 ElasticSearch 集群，涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]

蜡笔小新 2024-12-21 13:43:04
int
Android 6.0 切换指定 Wi-Fi 的解决方案

本文详细介绍了在 Android 6.0 系统中切换到指定 Wi-Fi 的方法，包括常见的问题、原因分析及解决方案。通过官方文档和代码示例，帮助开发者更好地理解和实现这一功能。 ... [详细]

蜡笔小新 2024-12-21 11:36:34
chat
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36

mobiledu2502862363

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章