当前位置: 开发笔记 > 编程语言 > 正文

黑猴子的家：Sqoop命令参数：merge

作者：80后女孩香香521 | 来源：互联网 | 2023-05-19 18:43

将HDFS中不同目录下面的数据合并在一起并放入指定目录中1、数据new_staff1AAAmale2BBBmale3CCCmale4DDDmaleold_staff1

将HDFS中不同目录下面的数据合并在一起并放入指定目录中

1、数据

new_staff

1 AAA male 2 BBB male 3 CCC male 4 DDD male

old_staff

1 AAA female 2 CCC female 3 BBB female 6 DDD female

尖叫提示&＃xff1a;上边数据的列之间的分隔符应该为\t&＃xff0c;行与行之间的分割符为\n&＃xff0c;不要复制&＃xff0c;在vim编辑器里面手敲

2、创建数据&＃xff0c;上传hdfs

[yinggu&＃64;hadoop102 sqoop]$ mkdir tdata [yinggu&＃64;hadoop102 sqoop]$ cd tdata/ [yinggu&＃64;hadoop102 tdata]$ mkdir newdata [yinggu&＃64;hadoop102 tdata]$ mkdir olddata [yinggu&＃64;hadoop102 tdata]$ vim newdata/new.txt [yinggu&＃64;hadoop102 tdata]$ vim olddata/old.txt [yinggu&＃64;hadoop102 sqoop]$ ../hadoop-2.8.2/bin/hadoop fs -put tdata/ /

3、创建JavaBean

[victor&＃64;node1 sqoop-1.4.7]$ bin/sqoop codegen \ --connect jdbc:mysql://node1:3306/company \ --username root \ --password 000000 \ --table staff \ --bindir /opt/module/sqoop/staff \ --class-name Staff \ --fields-terminated-by "\t"

4、开始合并

[victor&＃64;node1 sqoop-1.4.7]$ bin/sqoop merge \ --new-data /tdata/newdata/ \ --onto /tdata/olddata/ \ --target-dir /tdata/merged \ --jar-file /opt/module/sqoop/staff/Staff.jar \ --class-name Staff \ --merge-key id

5、结果

1 AAA MALE 2 BBB MALE 3 CCC MALE 4 DDD MALE 6 DDD FEMALE

6、参数

序号	参数	说明
1	--new-data	HDFS 待合并的数据目录&＃xff0c;合并后在新的数据集中保留
2	--onto	HDFS中合并后的数据存放目录&＃xff0c;合并后&＃xff0c;重复的部分在新的数据集中被覆盖
3	--merge-key
合并键&＃xff0c;一般是主键ID
4	--jar-file	合并时引入的jar包&＃xff0c;该jar包是通过Codegen工具生成的jar包
5	--class-name	对应的表名或对象名&＃xff0c;该class类是包含在jar包中的
6	--target-dir	合并后的数据在HDFS里存放的目录

推荐阅读

jar
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
jar
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
stream
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
export
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
ip
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
ip
Git基础操作指南：掌握必备技能

掌握 Git 基础操作是每个开发者必备的技能。本文详细介绍了 Git 的基本命令和使用方法，包括初始化仓库、配置用户信息、添加文件、提交更改以及查看版本历史等关键步骤。通过这些操作，读者可以快速上手并高效管理代码版本。例如，使用 `git config --global user.name` 和 `git config --global user.email` 来设置全局用户名和邮箱，确保每次提交时都能正确标识提交者信息。 ... [详细]

蜡笔小新 2024-11-01 16:16:26
ip
如何使用KindEditor网页编辑器

本文详细介绍了如何在项目中引入和配置KindEditor网页编辑器，包括脚本引用、初始化编辑器以及文件上传功能的实现。 ... [详细]

蜡笔小新 2024-11-14 09:36:22
ip
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
ip
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
ip
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
ip
JavaWeb项目架构中的NFS文件服务器实现与优化

在JavaWeb项目架构中，NFS（网络文件系统）的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录，提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用，包括配置、性能优化及常见问题的解决方案，旨在为开发者提供实用的技术参考。 ... [详细]

蜡笔小新 2024-11-06 15:58:12
ip
七款高效编辑器与笔记工具推荐：KindEditor自动换行功能解析

本文推荐了七款高效的编辑器与笔记工具，并详细解析了KindEditor的自动换行功能。其中，轻笔记QingBiJi是一款完全免费的记事本软件，用户可以通过其简洁的界面和强大的功能轻松记录和管理日常事务。此外，该软件还支持多平台同步，确保用户在不同设备间无缝切换。 ... [详细]

蜡笔小新 2024-11-06 11:14:53
ip
CentOS 7环境下Jenkins的安装与前后端应用部署详解

CentOS 7环境下Jenkins的安装与前后端应用部署详解 ... [详细]

蜡笔小新 2024-11-04 16:46:02
install
在 openSUSE Tumbleweed 系统上进行 51 单片机开发环境搭建与编程实践

在 openSUSE Tumbleweed 系统上搭建 51 单片机开发环境并进行编程实践。首先，通过 `sudo zypper in emacs` 命令安装文本编辑器 Emacs。接着，使用 `sudo zypper in sdcc` 安装 SDCC 编译器。最后，利用 `wget` 下载 sdcflash Python 脚本，以便于单片机的烧录和调试。此外，还介绍了如何配置开发环境，确保各组件协同工作，提高开发效率。 ... [详细]

蜡笔小新 2024-11-04 12:23:18
ip
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23

80后女孩香香521

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章