DB数据怎么导入DBFS中

作者：o筱灵丹 | 来源：互联网 | 2023-07-11 09:19

请问各位，除了使用Sqoop之外，是否还有其它的工具。如果我想把30T的数据导入DBFS中，使用Sqoop是否可行？

13 个解决方案

#1

DBFS是什么？

#2

是HDFS吧
SQOOP可用，效率根据你的RDBMS的磁盘速度和Map槽位的数量决定
假设这个单机是接入一个千兆交换机，和hadoop所有节点全部独联千兆
算笔账
假设Map槽有1000个（大概 90个节点）
30T*1024*1024 = 31457280 MB
千兆是 128mb/s，由于各种损耗打个对折 64mb/s （可能30mb/s都没有）
31457280 / 64 / 1000 = 491秒（根据集群的性能，需要调整）
最后这个数字乘以 2 大概就是耗时

#3

引用 2 楼 tntzbzc 的回复:

是HDFS吧
SQOOP可用，效率根据你的RDBMS的磁盘速度和Map槽位的数量决定
假设这个单机是接入一个千兆交换机，和hadoop所有节点全部独联千兆
算笔账
假设Map槽有1000个（大概 90个节点）
30T*1024*1024 = 31457280 MB
千兆是 128mb/s，由于各种损耗打个对折 64mb/s （可能30mb/s都没有）
31457280 / 64 / 1000 = 491秒（根据集群的性能，需要调整）
最后这个数字乘以 2 大概就是耗时

请问，您是否实际操作过同类的大数据导入？

#4

引用 3 楼 weili0627 的回复:

请问，您是否实际操作过同类的大数据导入？

有做过，怎么了？

#5

引用 4 楼 tntzbzc 的回复:

Quote: 引用 3 楼 weili0627 的回复:

请问，您是否实际操作过同类的大数据导入？

有做过，怎么了？

没有什么，只是想知道，您的运算是否在实际情况下验证过。
还有一个问题，想请教您一下，我在一个server上进行了hadoop的伪发布，只想提交一下hello world作业看看结果。我在启动完成后，想使用50030 50073查看一个web监控，但是不能正常访问。jps查看了一个四个服务都在，然后又查看了一个对应的四个log文件，启动日志也正常没有错误，并且日志表明两个端口已经正常打开，但是我用netstat又看不到这两个端口，请问大师，这是怎么回事？

#6

引用 5 楼 weili0627 的回复:

Quote: 引用 4 楼 tntzbzc 的回复:

Quote: 引用 3 楼 weili0627 的回复:

请问，您是否实际操作过同类的大数据导入？

有做过，怎么了？

没有什么，只是想知道，您的运算是否在实际情况下验证过。
还有一个问题，想请教您一下，我在一个server上进行了hadoop的伪发布，只想提交一下hello world作业看看结果。我在启动完成后，想使用50030 50073查看一个web监控，但是不能正常访问。jps查看了一个四个服务都在，然后又查看了一个对应的四个log文件，启动日志也正常没有错误，并且日志表明两个端口已经正常打开，但是我用netstat又看不到这两个端口，请问大师，这是怎么回事？

在Web访问客户机上，添加hadoop节点的hosts

#7

引用 6 楼 tntzbzc 的回复:

Quote: 引用 5 楼 weili0627 的回复:

Quote: 引用 4 楼 tntzbzc 的回复:

Quote: 引用 3 楼 weili0627 的回复:

请问，您是否实际操作过同类的大数据导入？

有做过，怎么了？

没有什么，只是想知道，您的运算是否在实际情况下验证过。
还有一个问题，想请教您一下，我在一个server上进行了hadoop的伪发布，只想提交一下hello world作业看看结果。我在启动完成后，想使用50030 50073查看一个web监控，但是不能正常访问。jps查看了一个四个服务都在，然后又查看了一个对应的四个log文件，启动日志也正常没有错误，并且日志表明两个端口已经正常打开，但是我用netstat又看不到这两个端口，请问大师，这是怎么回事？

在Web访问客户机上，添加hadoop节点的hosts

启动日志中存在如下两个疑点，两段的最后一句其中的IP地址都是0.0.0.0:port，请教大师是怎么回事？按照您说的，我已经修改了我win7客户端的hosts列表，虽然启动依然正常，但还是不能正常访问web监控。
1、hadoop-root-namenode-master.log
2014-01-14 09:39:17,031 INFO org.apache.hadoop.http.HttpServer: Port returned by webServer.getConnectors()[0].getLocalPort() before open() is -1. Opening the listener on 50070
2014-01-14 09:39:17,032 INFO org.apache.hadoop.http.HttpServer: listener.getLocalPort() returned 50070 webServer.getConnectors()[0].getLocalPort() returned 50070
2014-01-14 09:39:17,032 INFO org.apache.hadoop.http.HttpServer: Jetty bound to port 50070
2014-01-14 09:39:17,032 INFO org.mortbay.log: jetty-6.1.26
2014-01-14 09:39:17,345 INFO org.mortbay.log: Started SelectChannelConnector@0.0.0.0:50070
2014-01-14 09:39:17,346 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: Web-server up at: 0.0.0.0:50070
2、hadoop-root-jobtracker-master.log
2014-01-14 09:39:24,101 INFO org.apache.hadoop.http.HttpServer: Added global filtersafety (class=org.apache.hadoop.http.HttpServer$QuotingInputFilter)
2014-01-14 09:39:24,132 INFO org.apache.hadoop.http.HttpServer: Port returned by webServer.getConnectors()[0].getLocalPort() before open() is -1. Opening the listener on 50030
2014-01-14 09:39:24,133 INFO org.apache.hadoop.http.HttpServer: listener.getLocalPort() returned 50030 webServer.getConnectors()[0].getLocalPort() returned 50030
2014-01-14 09:39:24,133 INFO org.apache.hadoop.http.HttpServer: Jetty bound to port 50030
2014-01-14 09:39:24,133 INFO org.mortbay.log: jetty-6.1.26
2014-01-14 09:39:24,407 INFO org.mortbay.log: Started SelectChannelConnector@0.0.0.0:50030

#8

贴你的hadoop配置文件
hosts 文件
network 文件

#9

引用 8 楼 tntzbzc 的回复:

贴你的hadoop配置文件
hosts 文件
network 文件

1、hosts:
127.0.0.1 localhost
192.168.129.145 master
2、network
NETWORKING=yes
HOSTNAME=master
3、core-site.xml


    fs.default.name
    hdfs://master:9000


4、hdfs-site.xml


    dfs.replication
    1


    dfs.permissions
    false


5、mapred-site.xml


    mapred.job.tracker
    master:9001

#10

很奇怪，配置感觉没什么问题

什么版本的hadoop

#11

引用 10 楼 tntzbzc 的回复:

很奇怪，配置感觉没什么问题

什么版本的hadoop

hadoop-1.0.3版本。
满心期待大师的回复，虽然有点失望，但还是感谢大师。
这个问题，我也在网上找了很长时间了。

#12

本帖最后由 tntzbzc 于 2014-01-15 12:56:38 编辑

引用 11 楼 weili0627 的回复:

Quote: 引用 10 楼 tntzbzc 的回复:

很奇怪，配置感觉没什么问题

什么版本的hadoop

hadoop-1.0.3版本。
满心期待大师的回复，虽然有点失望，但还是感谢大师。
这个问题，我也在网上找了很长时间了。

1.0.3有几个蛮严重的bug，但会不会导致你这个问题，我不确定，需要去jira索引一下
你的TMP目录没配置，hadoop会用默认目录（目录文件夹位置我忘了）
你去看一下这目录的权限是不是有问题

给你3个建议
1、在hadoop1.x的所有版本中，1.0.4 1.1.2 1.2.1 这三个版本是我感觉最稳定，可以尝试换一下
2、配置tmp，重新format namenode再试
3、检查端口、防火墙，看看是不是有问题（我觉得应该没问题）

#13

感谢大师，我重新设置了tmp，然后取消了防火墙，reboot后，重新format，就好用了，呵呵。

再次感谢大师。

推荐阅读

port
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
port
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
int
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
int
在Linux系统中避免安装MySQL的简易指南

在Linux系统中避免安装MySQL的简易指南 ... [详细]

蜡笔小新 2024-11-11 13:22:28
header
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
case
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
future
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
future
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
case
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
case
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
case
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
case
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
format
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
header
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
int
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44

o筱灵丹

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章