热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DB数据怎么导入DBFS中

请问各位,除了使用Sqoop之外,是否还有其它的工具。如果我想把30T的数据导入DBFS中,使用Sqoop是否可行?
请问各位,除了使用Sqoop之外,是否还有其它的工具。如果我想把30T的数据导入DBFS中,使用Sqoop是否可行?

13 个解决方案

#1


DBFS是什么?

#2


是HDFS吧
SQOOP可用,效率根据你的RDBMS的磁盘速度和Map槽位的数量决定
假设这个单机是接入一个千兆交换机,和hadoop所有节点全部独联千兆
算笔账
假设Map槽有1000个(大概 90个节点)
30T*1024*1024 = 31457280 MB
千兆是 128mb/s,由于各种损耗打个对折 64mb/s (可能30mb/s都没有)
31457280 / 64 / 1000 = 491秒 (根据集群的性能,需要调整)
最后这个数字乘以 2 大概就是耗时

#3


引用 2 楼 tntzbzc 的回复:
是HDFS吧
SQOOP可用,效率根据你的RDBMS的磁盘速度和Map槽位的数量决定
假设这个单机是接入一个千兆交换机,和hadoop所有节点全部独联千兆
算笔账
假设Map槽有1000个(大概 90个节点)
30T*1024*1024 = 31457280 MB
千兆是 128mb/s,由于各种损耗打个对折 64mb/s (可能30mb/s都没有)
31457280 / 64 / 1000 = 491秒 (根据集群的性能,需要调整)
最后这个数字乘以 2 大概就是耗时

请问,您是否实际操作过同类的大数据导入?

#4


引用 3 楼 weili0627 的回复:
请问,您是否实际操作过同类的大数据导入?


有做过 ,怎么了?

#5


引用 4 楼 tntzbzc 的回复:
Quote: 引用 3 楼 weili0627 的回复:

请问,您是否实际操作过同类的大数据导入?


有做过 ,怎么了?


没有什么,只是想知道,您的运算是否在实际情况下验证过。
还有一个问题,想请教您一下,我在一个server上进行了hadoop的伪发布,只想提交一下hello world作业看看结果。我在启动完成后,想使用50030 50073查看一个web监控,但是不能正常访问。jps查看了一个四个服务都在,然后又查看了一个对应的四个log文件,启动日志也正常没有错误,并且日志表明两个端口已经正常打开,但是我用netstat又看不到这两个端口,请问大师,这是怎么回事?

#6


引用 5 楼 weili0627 的回复:
Quote: 引用 4 楼 tntzbzc 的回复:

Quote: 引用 3 楼 weili0627 的回复:

请问,您是否实际操作过同类的大数据导入?


有做过 ,怎么了?


没有什么,只是想知道,您的运算是否在实际情况下验证过。
还有一个问题,想请教您一下,我在一个server上进行了hadoop的伪发布,只想提交一下hello world作业看看结果。我在启动完成后,想使用50030 50073查看一个web监控,但是不能正常访问。jps查看了一个四个服务都在,然后又查看了一个对应的四个log文件,启动日志也正常没有错误,并且日志表明两个端口已经正常打开,但是我用netstat又看不到这两个端口,请问大师,这是怎么回事?


在Web访问客户机上,添加hadoop节点的hosts

#7


引用 6 楼 tntzbzc 的回复:
Quote: 引用 5 楼 weili0627 的回复:

Quote: 引用 4 楼 tntzbzc 的回复:

Quote: 引用 3 楼 weili0627 的回复:

请问,您是否实际操作过同类的大数据导入?


有做过 ,怎么了?


没有什么,只是想知道,您的运算是否在实际情况下验证过。
还有一个问题,想请教您一下,我在一个server上进行了hadoop的伪发布,只想提交一下hello world作业看看结果。我在启动完成后,想使用50030 50073查看一个web监控,但是不能正常访问。jps查看了一个四个服务都在,然后又查看了一个对应的四个log文件,启动日志也正常没有错误,并且日志表明两个端口已经正常打开,但是我用netstat又看不到这两个端口,请问大师,这是怎么回事?


在Web访问客户机上,添加hadoop节点的hosts


启动日志中存在如下两个疑点,两段的最后一句其中的IP地址都是0.0.0.0:port,请教大师是怎么回事?按照您说的,我已经修改了我win7客户端的hosts列表,虽然启动依然正常,但还是不能正常访问web监控。
1、hadoop-root-namenode-master.log
2014-01-14 09:39:17,031 INFO org.apache.hadoop.http.HttpServer: Port returned by webServer.getConnectors()[0].getLocalPort() before open() is -1. Opening the listener on 50070
2014-01-14 09:39:17,032 INFO org.apache.hadoop.http.HttpServer: listener.getLocalPort() returned 50070 webServer.getConnectors()[0].getLocalPort() returned 50070
2014-01-14 09:39:17,032 INFO org.apache.hadoop.http.HttpServer: Jetty bound to port 50070
2014-01-14 09:39:17,032 INFO org.mortbay.log: jetty-6.1.26
2014-01-14 09:39:17,345 INFO org.mortbay.log: Started SelectChannelConnector@0.0.0.0:50070
2014-01-14 09:39:17,346 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: Web-server up at: 0.0.0.0:50070
2、hadoop-root-jobtracker-master.log
2014-01-14 09:39:24,101 INFO org.apache.hadoop.http.HttpServer: Added global filtersafety (class=org.apache.hadoop.http.HttpServer$QuotingInputFilter)
2014-01-14 09:39:24,132 INFO org.apache.hadoop.http.HttpServer: Port returned by webServer.getConnectors()[0].getLocalPort() before open() is -1. Opening the listener on 50030
2014-01-14 09:39:24,133 INFO org.apache.hadoop.http.HttpServer: listener.getLocalPort() returned 50030 webServer.getConnectors()[0].getLocalPort() returned 50030
2014-01-14 09:39:24,133 INFO org.apache.hadoop.http.HttpServer: Jetty bound to port 50030
2014-01-14 09:39:24,133 INFO org.mortbay.log: jetty-6.1.26
2014-01-14 09:39:24,407 INFO org.mortbay.log: Started SelectChannelConnector@0.0.0.0:50030

#8


贴你的hadoop配置文件
hosts 文件
network 文件

#9


引用 8 楼 tntzbzc 的回复:
贴你的hadoop配置文件
hosts 文件
network 文件

1、hosts:
127.0.0.1 localhost
192.168.129.145 master
2、network
NETWORKING=yes
HOSTNAME=master
3、core-site.xml






  
    fs.default.name
    hdfs://master:9000
  


4、hdfs-site.xml






  
    dfs.replication
    1
  

  
    dfs.permissions
    false
  


5、mapred-site.xml






  
    mapred.job.tracker
    master:9001
  

#10


很奇怪,配置感觉没什么问题

什么版本的hadoop

#11


引用 10 楼 tntzbzc 的回复:
很奇怪,配置感觉没什么问题

什么版本的hadoop


hadoop-1.0.3版本。
满心期待大师的回复,虽然有点失望,但还是感谢大师。
这个问题,我也在网上找了很长时间了。

#12


本帖最后由 tntzbzc 于 2014-01-15 12:56:38 编辑
引用 11 楼 weili0627 的回复:
Quote: 引用 10 楼 tntzbzc 的回复:

很奇怪,配置感觉没什么问题

什么版本的hadoop


hadoop-1.0.3版本。
满心期待大师的回复,虽然有点失望,但还是感谢大师。
这个问题,我也在网上找了很长时间了。


1.0.3有几个蛮严重的bug,但会不会导致你这个问题,我不确定,需要去jira索引一下
你的TMP目录没配置,hadoop会用默认目录(目录文件夹位置我忘了)
你去看一下这目录的权限是不是有问题

给你3个建议
1、在hadoop1.x的所有版本中,1.0.4 1.1.2 1.2.1 这三个版本是我感觉最稳定,可以尝试换一下
2、配置tmp,重新format namenode再试
3、检查端口、防火墙,看看是不是有问题(我觉得应该没问题)

#13


感谢大师,我重新设置了tmp,然后取消了防火墙,reboot后,重新format,就好用了,呵呵。

再次感谢大师。

推荐阅读
  • 解决Only fullscreen opaque activities can request orientation错误的方法
    本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误,并提供了一种有效的解决方案。 ... [详细]
  • 如何在Linux服务器上配置MySQL和Tomcat的开机自动启动
    在Linux服务器上部署Web项目时,通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动,以确保服务的稳定性和可靠性。通过合理的配置,可以有效避免因服务未启动而导致的项目故障。 ... [详细]
  • PTArchiver工作原理详解与应用分析
    PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制,探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略,实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例,为用户提供了实用的操作建议和技术支持。 ... [详细]
  • 在Linux系统中避免安装MySQL的简易指南
    在Linux系统中避免安装MySQL的简易指南 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • 为了确保iOS应用能够安全地访问网站数据,本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程,可以确保应用始终使用HTTPS协议,从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法,帮助读者快速上手并成功部署SSL证书。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Linux CentOS 7 安装PostgreSQL 9.5.17 (源码编译)
    近日需要将PostgreSQL数据库从Windows中迁移到Linux中,LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]
  • MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意:4实验手册正文说 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
author-avatar
o筱灵丹
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有