热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据分析一起学环境准备

大家好。好久不见。 

一直以来,对大数据都很感兴趣,最近买了几台机器,开始搞数据分析了。其实想想,花不了多少钱,但是能一直搞一直爽,挺不错的。爽过装了黑苹果。吐个槽,黑苹果装一下一百二,等我学会了我自己也装一下。

 

CDH是目前名副其实的Top 1的大数据组件包了,其中也包含了已经公线给Apache的Impala项目,很好用。之前单独研究spark的时候曾经想过,如果说我需要一个大数据的实时查询引擎,要怎么用spark实现?真正意义的流处理,要怎么用spark实现?

真正意义的流处理,应当用flink来实现,用Micro Batch实现的都不能算真正意义的stream。那么真正的海量实时查询呢?目前看,比较合适的就是Impala了。

 

Impala是有Cloudera开源并贡献给Apache的一个实时的,基于SQL方言的分布式查询系统。支持JDBC,使用hive2的驱动即可。支持直接读取hive、hbase以及文件中的数据。支持INSERT语句。简单来说,sqoop从mysql抽数据到hive,impala刷新一下metadata以后就可以直接查询,非常方便。例如在企业级数据分析场景里,各种数据汇聚到hive中,直接进行分析查询,并且把数据丢回hive中展示,完美兼容常见组件。

 

限于篇幅,这次先介绍一下Cloudera Data HUB(CDH)的安装过程。CDH本身是可以通过一个单独的bin安装完毕的。如果这样安装,程序会把所有需要的组件都通过网络下载到本地。这样的安装过程太慢,太艰难。而且Linux安装的话,需要一直通过ssh连在服务器上,如果中间断了的话。。。

 

emmmmm......

 

所以我们需要快捷的可靠的安装。

 

CDH整个环境可以分为三部分,分别是server、agent、大数据组件。CDH主要使用Java、Python开发。大数据组件主要使用Java、C++等语言开发。server负责提供可视化的环境,供管理员管理和配置系统。此外server还要管理大数据组件的所有运行细节。agent负责向server汇报每个node的运行状况,接收server发出的指令,如修改配置等。大数据组件负责完成大数据业务处理。前面说的bin主要完成的工作,就是下载上面说的三种组件,完成安装。其中大数据组件是通过parcel包的方式提供的,其余是通过rpm方式提供。我们可以提前把所有安装包下载到本地,再模拟CDH Manager的文件结构,让server识别到即可。

 

bin下载路径

https://archive.cloudera.com/cm6/6.2.0/cloudera-manager-installer.bin

 

rpm下载路径(共6个包):

https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/*.rpm

 

parcel下载路径

https://archive.cloudera.com/cdh6/6.2/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373-el6.parcel

https://archive.cloudera.com/cdh6/6.2/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373-el6.parcel.sha1

https://archive.cloudera.com/cdh6/6.2/parcels/manifest.json

 

上面举例的,是基于CentOS7环境的,CDH 6.2.0安装所需的包。首先先将所有的文件都下载到待安装的Linux主机上。下载完成后,通过rpm -ivh的方式将包依次安装。如果提示缺少cloudera相关包,调整顺序后继续安装。如果缺少第三方包则可以通过yum install xx.rpm的方式补齐。其中名称为cloudera-manager-server-db-2-6.2.0-968826.el7.x86_64.rpm的包先不要安装。如果你预先安装了,CDH会认为你已经安装过一个版本,需要删除etc下的数据库配置文件。安装应首先从oracle JDK开始,随后是daemon。

 

完成rpm安装后,chmod u+x cloudera-manager-installer.bin,并执行之即可。执行完毕后,命令行会提示安装完毕,可以通过7180端口访问管理器。实际此时只是安装完毕,并没有启动完毕。请关注/var/log/cloudera-scm-server/cloudera-scm-server.log,直到提示7180端口可用。

 

看到提示后,访问管理器,地址是http://x.x.x.x:7180/cmf。默认用户名密码都是admin。登录后界面如下图。如果能看到登录界面,则需要将之前下载的parcel文件放到/opt/cloudera/parcel-repo/目录中,并将用户和组都改为cloudera-scm。

 

大数据分析一起学 环境准备

 

大数据分析一起学 环境准备

大数据分析一起学 环境准备

 

此处点击继续后,系统会引导到安装界面。包括搜索并添加集群内的主机、添加互信信息等。其中有一个步骤需要注意。当选择安装的parcel时,会提示选择资源库所在位置,默认选中的是下图中红框所示。不要选择红框所示,需要改为上面的第一个选项。

大数据分析一起学 环境准备

 

后续步骤就一直下一步下一步即可。到下图所示步骤时,说明CDH正在部署环境,静待完成既可。

大数据分析一起学 环境准备

 

 

系统安装完毕并登录后,运行界面如下图所示。

大数据分析一起学 环境准备

 

如果在系统刚部署完成,管理器提示有部分配置不合理或者运行警告,可以暂时先忽略,等agent上报一段时间数据后再试。其中会提示各种组件的堆内存不足,请自行根据机器硬件条件处理。如果是测试环境可以使用默认的postgresql,正式环境建议使用MySQL或者Oracle。


推荐阅读
  • Linux CentOS 7 安装PostgreSQL 9.5.17 (源码编译)
    近日需要将PostgreSQL数据库从Windows中迁移到Linux中,LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]
  • Parallels Desktop for Mac 是一款功能强大的虚拟化软件,能够在不重启的情况下实现在同一台电脑上无缝切换和使用 Windows 和 macOS 系统中的各种应用程序。该软件不仅提供了高效稳定的性能,还支持多种高级功能,如拖放文件、共享剪贴板等,极大地提升了用户的生产力和使用体验。 ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图
    本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例,适用于初学者。 ... [详细]
  • Ansible:自动化运维工具详解
    Ansible 是一款新兴的自动化运维工具,基于 Python 开发,集成了多种运维工具(如 Puppet、CFEngine、Chef、Func 和 Fabric)的优点,实现了批量系统配置、程序部署和命令执行等功能。本文将详细介绍 Ansible 的架构、特性和优势。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 深入解析C语言中结构体的内存对齐机制及其优化方法
    为了提高CPU访问效率,C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制,并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用,从而提升程序性能。 ... [详细]
  • SecureCRT是一款功能强大的终端仿真软件,支持SSH1和SSH2协议,适用于在Windows环境下高效连接和管理Linux服务器。该工具不仅提供了稳定的连接性能,还具备丰富的配置选项,能够满足不同用户的需求。通过SecureCRT,用户可以轻松实现对远程Linux系统的安全访问和操作。 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 为了确保iOS应用能够安全地访问网站数据,本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程,可以确保应用始终使用HTTPS协议,从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法,帮助读者快速上手并成功部署SSL证书。 ... [详细]
  • FreeBSD环境下PHP GD库安装问题的详细解决方案
    在 FreeBSD 环境下,安装 PHP GD 库时可能会遇到一些常见的问题。本文详细介绍了从配置到编译的完整步骤,包括解决依赖关系、配置选项以及常见错误的处理方法。通过这些详细的指导,开发者可以顺利地在 FreeBSD 上完成 PHP GD 库的安装,确保其正常运行。此外,本文还提供了一些优化建议,帮助提高安装过程的效率和稳定性。 ... [详细]
  • V8不仅是一款著名的八缸发动机,广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来,作为Chromium项目的一部分,V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制,显著提升了JavaScript的执行效率,为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色,成为众多开发者和企业的首选。 ... [详细]
  • 在Linux系统中,网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制,并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址(需要安装`iproute`包),当网卡未分配IP地址或处于关闭状态时,可以通过`ip link set`命令进行配置和激活。此外,文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理,为系统管理员提供了实用的操作指南。 ... [详细]
  • 本文详细介绍了如何在Linux系统(以CentOS为例)上彻底卸载Zimbra邮件系统,包括停止服务、删除文件和用户等步骤。 ... [详细]
author-avatar
mobiledu2502917073
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有