热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据分析一起学环境准备

大家好。好久不见。 

一直以来,对大数据都很感兴趣,最近买了几台机器,开始搞数据分析了。其实想想,花不了多少钱,但是能一直搞一直爽,挺不错的。爽过装了黑苹果。吐个槽,黑苹果装一下一百二,等我学会了我自己也装一下。

 

CDH是目前名副其实的Top 1的大数据组件包了,其中也包含了已经公线给Apache的Impala项目,很好用。之前单独研究spark的时候曾经想过,如果说我需要一个大数据的实时查询引擎,要怎么用spark实现?真正意义的流处理,要怎么用spark实现?

真正意义的流处理,应当用flink来实现,用Micro Batch实现的都不能算真正意义的stream。那么真正的海量实时查询呢?目前看,比较合适的就是Impala了。

 

Impala是有Cloudera开源并贡献给Apache的一个实时的,基于SQL方言的分布式查询系统。支持JDBC,使用hive2的驱动即可。支持直接读取hive、hbase以及文件中的数据。支持INSERT语句。简单来说,sqoop从mysql抽数据到hive,impala刷新一下metadata以后就可以直接查询,非常方便。例如在企业级数据分析场景里,各种数据汇聚到hive中,直接进行分析查询,并且把数据丢回hive中展示,完美兼容常见组件。

 

限于篇幅,这次先介绍一下Cloudera Data HUB(CDH)的安装过程。CDH本身是可以通过一个单独的bin安装完毕的。如果这样安装,程序会把所有需要的组件都通过网络下载到本地。这样的安装过程太慢,太艰难。而且Linux安装的话,需要一直通过ssh连在服务器上,如果中间断了的话。。。

 

emmmmm......

 

所以我们需要快捷的可靠的安装。

 

CDH整个环境可以分为三部分,分别是server、agent、大数据组件。CDH主要使用Java、Python开发。大数据组件主要使用Java、C++等语言开发。server负责提供可视化的环境,供管理员管理和配置系统。此外server还要管理大数据组件的所有运行细节。agent负责向server汇报每个node的运行状况,接收server发出的指令,如修改配置等。大数据组件负责完成大数据业务处理。前面说的bin主要完成的工作,就是下载上面说的三种组件,完成安装。其中大数据组件是通过parcel包的方式提供的,其余是通过rpm方式提供。我们可以提前把所有安装包下载到本地,再模拟CDH Manager的文件结构,让server识别到即可。

 

bin下载路径

https://archive.cloudera.com/cm6/6.2.0/cloudera-manager-installer.bin

 

rpm下载路径(共6个包):

https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/*.rpm

 

parcel下载路径

https://archive.cloudera.com/cdh6/6.2/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373-el6.parcel

https://archive.cloudera.com/cdh6/6.2/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373-el6.parcel.sha1

https://archive.cloudera.com/cdh6/6.2/parcels/manifest.json

 

上面举例的,是基于CentOS7环境的,CDH 6.2.0安装所需的包。首先先将所有的文件都下载到待安装的Linux主机上。下载完成后,通过rpm -ivh的方式将包依次安装。如果提示缺少cloudera相关包,调整顺序后继续安装。如果缺少第三方包则可以通过yum install xx.rpm的方式补齐。其中名称为cloudera-manager-server-db-2-6.2.0-968826.el7.x86_64.rpm的包先不要安装。如果你预先安装了,CDH会认为你已经安装过一个版本,需要删除etc下的数据库配置文件。安装应首先从oracle JDK开始,随后是daemon。

 

完成rpm安装后,chmod u+x cloudera-manager-installer.bin,并执行之即可。执行完毕后,命令行会提示安装完毕,可以通过7180端口访问管理器。实际此时只是安装完毕,并没有启动完毕。请关注/var/log/cloudera-scm-server/cloudera-scm-server.log,直到提示7180端口可用。

 

看到提示后,访问管理器,地址是http://x.x.x.x:7180/cmf。默认用户名密码都是admin。登录后界面如下图。如果能看到登录界面,则需要将之前下载的parcel文件放到/opt/cloudera/parcel-repo/目录中,并将用户和组都改为cloudera-scm。

 

大数据分析一起学 环境准备

 

大数据分析一起学 环境准备

大数据分析一起学 环境准备

 

此处点击继续后,系统会引导到安装界面。包括搜索并添加集群内的主机、添加互信信息等。其中有一个步骤需要注意。当选择安装的parcel时,会提示选择资源库所在位置,默认选中的是下图中红框所示。不要选择红框所示,需要改为上面的第一个选项。

大数据分析一起学 环境准备

 

后续步骤就一直下一步下一步即可。到下图所示步骤时,说明CDH正在部署环境,静待完成既可。

大数据分析一起学 环境准备

 

 

系统安装完毕并登录后,运行界面如下图所示。

大数据分析一起学 环境准备

 

如果在系统刚部署完成,管理器提示有部分配置不合理或者运行警告,可以暂时先忽略,等agent上报一段时间数据后再试。其中会提示各种组件的堆内存不足,请自行根据机器硬件条件处理。如果是测试环境可以使用默认的postgresql,正式环境建议使用MySQL或者Oracle。


推荐阅读
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • Elasticsearch1Elasticsearch入门1.1Elasticsearch术语1.1.16.0以前的Elasticsearch术语1.1.26.0以后的Elasti ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
author-avatar
mobiledu2502917073
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有