一、flume是什么
?????? Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
flume的架构:
flume的组成架构:
二、flume的组件介绍
1、Agent
Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成,Source、Channel、Sink。
2、Source
Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy
3、Channel
Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel:Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么Memory Channel就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。
4、Sink
Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。
5、Event
传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。??Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。
6、Flume Agent内部原理
三、flume的安装
flume官网地址:http://flume.apache.org/
1、安装包进行解析
2、将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置flume-env.sh文件
3、配置/etc/profile
四、flume测试
案列:监听本地的一个端口,通过netcat往监听的端口发送消息,然后flume将收集的消息展示在控制台。
1、安装netcat工具
sudo yum install -y nc
2、选择一个端口,看是否被使用
3、创建Flume Agent配置文件flume-netcat-logger.conf
4、启动agent和nc
5、测试成功
五、安装flume监控Ganglia
1、Ganglia的安装与部署
1.1、安装httpd服务与php
sudo yum -y install httpd php
1.2、安装其他依赖
sudo yum -y install rrdtool perl-rrdtool rrdtool-devel
sudo yum -y install apr-devel
1.3、安装ganglia
sudo rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
sudo yum -y install ganglia-gmetad
sudo yum -y install ganglia-web
sudo yum install -y ganglia-gmond
1.4、ganglia介绍
Ganglia由gmond、gmetad和gweb三部分组成。
gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gmond,你可以很容易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。
gmetad(Ganglia Meta Daemon)整合所有信息,并将其以RRD格式存储至磁盘的服务。
gweb(Ganglia Web)Ganglia可视化工具,gweb是一种利用浏览器显示gmetad所存储数据的PHP前端。在Web界面中以图表方式展现集群的运行状态下收集的多种不同指标数据。
1.5、修改配置文件/etc/httpd/conf.d/ganglia.conf
1.7、修改配置文件/etc/ganglia/gmond.conf
1.8、修改配置文件/etc/selinux/config
selinux本次生效关闭必须重启,如果此时不想重启,可以临时生效之:
sudo setenforce 0
1.9、启动ganglia
sudo service httpd start
sudo service gmetad start
sudo service gmond start
1.10、打开网页浏览ganglia页面
2、测试Ganglia
2.1、修改flume-env.sh配置
2.2、启动Flume任务
flume-ng agent --conf conf/ --name a1 --conf-file jobs/flume-netcat-logger.conf -Dflume.root.logger==INFO,console -Dflume.monitoring.type=ganglia -Dflume.monitoring.hosts=192.168.13.137:8649
2.2、发送数据观察ganglia监测图
nc localhost 44444
成功!
flume安装及ganglia使用