合约广告系统Hadoop

作者：第一偶像 | 来源：互联网 | 2023-05-19 11:58

Hadoop

Hadoop 概况

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目 Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。Yahoo! 是最主要源代码贡献者, 贡献了大约80%的代码，Powerset写的HBase, Facebook 写的Hive都是Hadoop上很重要的子项目。Hadoop的使用异常广泛，凡是涉及大数据处理的互联网公司几乎都使用Hadoop，已知为接近150家的大型组织实际使用: Yahoo!, Amazon, EBay, AOL, Google, IBM, Facebook, Twitter, Baidu, Alibaba, Tencent。在这里可以看到一些使用Hadoop的公司。

Hadoop目标可以概括为：可扩展性: Petabytes (1015 Bytes) 级别的数据量, 数千个节点，经济性: 利用商品级(commodity)硬件完成海量数据存储和计算，可靠性: 在大规模集群上提供应用级别的可靠性。

Hadoop包含两个部分：

1、HDFS

HDFS即Hadoop Distributed File System(Hadoop分布式文件系统)，HDFS具有高容错性，并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用，并且提供了对数据读写的高吞吐率。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode，而在每一个slave上运行一个Datanode。

合约广告系统-Hadoop

HDFS支持传统的层次文件组织结构，同现有的一些文件系统在操作上很类似，比如你可以创建和删除一个文件，把一个文件从一个目录移到另一个目录，重命名等等操作。Namenode管理着整个分布式文件系统，对文件系统的操作（如建立、删除文件和文件夹）都是通过Namenode来控制。

HDFS的结构图中可以看出，Namenode，Datanode，Client之间的通信都是建立在TCP/IP的基础之上的。当Client要执行一个写入的操作的时候，命令不是马上就发送到Namenode，Client首先在本机上临时文件夹中缓存这些数据，当临时文件夹中的数据块达到了设定的Block的值（默认是64M）时，Client便会通知Namenode，Namenode便响应Client的RPC请求，将文件名插入文件系统层次中并且在Datanode中找到一块存放该数据的block，同时将该Datanode及对应的数据块信息告诉Client，Client便这些本地临时文件夹中的数据块写入指定的数据节点。

HDFS采取了副本策略，其目的是为了提高系统的可靠性，可用性。HDFS的副本放置策略是三个副本，一个放在本节点上，一个放在同一机架中的另一个节点上，还有一个副本放在另一个不同的机架中的一个节点上。

2、MapReduce

有另一种分布式计算框架MPI，它在很多的问题上实现起来比Map/Reduce更方便，比如带迭代的机器学习的模型，但是个人还是要提倡Map/Reduce。原因是Map/Reduce模型中Map之间是相互独立的，因为相互独立，使得系统的可靠性大大提高了。比如一个任务需要1000个结点共同完成，在MPI中需要这1000个结点协同来完成这个任务，结点间可能有通信，数据交换。如果你有一个结点发生问题，整个任务就会失败，当然你也可能有一些容错的处理可以让任务继续算。但在海量数据情况下，比如你需要四位数的服务器运算一个任务，而你的机器是普通的服务器（commodity server），一个机器失败的概率是非常高的，这也就是Map/Reduce在处理海量数据情况下更适合的原因。在后面谈到LDA等Topic Model运算的时候，个人认为Map/Reduce不一定是最适合的，因为文档级的运算称不上是海量数据，最多是大量数据运算，它的量级是百万级左右，是否要用Map/Reduce的模型，值得探讨。但是用户级别的数据，是亿的量级，用Map/Reduce比较适合。

它是用调度计算代替调度，在处理数据时，是将程序复制到目标机器上，而不是拷贝数据到目标计算机器上。

计算流程非常类似于简单的Unix pipe，上次给出一个Unix pipe方式和Map/Reduce统计单词的功能的比较:

Pipe: cat input | grep | sort | uniq -c > output

M/R: Input | map | shuffle & sort | reduce | output

Hadoop支持多样的编程接口:

Java native map/reduce – 可以操作M/R各细节

Streaming – 利用标准输入输出模拟以上pipeline

Pig –只关注数据逻辑，无须考虑M/R实现

这里提供一个示例，帮助您理解M/R。假设输入域是 one small step for man0, one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：

（one,1） (small,1） (step,1） (for,1） (man,1） (one,1） (giant,1）(leap,1） (for,1） (mankind,1）

如果对这个键/值对列表应用 Reduce 函数，将得到以下一组键/值对：

（one,2） (small,1） (step,1） (for,2） (man,1）（giant,1） (leap,1）(mankind,1）

结果是对输入域中的单词进行计数。

常用统计模型

后面讨论的几种方法会用到机器学习算法，机器学习的算法有很多分类，其中有统计机器学习算法，统计机器学习在Hadoop上仅仅实现其逻辑是比较简单的。常用的统计模型可以大致归为下面两个类别：

指数族分布

大多工程上的实用分布都是指数族分布，指数族分布的形式比较简单：

合约广告系统-Hadoop

它是参数和自变量的参数做内积，这个内积就是theta^Tu(x)。指数族分布是由最大熵的原则推导出来的，即在最大熵的假设下，满足一定条件的分布可以证明出是指数族的分布。指数族分布函数包括：Gaussian multinomial, maximum entroy。

指数族分布在工程中大量使用是因为它有一个比较好的性质，这个性质可以批核为最大似然（Maximum likelihook, ML）估计可以通过充分统计量（sufficient statistics）链接到数据（注：摘自《Pattern Recognition》），要解模型的参数，即对theta做最大似然估计，实际上可以用充分统计量来解最大似然估计：

合约广告系统-Hadoop

充分估计量大小是与模型的参数的空间复杂度成正比，和数据没有关系。换言之，在你的数据上计算出充分统计量后，最就可以将数据丢弃了，只用充分统计量。比如求高斯分布的均值和方差，只需要求出样本的与样本平方和。

指数族的混合分布

它不能通过计算得到充分统计量后将数据丢弃，但它在工程中使用的更多。比如有Mixture of Gaussians，Hidden Markov Model，Probability Latent Semantic Analysis（pLSI）.

虽然概率模型有很多，但个人认为解决问题的思路却很相似。即如果问题本身可以描述成一种分布，比如某种指数族分布，那么就使用该种指数族分布。比如点击率的问题，它的最值总是0或1，那么它就可以描述成Bi-nomial分布，再比如明显的钟型分布，我们可以用高斯分布。如果分布本身比较复杂，无法用单一的指数族分布描述，我们可以将多个分布叠加来描述。基本上常用的技术就这两种。

Map/Reduce统计学习流程

合约广告系统-Hadoop

Map的过程是收集充分统计量，充分统计量的形式是u(x)，它是指数族函数变换函数的均值。所以我们只需要得到u(x)的累加值，对高斯分布来讲，即得到样本之和，和样本平方和。Reduce即根据最大似然公式解出theta。即在在mapper中仅仅生成比较紧凑的统计量, 其大小正比于模型参数量, 与数据量无关。在图中还有一个反馈的过程，是因为是EM算法，EM是模拟指数族分布解的过程，它本质上还是用u(x)解模型中的参数，但它不是充分统计量所以它解完之后还要把参数再带回去，进行迭代。我们前面提到的所有的模型，比如高斯分布，pLSI等等都可以用这个框架去解。

大家了解了这个框架后，可以先估计一个统计模型，然后先用这个框架试一下，如果它的确是这个统计模型，那么就用这个模型解就可以了。但如果数据并不满足服从该统计模型，那么我们只能回退到使用梯度族的方法去解，梯度族的方法也很简单，因为我们往往假设样本间有独立性，我们可以在每个样本上计算梯度，累加后得到总体的梯度，Map就是在每个样本上收集梯度，在Reduce上把它们加起来，然后按梯度下降，更新模型，再进行迭代。

下面有的内容是直接从PPT中拷贝的，没有什么解释，大家可以看一下A Universal Statistical Learning Platform on Hadoop Streaming这个视频。

Map/Reduce 基本统计模型训练

Mapper

template

class CTrainMapper : public CFeature, public IDataNnalyzer{

protected:

TModel * pModel;

public:

/// Comsume a data record \author Peng Liu

virtual bool consume(const CRecord & record){

CFeature::consume(record);

pModel -> accumulate(*this, 1.0f);

return true;

}

/// Produced statistics (or modified data in case needed) \author Peng Liu

virtual bool produce(CRecord & record){

static bool first = true;

pModel -> produce(record);

if (record.getField("STAT") != NULL){

record.rmvField("PARAM")

return true;

}

return false;

};

}

Reducer

template

class CTrainReducer : public IDataAnalyzer{

protected:

TModel * pModel;

public:

/// Comsume a data record \author Peng Liu

virtual bool consume(const CRecord & record)

{return pModel -> consume(record);}

/// Try to update model after all input data finish \author Peng Liu

virtual void finish()

{pModel -> update();}

/// Produced model \author Peng Liu

virtual bool produce(CRecord & record){

pModel -> produce(record);

if (record.getField("STAT") != NULL){

record.rmvField("STAT");

return true;

}

return false;

}

};

示例: Gaussian模型训练

Map阶段所要计算的充分统计量为：

，Reduce阶段要计算的模型参数为：

void CGaussDiag::accumulate(CFeature & x, float occ)

{

size_t dim = getFeaDim();

assert(x.size() == dim);

accumOcc(occ);

for (size_t d = 0; d

{

stats[ d] += occ * x[d];

stats[dim + d] += occ * x[d] * x[d];

}

void CGaussDiag::update()

{

size_t dim = getFeaDim();

for (size_t d = 0; d

{

float X = stats[d],

float X2 = stats[dim + d];

params[ d] = X / occ();

params[dim + d] = occ() / (X2 - X * X / occ());

}

Hadoop上的工作流引擎-oozie

先说明一下，个人感觉oozie并不好用。

Oozie的功能是连接多个Map/Reduce Job，完成复杂的数据处理的工作流引擎，它可以很方便定制数据流之间的依赖关系，一个Job可以依赖三种条件：数据，时间，其它Job。比如它可以指定一个Job在某些数据到达后开始，可以指定固定时间Job开始运行，还可以指定在其它Job运行完成后开始。

前面说它不好用是因为它的定义很麻烦，它使用hPDL（一种XML流程语言）来定义DAG（有向无环图）工作流：

<action name='ingestor'> …

<action name=‘proc1’> …

<action name='proc2'> …

Java failed, error message…

并且oozie目前不支持Iteration，因为它是DAG。如果大家要用工作流引擎，可以推荐另一个工具是Linkin开发的Azkaban，它其实和Hadoop没什么关系，它是处理Linux环境下的Job的关系，所以它非常轻量级，也有一个比较方便的图形化界面去查看。Oozie是深度的与Hadoop结合，在通过API访问上，可能是有优势的，但简单的使用上又显得太重了。

介绍工作流引擎的原因是它在广告系统中是很重要的，因为广告系统的Hadoop上运行了很多任务，比如Audience Targeting，Click Model，Forecasting（流量预测），这些任务需要一个完善的调度机制，否则在运行环境中会非常混乱，数据的失败，Job的失败很难处理。工作流引擎会使整个系统更容易控制。

推荐阅读

hive
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
hive
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
hive
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
hive
HBase干货 | 如何优雅的通过Key与Value分离降低写放大难题？

本文将为大家介绍为什么这样能够有效的降低写放大，然后聊聊几个keyvalue分离系统的结构，包括两篇影响比较广泛的学术论文，以及HBase在keyvalue ... [详细]

蜡笔小新 2023-10-14 15:12:27
hive
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
ip
OAuth2.0指南

引言OAuth2.0是一种应用之间彼此访问数据的开源授权协议。比如，一个游戏应用可以访问Facebook的用户数据，或者一个基于地理的应用可以访问Foursquare的用户数据等。 ... [详细]

蜡笔小新 2023-10-17 11:24:37
ip
开发笔记:Flutter 添加APP启动 Story View

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Flutter添加APP启动StoryView相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 22:01:00
ip
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
ip
TNW：Tumblr博文已超200亿

据官方统计，截止至本周一，仅纽约市的Tumblr博文就已超过200亿条，对比六个月之前，这个数量整整多了一倍。而Tumblr ... [详细]

蜡笔小新 2023-10-15 10:05:33
ip
org.apache.hadoop.hbase.client.TableDescriptorBuilder.removeColumnFamily()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hbase.client.TableDescriptorBuilder.removeColumnFamily() ... [详细]

蜡笔小新 2023-10-14 11:21:06
ip
携程的困境

涂雅导读：国内老牌在线商旅网携程很郁闷，搜索引擎开始介入到旅游搜索，国外巨头如Expedia、Travelocity等大兵压境࿰ ... [详细]

蜡笔小新 2023-10-14 10:06:45
ip
开发笔记:大数据之布隆过滤器学习

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之布隆过滤器学习相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-14 09:39:25
js
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
ip
这也太简单了！轻松操作Feign 服务调用使用 Zipkin 链路追踪！

0、介绍分布式微服务时代，方便了业务的快速增长和服务的稳定，但是系统出现问题后，面对同业务多服务排查起来令人头大。这时候领导就想着集成分布式追踪系统。Zipkin是T ... [详细]

蜡笔小新 2023-10-15 15:12:54
js
个体都会学习的JavaScript之DOM树

篇首语：本文由编程笔记#小编为大家整理，主要介绍了JavaScript之DOM树相关的知识，希望对你有一定的参考价值。目录 ... [详细]

蜡笔小新 2023-10-14 19:24:44

第一偶像

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章