【hadoop2.6.0】用C++编写mapreduce

作者：双语的家_352 | 来源：互联网 | 2023-08-22 06:51

hadoop通过hadoopstreaming来实现用非Java语言写的mapreduce代码。对于一个一点Java都不会的我来说，这真是个天大的好消息。官网上hadoopstre

hadoop通过hadoop streaming 来实现用非Java语言写的mapreduce代码。对于一个一点Java都不会的我来说，这真是个天大的好消息。

官网上hadoop streaming的介绍在：http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html

我们用wordcount的例子来说明，输入文件我用的是从网上下载的哈利波特第七部的英文版，命名为h.txt

用C++写map程序，只要能够从标准输入中读取信息，并且能用标准输出来输出键值对就行。

对于wordcount单词计数来说，map程序非常简单，只要把每个单词分别输出后面再输出个1就行，表示每个单词出现了1次

wordcount_map.cpp程序如下：

#include 
#include <string>
using namespace std;

int main(int argc, char** argv)
{
    string word;
    while(cin >> word)
    {
        cout <"/t" <<"1" << endl;
    }
    return 0;
}

reduce程序要能够读取map的输出键值对，并且把key值（单词）相同的键值对做整合，并且输出整合后结果

wordcount_reduce.cpp程序如下：

#include 
#include <string>
#include 
using namespace std;

int main(int argc, char** argv)
{
    string key, num;
    map<string, int> count; 
    map<string, int>::iterator it;
    while(cin >> key >> num)
    {
        it = count.find(key);
        if(it != count.end())
        {
            it->second++;
        }
        else
        {
            count.insert(make_pair(key, 1));
        }
    }

    for(it = count.begin(); it != count.end(); it++)
    {
        cout <first <<"/t" <second << endl;
    }
    return 0;
}

把两个.cpp文件编译为可执行文件，并且把这两个可执行文件放在hadoop根目录下

g++ -o mapperC wordcount_map.cpp
g++ -o reduceC wordcount_reduce.cpp

上传待处理文件h.txt到 hdfs 的 /user/kzy/input中

bin/hdfs dfs -put h.txt  /user/kzy/input

要运行hadoop streaming需要hadoop-streaming-2.6.0.jar，位置在hadoop-2.6.0/share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar 开始我各种运行不了，就是因为新版本里面文件的位置和以前不一样了。

执行mapreduce,里面的选项我并不是完全理解，但是这样可以正常运行。注意，老版本里的-jobconf 已经改名叫 -D 了

bin/hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar  \
-D  mapred.job.name="word count~"  \
-input /user/kzy/input/h.txt 
-output /user/output/c++_out  \
-mapper ./mapperC \ 
-reducer ./reduceC  \
-file mapperC  -file reduceC

查看结果，sort中 -k 2 表示用以tab为分隔符的第二个字段来排序 -n表示用数字形式排序 -r表示从大到小排序显示结果前20行

bin/hadoop dfs -cat /user/output/c++_out/* | sort -k 2 -n -r|head -20

结果如下：

【hadoop2.6.0】用C++ 编写mapreduce

推荐阅读

search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
client
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
go
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
string
Mac OS 升级到11.2.2 Eclipse打不开了，报错Failed to create the Java Virtual Machine

本文介绍了在Mac OS升级到11.2.2版本后，使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 12:01:13
go
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
stream
【转】腾讯分析系统架构解析

TA（TencentAnalytics，腾讯分析）是一款面向第三方站长的免费网站分析系统，在数据稳定性、及时性方面广受站长好评，其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]

蜡笔小新 2023-10-16 19:05:20
hook
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
main
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
dll
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
cookie
在CentOS/RHEL 7/6，Fedora 27/26/25上安装JAVA 9的步骤和方法

本文介绍了在CentOS/RHEL 7/6，Fedora 27/26/25上安装JAVA 9的详细步骤和方法。首先需要下载最新的Java SE Development Kit 9发行版，然后按照给出的Shell命令行方式进行安装。详细的步骤和方法请参考正文内容。 ... [详细]

蜡笔小新 2023-12-13 09:26:47
stream
Python中字符串的压缩与解压缩方法及应用

本文介绍了在Python中使用zlib模块进行字符串的压缩与解压缩的方法，并探讨了其在内存优化方面的应用。通过压缩存储URL等长字符串，可以大大降低内存消耗，虽然处理时间会增加，但是整体效果显著。同时，给出了参考链接，供进一步学习和应用。 ... [详细]

蜡笔小新 2023-12-11 17:42:43
cmd
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
dll
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
stream
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
stream
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04

双语的家_352

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章