javamap倒序索引_MapReduce案例之倒排索引

作者：Jackson-過時間 | 来源：互联网 | 2023-08-10 12:43

1.倒排索引倒排索引是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射࿰

1. 倒排索引

倒排索引是文档检索系统中最常用的数据结构&＃xff0c;被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组) 在一个文档或一组文档中的存储位置的映射&＃xff0c;即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容&＃xff0c;而是进行相反的操作&＃xff0c;因而称为倒排索引( Inverted Index)。

2. 实例描述

通常情况下&＃xff0c;倒排索引由一个单词(或词组)以及相关的文档列表组成&＃xff0c;文档列表中的文档或者是标识文档的 ID 号&＃xff0c;或者是指文档所在位置的 URL。如下图所示&＃xff1a;

最常用的是使用词频作为权重&＃xff0c;即记录单词在文档中出现的次数。以英文为例&＃xff0c;如下图所示&＃xff0c;索引文件中的“ MapReduce”一行表示&＃xff1a;“ MapReduce”这个单词在文本 T0 中出现过 1 次&＃xff0c;T1 中出现过 1 次&＃xff0c;T2 中出现过 2 次。

这里存在两个问题&＃xff1a;第一&＃xff0c; key/value对只能有两个值&＃xff0c;需要根据情况将其中两个值合并成一个值&＃xff0c;作为 key 或 value 值&＃xff1b;

第二&＃xff0c;通过一个 Reduce 过程无法同时完成词频统计和生成文档列表&＃xff0c;所以必须增加一个 Combine 过程完成词频统计。

这里将单词和 URL 组成 key 值(如“ MapReduce&＃xff1a; file1.txt”)&＃xff0c;将词频作为value&＃xff0c;这样做的好处是可以利用 MapReduce 框架自带的Map 端排序&＃xff0c;将同一文档的相同单词的词频组成列表&＃xff0c;传递给 Combine 过程&＃xff0c;实现类似于 WordCount 的功能。

3.2 Combine 过程

经过 map 方法处理后&＃xff0c; Combine 过程将 key 值相同 value 值累加&＃xff0c;得到一个单词在文档中的词频。如果直接将图所示的输出作为 Reduce 过程的输入&＃xff0c;在 Shuffle 过程时将面临一个问题&＃xff1a;所有具有相同单词的记录(由单词、 URL 和词频组成)应该交由同一个Reducer 处理&＃xff0c;但当前的 key 值无法保证这一点&＃xff0c;所以必须修改 key 值和 value 值。这次将单词作为 key 值&＃xff0c; URL 和词频组成 value 值(如“ file1.txt&＃xff1a; 1”)。这样做的好处是可以利用 MapReduce 框架默认的 HashPartitioner 类完成 Shuffle 过程&＃xff0c;将相同单词的所有记录发送给同一个 Reducer 进行处理。

3.4 程序代码

pom文件

xsi:schemaLocation&＃61;"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

4.0.0

com.itcast

invertedIndex

1.0-SNAPSHOT

jar

invertedIndex

http://maven.apache.org

UTF-8

org.apache.hadoop

hadoop-common

2.6.4

org.apache.hadoop

hadoop-hdfs

2.6.4

org.apache.hadoop

hadoop-client

2.6.4

org.apache.hadoop

hadoop-mapreduce-client-core

2.6.4

org.apache.maven.plugins

maven-jar-plugin

2.4

true

lib/

cn.itcast.hadoop.mrwc.WordCountDriver

Map程序

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class InvertedIndexMapper extends Mapper{

private static Text keyInfo &＃61; new Text();// 存储单词和 URL 组合

private static final Text valueInfo &＃61; new Text("1");// 存储词频,初始化为1

&＃64;Override

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

String line &＃61; value.toString();

String[] fields &＃61; line.split(" ");// 得到字段数组

FileSplit fileSplit &＃61; (FileSplit) context.getInputSplit();// 得到这行数据所在的文件切片

String fileName &＃61; fileSplit.getPath().getName();// 根据文件切片得到文件名

for (String field : fields) {

// key值由单词和URL组成&＃xff0c;如“MapReduce:file1”

keyInfo.set(field &＃43; ":" &＃43; fileName);

context.write(keyInfo, valueInfo);

}

combine程序

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class InvertedIndexCombiner extends Reducer{

private static Text info &＃61; new Text();

// 输入&＃xff1a;

// 输出&＃xff1a;

&＃64;Override

protected void reduce(Text key, Iterable values, Context context)

throws IOException, InterruptedException {

int sum &＃61; 0;// 统计词频

for (Text value : values) {

sum &＃43;&＃61; Integer.parseInt(value.toString());

}

int splitIndex &＃61; key.toString().indexOf(":");

// 重新设置 value 值由 URL 和词频组成

info.set(key.toString().substring(splitIndex &＃43; 1) &＃43; ":" &＃43; sum);

// 重新设置 key 值为单词

key.set(key.toString().substring(0, splitIndex));

context.write(key, info);

}

reduce程序

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class InvertedIndexReducer extends Reducer{

private static Text result &＃61; new Text();

// 输入&＃xff1a;

// 输出&＃xff1a;

&＃64;Override

protected void reduce(Text key, Iterable values, Context context)

throws IOException, InterruptedException {

// 生成文档列表

String fileList &＃61; new String();

for (Text value : values) {

fileList &＃43;&＃61; value.toString() &＃43; ";";

}

result.set(fileList);

context.write(key, result);

}

主程序

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class InvertedIndexRunner {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Configuration conf &＃61; new Configuration();

Job job &＃61; Job.getInstance(conf);

job.setJarByClass(InvertedIndexRunner.class);

job.setMapperClass(InvertedIndexMapper.class);

job.setCombinerClass(InvertedIndexCombiner.class);

job.setReducerClass(InvertedIndexReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

FileInputFormat.setInputPaths(job, new Path("D:\\ziliao\\data\\InvertedIndex\\input"));

// 指定处理完成之后的结果所保存的位置

FileOutputFormat.setOutputPath(job, new Path("D:\\ziliao\\data\\InvertedIndex\\output"));

// 向 yarn 集群提交这个 job

boolean res &＃61; job.waitForCompletion(true);

System.exit(res ? 0 : 1);

}

按权重排序

/**

* Created by Administrator on 2018/8/15.

public class FileCount implements Comparable {

private String filename;

private long count;

//按照总流量倒序排

public int compareTo(FileCount bean) {

return bean.count>this.count?1:-1;

}

public FileCount(String filename, long count) {

this.filename &＃61; filename;

this.count &＃61; count;

}

&＃64;Override

public String toString() {

return filename &＃43; ":" &＃43; count;

}

新reduce程序

import java.io.IOException;

import java.util.ArrayList;

import java.util.Collections;

import java.util.List;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class InvertedIndexReducer extends Reducer{

private static Text result &＃61; new Text();

// 输入&＃xff1a;

// 输出&＃xff1a;

&＃64;Override

protected void reduce(Text key, Iterable values, Context context)

throws IOException, InterruptedException {

// 生成文档列表

String fileList &＃61; new String();

List FileCountList &＃61; new ArrayList();

for (Text value : values) {

String[] arr &＃61; value.toString().split(":");

FileCount FileCount &＃61; new FileCount(arr[0],Long.parseLong(arr[1]));

FileCountList.add(FileCount);

}

Collections.sort(FileCountList);

for(FileCount FileCount : FileCountList)

{

fileList &＃43;&＃61; FileCount.toString() &＃43; ";";

}

result.set(fileList);

context.write(key, result);

}

推荐阅读

搜索
postman测试登录后的接口_使用postman进行接口测试的方法(测试用户管理模块)

本文介绍了使用postman进行接口测试的方法，以测试用户管理模块为例。首先需要下载并安装postman，然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时，可以进行异常测试，包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]

蜡笔小新 2023-12-14 10:29:45
搜索
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
string
JVM 学习总结（三）——对象存活判定算法的两种实现

本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法：引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活，虽然简单高效，但无法解决循环引用的问题；可达性分析算法通过判断对象是否可达来确定存活对象，是主流的Java虚拟机内存管理算法。 ... [详细]

蜡笔小新 2023-12-13 18:59:46
default
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
string
Java中vector的使用详解

本文详细介绍了Java中vector的使用方法和相关知识，包括vector类的功能、构造方法和使用注意事项。通过使用vector类，可以方便地实现动态数组的功能，并且可以随意插入不同类型的对象，进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下，使用vector类是一个很好的选择。 ... [详细]

蜡笔小新 2023-12-13 14:14:39
string
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
post
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
process
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
command
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
hash
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
string
java.lang.UnsatisfiedLinkError: …….io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

在利用hadoop运行MapReduce项目时，提示报错（注意最后是Z）：Exceptioninthreadmainj ... [详细]

蜡笔小新 2023-10-15 14:52:06
string
同事工资打听话题，如何提高自己的薪水

本文讨论了同事工资打听的话题，包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系，以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满，通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]

蜡笔小新 2023-12-14 16:22:57
string
树莓派Linux基础（一）：查看文件系统的命令行操作

本文介绍了在树莓派上通过SSH服务使用命令行查看文件系统的操作，包括cd命令用于变更目录、pwd命令用于显示当前目录位置、ls命令用于显示文件和目录列表。详细讲解了这些命令的使用方法和注意事项。 ... [详细]

蜡笔小新 2023-12-14 13:33:39
usb
新款奇骏的两个功能让人上瘾，究竟是什么？

本文介绍了新款奇骏的两个让人上瘾的功能，分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测，探讨了这两个新增功能的使用体验和优势。此外，还介绍了新款奇骏的其他配置和改进，如增加的座椅和驾驶辅助系统，以及内饰的舒适性提升。对于喜欢音响的消费者来说，BOSE音响的升级也是一个亮点。最后，文章提到了BOSE音响的数字还原能力，以及7座版无法配备BOSE音响的原因。 ... [详细]

蜡笔小新 2023-12-14 13:06:19
usb
电脑公司win7剪切板位置及使用方法

本文介绍了电脑公司win7剪切板的位置和使用方法。剪切板一般位于c:\windows\system32目录，程序名为clipbrd.exe。通过在搜索栏中输入cmd打开命令提示符窗口，并输入clip /？即可调用剪贴板查看器。赶紧来试试看吧！更多精彩文章请关注本站。 ... [详细]

蜡笔小新 2023-12-14 12:25:19

Jackson-過時間

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章