Mahout贝叶斯算法源码分析（8）

作者：王功争_781 | 来源：互联网 | 2023-09-23 12:06

接着上篇blog，继续看log里面的信息如下：echoTrainingNaiveBayesmodelTrainingNaiveBayesmodel.b

接着上篇blog&＃xff0c;继续看log里面的信息如下&＃xff1a;

&＃43; echo &＃39;Training Naive Bayes model&＃39; Training Naive Bayes model &＃43; ./bin/mahout trainnb -i /home/mahout/mahout-work-mahout/20news-train-vectors -el -o /home/mahout/mahout-work-mahout/model -li /home/mahout/mahout-work-mahout/labelindex -ow这里mahout的trainnb对应的源码文件是TrainNaiveBayesJob类&＃xff0c;该类主要的工作是&＃xff1a;&＃xff08;1&＃xff09;新建了一个LabelIndex的文件&＃xff1b;&＃xff08;2&＃xff09;执行了一个prepareJob&＃xff0c;Mapper和Reducer分别是&＃xff1a;IndexInstancesMapper、VectorSumReducer&＃xff1b;&＃xff08;2&＃xff09;执行了另外的一个prepareJob&＃xff0c;Mapper和Reducer分别是&＃xff1a;WeightsMapper、VectorSumReducer&＃xff1b;本篇主要分析前面两个工作。

新建LabelIndex的代码如下&＃xff1a;

private long createLabelIndex(Path labPath) throws IOException {long labelSize &＃61; 0;if (hasOption(LABELS)) {Iterable labels &＃61; Splitter.on(",").split(getOption(LABELS));labelSize &＃61; BayesUtils.writeLabelIndex(getConf(), labels, labPath);} else if (hasOption(EXTRACT_LABELS)) {SequenceFileDirIterable iterable &＃61;new SequenceFileDirIterable(getInputPath(), PathType.LIST, PathFilters.logsCRCFilter(), getConf());labelSize &＃61; BayesUtils.writeLabelIndex(getConf(), labPath, iterable);}return labelSize;}这里的主要工作是把相关的文件名转换为数字&＃xff0c;文件名如下图&＃xff1a;

下面看Mapper&＃xff0c;IndexInstancesMapper的主要代码如下&＃xff1a;

labelIndex &＃61; BayesUtils.readIndexFromCache(ctx.getConfiguration()); String label &＃61; labelText.toString().split("/")[1]; if (labelIndex.containsKey(label)) {ctx.write(new IntWritable(labelIndex.get(label)), instance);首先在setup函数中读取labelindex的map映射关系&＃xff0c;然后在map中针对输入/alt.atheism/51060解析/后面的字符串&＃xff0c;即文件名进行匹配&＃xff0c;输出对应的数字和相应的value不变&＃xff1b;

VectorSumReducer&＃xff1a;

Vector vector &＃61; null;for (VectorWritable v : values) {if (vector &＃61;&＃61; null) {vector &＃61; v.get();} else {vector.assign(v.get(), Functions.PLUS);}}ctx.write(key, new VectorWritable(vector));

上面的代码就是把相同的文件对应的word的单词的个数全部加起来&＃xff0c;由于一共有20个文件&＃xff0c;所以这里的reduce输出应该有20个&＃xff0c;对应log里面的信息&＃xff0c;可以看到确实匹配&＃xff0c;如下图&＃xff1a;

这里额可以通过下面的代码来测试相关的文件&＃xff1a;

package mahout.fansy.test.bayes.read;import java.io.IOException; import java.net.URI; import java.util.HashMap; import java.util.Map;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.SequenceFile; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.Writable; import org.apache.hadoop.util.ReflectionUtils; import org.apache.mahout.math.VectorWritable;public class ReadLabelIndex {/*** &＃64;param args*/public static Configuration conf&＃61;new Configuration();static String fPath&＃61;"";static String trainPath&＃61;"";static{conf.set("mapred.job.tracker", "ubuntu:9001");fPath&＃61;"hdfs://ubuntu:9000/home/mahout/mahout-work-mahout/labelindex"; // lableindex 数据文件trainPath&＃61;"hdfs://ubuntu:9000/home/mahout/mahout-work-mahout/"&＃43;"20news-train-vectors/part-r-00000"; // 训练样本数据}public static void main(String[] args) throws IOException {// readFromFile(fPath);readFromFile(trainPath);}/*** 读取LabelIndex文件* &＃64;param fPath* &＃64;return* &＃64;throws IOException*/public static Map readFromFile(String fPath) throws IOException{FileSystem fs &＃61; FileSystem.get(URI.create(fPath), conf);Path path &＃61; new Path(fPath);Map map&＃61;new HashMap();SequenceFile.Reader reader &＃61; null;try {reader &＃61; new SequenceFile.Reader(fs, path, conf);Writable key &＃61; (Writable)ReflectionUtils.newInstance(reader.getKeyClass(), conf);Writable value &＃61; (Writable)ReflectionUtils.newInstance(reader.getValueClass(), conf);while (reader.next(key, value)) {// Writable k&＃61;; // 如何实现Writable的深度复制&＃xff1f;// map.put(key, value);System.out.println(key.toString()&＃43;", "&＃43;value.toString());System.exit(-1);// 只打印第一条记录}} finally {IOUtils.closeStream(reader);}return map;}}

这里在写的时候想做一个通用的&＃xff0c;所以需要对Writable深度复制&＃xff0c;但是一时间还没有想到办法&＃xff0c;所以这里留个问题&＃xff0c;有时间解决。

分享&＃xff0c;成长&＃xff0c;快乐

转载请注明blog地址&＃xff1a;http://blog.csdn.net/fansy1990

推荐阅读

string
如何自行分析定位SAP BSP错误

The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]

蜡笔小新 2023-12-14 19:58:05
rsa
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
string
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
string
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
string
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
string
单击后为什么远程通知操作无效？ - Why remote notification action is doing nothing after clicking?

IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]

蜡笔小新 2023-12-14 15:57:44
string
Mac OS 升级到11.2.2 Eclipse打不开了，报错Failed to create the Java Virtual Machine

本文介绍了在Mac OS升级到11.2.2版本后，使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 12:01:13
string
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
string
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
string
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
string
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
perl
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31
perl
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
string
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05

王功争_781

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章