当前位置: 开发笔记 > 编程语言 > 正文

hadoop2.5.2mahout0.10.1测试文本分类器

作者：周树草 | 来源：互联网 | 2023-05-18 19:45

说明：本文是对下面这篇文章的一个更新，下面这篇文章环境采用的是mahout0.9+hadoop2.2.0，本人的是mahout0.10.1+hadoop2.5.2---------

说明：本文是对下面这篇文章的一个更新，下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0，本人的是mahout0.10.1+hadoop2.5.2

--------------------------------------------------------------------------

mahout0.9 + hadoop2.2 中文文本分类实战（上）链接

--------------------------------------------------------------------------

网上大多数的mahout文本分词的例子都是基于hadoop1.x+mahout0.7 或者hadoop2.x+mahout0.9，其中各种坑，着实让人头疼，经过两天的苦战，终于在hadoop2.5.2上运行成功

1、将测试数据上传到hdfs中（数据来源于炼数成金-Hadoop 应用开发实战案例第17节课程）下载地址

先看一下数据 camera computer hosehold mobile MP3每个文件夹里有若干文件，每个文件是一篇文章

上传到hdfs的digital目录中(上传要半个小时左右)

#hadoop fs -mkdir digital
#hadoop fs -put /home/chin/digital/raw/*         digital/

2、安装mahout0.10.1

#wget http://mirror.bit.edu.cn/apache/mahout/0.10.1/apache-mahout-distribution-0.10.1.tar.gz
#tar -xzvf apache-mahout-distribution-0.10.1-src.tar.gz -C /opt/
#ln -s /opt/apache-mahout-distribution-0.10.1 /opt/mahout
#cd /opt/mahout/

3、向mahout-examples-0.10.1-job.jar添加分词程序

默认的mahout是不支持中文分词的，这需要我们把分词程序弄到mahout的jar包中。

这里利用了原作者已经写好的分词程序，先把几个jar包下载下来（mmseg4j-solr-2.2.0.jar　mmseg4j-core-1.9.1.jar　mmseg4j-analysis-1.9.1.jar）里边包含了作者写好的分词程序，下载链接，

把mahout目录下的mahout-examples-0.10.1-job.jar文件拷出来，跟上边三个jar包一起，把４个jar包用压缩工具解压，把mmseg4j-solr-2.2.0　mmseg4j-core-1.9.1　mmseg4j-analysis-1.9.1文件夹中除了META-INF，其他都中拷贝到mahout-examples-0.10.1-job，再把mahout-examples-0.10.1-job压缩成mahout-examples-0.10.1-job.zip，把后缀改一下mahout-examples-0.10.1-job.jar，把mahout目录下的mahout-examples-0.10.1-job.jar替换一下

或者下载我已经替换好了的jar包　下载地址

4、mahout操作

4.1 生成了序列化文件(sequential or mapreduce???)

#mahout seqdirectory -i digital -o seq          -ow -xm sequential

结果在seq文件夹生成了 chunk-0文件

4.2 将序列化文件分词，变成向量文件

#mahout seq2sparse -i seq  -o vectors -lnorm -nv -wt tfidf -a com.chenlb.mmseg4j.analysis.SimpleAnalyzer

-a com.chenlb.mmseg4j.analysis.SimpleAnalyzer 是指定自定义的分词程序，如果你的数据是分好词的，需要改成-a org.apache.lucene.analysis.core.WhitespaceAnalyzer，更多请参考这篇文章连接

运行完成

4.3 划分训练集和测试集

#mahout split -i vectors/tfidf-vectors --trainingOutput train --testOutput test --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential

4.4 训练模型

#mahout trainnb  -i train -o model         -li labelindex         -ow         -c

运行结果

把labelindex 导出看一下

4.5 测试模型

#mahout testnb         -i test        -m model         -l labelindex         -ow         -o testresult         -c

好了终于跑出结果来了

问题：

我在hadoop2.2.0 + mahout0.9下在进行到4.4步，报了一个错，

java.lang.IllegalArgumentException: Wrong numLabels: 0. Must be > 0! 异常，导致进行不下去了　这篇文章，提到“生成的 labelindex 文件是错的“，确实是生成的labelindex的问题，但是没有办法解决，只好舍弃在hadoop2.2.0下测试了

参考文章：

mahout0.9 + hadoop2.2 中文文本分类实战（上）
http://my.oschina.net/u/1047640/blog/262468

Mahout 中文分类（1）
http://blog.csdn.net/u010422304/article/details/17966281

在hadoop2.0上使用mahout1.0(-SNAPSHOT)提供的lda
http://blog.csdn.net/huilixiang/article/details/43053581

推荐阅读

get
org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的一些代码示例，展 ... [详细]

蜡笔小新 2023-10-17 21:32:56
client
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
get
net.minecraft.entity.ai.EntityAITasks.onUpdateTasks()方法的使用及代码示例

本文整理了Java中net.minecraft.entity.ai.EntityAITasks.onUpdateTasks()方法的一些代码示例，展示了En ... [详细]

蜡笔小新 2024-09-30 19:42:39
get
Android性能优化检测App卡顿

在移动APP性能评测-流畅度评测中，我们介绍了如何准确客观评价APP的流畅度，最终采用SM指标来评价应用的流畅度，在知道如何评价流畅度之后 ... [详细]

蜡笔小新 2024-09-30 15:39:41
spring
Shiro 简单了解

Shiro简单了解简单用过SpringSecurity安全框架后，再试试另一个安全框架——Shiro。1.Shiro简介ApacheShiro是一个强大且易用的Java安全框架：S ... [详细]

蜡笔小新 2024-09-29 15:14:16
spring
超赞！GitHub上百万下载量Java面试手册！颠覆你的认知

金三面试不顺心，马上银四面试在即，自己复盘总觉得Java知识点很凌乱？没有合适的方法学习！今天分享这份GitHub上百万下载量Ja ... [详细]

蜡笔小新 2024-09-28 20:01:29
get
JavaHashMap原理解析

本文分析HashMap的实现原理。数据结构（散列表）HashMap是一个散列表（也叫哈希表），用来存储键值对( ... [详细]

蜡笔小新 2024-09-28 18:06:17
export
Hbase 的伪分布部署、shell基本操作及hbase相关理念

1，HBase的的的的伪分布式配置-对zookeeper的配置，这个前面配置过，修改zoo.cfg文件，指定zookeeper的主入口-配置的HBase的的：进入optmo ... [详细]

蜡笔小新 2024-09-27 17:38:45
get
Java在PDF文档中添加或删除页面

当你编辑一个PDF文档时，有时需要删除文档中多余的页面或 ... [详细]

蜡笔小新 2024-09-27 14:29:44
get
开发笔记:在单独的JVM上执行新的JavaFX应用程序

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在单独的JVM上执行新的JavaFX应用程序相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-27 08:36:44
spring
Maven 无法打包jar到 Tomcat

今天新来的同事，让他调试短信验证的接口。跟我说添加的aliyun的短信验证服务无法在tomcat上运行。然后给我看了报错信息：java.lang.NoClassDefFoundEr ... [详细]

蜡笔小新 2024-09-26 10:33:10
get
关于linux下，ls vi等命令失效的解决方法(配置下环境变量出现问题)

配置完环境变量source之后，linux的lsvi命令均失效，报错如下：解决方法1.输入 exportPATHusrbin:usrsbin:bin:sbin:usrX11R6bi ... [详细]

蜡笔小新 2024-09-24 17:33:26
spring
Jenkins自动部署SpringBoot项目实践教程

Jenkins自动部署SpringBoot项目实践教程-目录1、Jenkins安装2、Jenkins插件安装3、点击添加凭据4、Jenkins环境配置4.1、全局配置4.2、系统配 ... [详细]

蜡笔小新 2024-09-24 17:25:02
spring
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
get
java filesystem 追加_Java DistributedFileSystem.append方法代码示例

importorg.apache.hadoop.hdfs.DistributedFileSystem;导入方法依赖的package包类privatevoidtestHSyncOpe ... [详细]

蜡笔小新 2023-10-17 17:01:46

周树草

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章