当前位置: 开发笔记 > 编程语言 > 正文

java文本自动分类_文本自动分类介绍黄大海的个人页面OSCHINA中文开源技术交流社区...

作者：高粱_ | 来源：互联网 | 2023-09-06 09:31

自动分类程序把一个未见过的文档分成已知类别中的一个或多个。分成一个类别叫做单类分类，分成多个类别叫做多类分类。一个典型的自动分类程序框架如下：常见的分类

自动分类程序把一个未见过的文档分成已知类别中的一个或多个。分成一个类别叫做单类分类&＃xff0c;分成多个类别叫做多类分类。一个典型的自动分类程序框架如下&＃xff1a;

常见的分类方法有支持向量机(SVM)&＃xff0c;K个最近的邻居(KNN)和贝叶斯(bayers)等。这里用SVM方法实现文本分类。

Classifier4J 项目的文本分类&＃xff1a;

//定义存储向量的变量

TermVectorStorage storage &＃61; new HashMapTermVectorStorage();

//新建一个向量分类器

VectorClassifier vc &＃61; new VectorClassifier(storage);

try {

//定义一个叫做”test”的类别

String category &＃61; "test";

//训练一个句子属于”test”类别

vc.teachMatch(category, sentence1);

//距离是cos夹角相似度在[0,1]之间 0.852 代表比较相似 "hello blah"

//属于这个类

assertEquals(0.852d, vc.classify(category, "hello blah"), 0.001);

//距离是cos夹角相似度在[0,1]之间 0.301 代表不太相似 "sentence" 不//属于这个类

assertEquals(0.301d, vc.classify(category, "sentence"), 0.001);

//0 代表不相似 "bye" 不属于这个类

assertEquals(0.0d, vc.classify(category, "bye"), 0.001);

//0 代表不相似 "bye" 不属于 "does not exist" 这个类

assertEquals(0.0d, vc.classify("does not exist", "bye"), 0.001);

} catch (ClassifierException e) {

e.printStackTrace();

fail(e.getLocalizedMessage());

}

推荐阅读

int
org.assertj.core.api.AbstractCharSequenceAssert.hasSize()方法的使用及代码示例

本文整理了Java中org.assertj.core.api.AbstractCharSequenceAssert.hasSize()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2024-09-28 10:08:14
int
android – 如何使用GDK在卡上显示静态地图？

在MirrorAPI中,我们可以使用以下内容： ... [详细]

蜡笔小新 2024-09-29 18:39:06
const
IDEA实用插件Lombok

LombokLombok是一个可以通过简单的注解形式来帮助我们简化消除一些必须有但显得很臃肿的Java代码的工具，通过使用对应的注解，可以在编译源码的时候生成对应的方法。通常，我们所定义的对象和b ... [详细]

蜡笔小新 2024-09-29 18:30:50
int
《Effective Java》阅读笔记9 覆盖equals时总要覆盖hashCode

1.什么是hashcode方法？hashcode方法返回对象的哈希码值在应用程序的执行期间，只要对象的equals方法的比较操作所用到的信息没有改变& ... [详细]

蜡笔小新 2024-09-29 14:43:29
int
contentProvider的使用总结

一、使用ContentProvider（内容提供者）共享数据ContentProvider在android中的作用是对外共享数据，也就是说 ... [详细]

蜡笔小新 2024-09-29 13:49:00
php
删除数组中的第一级标识符。 - Remove first levels of identifier in array

Ithinkthishasbeenupbefore,butcouldntfindanyanswertoit.Ifitsalreadyansweredplease ... [详细]

蜡笔小新 2024-09-29 12:47:47
const
[USACO 2006 November Gold] 玉米地Corn Fields

题目描述　　FarmerJohn新买了一块长方形的牧场，这块牧场被划分成M行N列(1<M<12;1<N<12)，每一格都是一块正方形的土地。FJ打 ... [详细]

蜡笔小新 2024-09-29 11:31:29
int
互联网世界 9 种基本的商业模式

互联网世界9种基本的商业模式一个商业模式是运行一个公司的方法；通过该模式的运作，一个公司能维持自己的生存，就是说，能有收益。商业模式意味着一个公司是如何通过在价值链中定位自己，从而获 ... [详细]

蜡笔小新 2024-09-28 19:01:18
int
java判断字符串是不是纯数字,判断字符串是否为数字java

本文目录一览：1、java中判断字符串是否为纯数字 ... [详细]

蜡笔小新 2024-09-27 16:26:40
php
[Leetcode]Interleaving String

Givens1,s2,s3,findwhethers3isformedbytheinterleavingofs1ands2.Forexample,Given:s1aabcc ... [详细]

蜡笔小新 2024-09-27 11:52:14
php
JavaBean和Map 转换用反射方法实现

由于JavaBean（实体类）结构与Map类似，我们可以把JavaBean与Map进行转换 ... [详细]

蜡笔小新 2024-09-26 16:42:58
int
服务器性能优化之网络性能优化

hi，大家好，今天分享一篇后台服务器性能优 ... [详细]

蜡笔小新 2024-09-25 08:41:16
int
Import acm certificate (like IAM server certificate)

Fixes#3560Itriedtodowhatproposedintheissue(inthisbranchhttps://gith ... [详细]

蜡笔小新 2024-09-26 15:25:53
get
聊聊nacos ServiceManager的removeInstance

序本文主要研究一下nacosServiceManager的removeInstanceServiceManagernacos-1.1.3namingsrcmainjavacomal ... [详细]

蜡笔小新 2024-09-26 13:58:00
const
ideavim 100个实用映射

配 ... [详细]

蜡笔小新 2024-09-25 13:08:33

高粱_

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章