CountVectorizer

作者：卓菘碧625 | 来源：互联网 | 2023-07-03 12:27

CountVectorizer关于文本特征提取，前面一篇文章TF-IDF介绍了HashingTF，本文将再介绍一种SparkMLlib的APICount

CountVectorizer

关于文本特征提取&＃xff0c;前面一篇文章TF-IDF介绍了HashingTF&＃xff0c;本文将再介绍一种Spark MLlib的API CountVectorizer。

CountVectorizer 和 CountVectorizerModel 旨在帮助将文本文档集合转化为频数向量。当先验词典不可用时&＃xff0c;CountVectorizer可以用作Estimator提取词汇表&＃xff0c;并生成一个CountVectorizerModel。该模型会基于该字典为文档生成稀疏矩阵&＃xff0c;该稀疏矩阵可以传给其它算法&＃xff0c;比如LDA&＃xff0c;去做一些处理。

在拟合过程中&＃xff0c;CountVectorizer会从整个文档集合中进行词频统计并排序后的前vocabSize个单词。

一个可选参数minDF也会影响拟合过程&＃xff0c;方法是指定词汇必须出现的文档的最小数量&＃xff08;或小于1.0&＃xff09;。另一个可选的二进制切换参数控制输出向量。如果设置为true&＃xff0c;则所有非零计数都设置为1.这对于模拟二进制计数而不是整数计数的离散概率模型特别有用。

举例说明该算法

假如我们有个DataFrame有两列&＃xff1a;id和texts。

id	texts
0	Array("a", "b", "c")
1	Array("a", "b", "b", "c", "a")

每一行texts都是一个Array [String]类型的文档。使用字典&＃xff08;A&＃xff0c;B&＃xff0c;C&＃xff09;调用CountVectorizer产生CountVectorizerModel。然后转换后的输出列“向量”包含

vector列&＃xff1a;

id	texts	vector
0	Array("a", "b", "c")	(3,[0,1,2],[1.0,1.0,1.0])
1	Array("a", "b", "b", "c", "a")	(3,[0,1,2],[2.0,2.0,1.0])

将两篇文档中的词去重后就组成了一个字典&＃xff0c;这个字典中有3个词&＃xff1a;a,b,c,分别建立索引为0,1,2.
在第三列的文档向量&＃xff0c;是由基于字典的索引向量&＃xff0c;与对应对索引的词频向量所组成的。
文档向量是稀疏的表征&＃xff0c;例子中只有3个词可能感觉不出&＃xff0c;在实际业务中&＃xff0c;字典的长度是上万&＃xff0c;而文章中出现的词可能是几百或几千&＃xff0c;故很多索引对应的位置词频都是0.

spark中的源码

导包

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

准备数据

val df &＃61; spark.createDataFrame(Seq(
(0, Array("a", "b", "c")),
(2, Array("a", "b", "c", "c", "a"))
)).toDF("id", "words")

从全文集中拟合CountVectorizerModel&＃xff08;自动计算字典&＃xff09;

val cvModel: CountVectorizerModel &＃61; new CountVectorizer()
.setInputCol("words")
.setOutputCol("features")
.setVocabSize(3)
.setMinDF(2).fit(df)

查看结果

cvModel.transform(df).show(false)

指定预先字典

val cvm &＃61; new CountVectorizerModel(Array("a", "b", "c"))
.setInputCol("words").setOutputCol("features")

为了避免重复&＃xff0c;重新造一组数据

val df &＃61; spark.createDataFrame(Seq(
(0, Array("a", "b", "c")),
(2, Array("a", "b", "c", "c", "a"))
)).toDF("id", "words")

查看结果

cvm.transform(df).show(false)

推荐阅读&＃xff1a;

1&＃xff0c;SparkMLLib中基于DataFrame的TF-IDF

2&＃xff0c;基于DF的Tokenizer分词

3&＃xff0c;案例&＃xff1a;Spark基于用户的协同过滤算法

4&＃xff0c;SparkSql的Catalyst之图解简易版

密封线分割线

关于Spark高级玩法

kafka&＃xff0c;hbase&＃xff0c;spark&＃xff0c;Flink等入门到深入源码&＃xff0c;spark机器学习&＃xff0c;大数据安全&＃xff0c;大数据运维&＃xff0c;请关注浪尖公众号&＃xff0c;看高质量文章。

更多文章&＃xff0c;敬请期待

推荐阅读

filter
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
int
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
int
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
int
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
int
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
filter
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
input
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
int
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
int
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
filter
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
filter
利用GLSL在iOS上实现YV12到RGB的转换，并附带展示结果图像

本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式，并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例，读者可以轻松掌握这一过程，适用于需要进行视频处理的应用开发。 ... [详细]

蜡笔小新 2024-11-06 19:18:22
int
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
int
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
int
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12

卓菘碧625

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章