当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:SparkJavaAPI之CountVectorizer

作者：手机用户2502897247 | 来源：互联网 | 2023-10-16 16:53

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Spark Java API 之 CountVectorizer相关的知识，希望对你有一定的参考价值。

Spark Java API 之 CountVectorizer

由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据，而是数值型向量。因此，需要进行转换。而将文本数据转换成数值型的向量有很多种方法，CountVectorizer是其中之一。

A CountVectorizer converts a collection of text documents into a vector representing the word count of text documents.

在构建向量时，有两个重要的参数：VocabSize和MinDF。前者表示词典的大小，后者表示当文档中某个Term出现的次数小于MinDF时，则不计入词典（该Term不属于词典中的单词）。

比如说现在有两篇文档：【"w1", "w2", "w4", "w5", "w2"】，【"w1", "w2", "w3"】

CountVectorizer cv = new CountVectorizer().setInputCol("text").setOutputCol("feature") .setVocabSize(3).setMinDF(2);

根据上面代码中的参数设置，词典大小为3，即一共可以有三个Term。由于在所有的文档中，"w1"出现2次，"w2"出现2次，因此计入词典。而"w3"、"w4"、"w5"只出现一次，不属于词典中的单词(Term)。如下图所示：词典中只有两个Term

When the dictionary is not defined CountVectorizer iterates over the dataset twice to prepare
the dictionary based on frequency and size.

CountVectorizer 首先扫描Dataset（文本数据）生成词典，然后再次扫描生成向量模型（CountVectorizerModel）

在构造Dataset 时，需要指定模式。用模式来解释Dataset中每一行的数据。

StructType schema = new StructType(new StructField[]{ new StructField("text", new ArrayType(DataTypes.StringType, true), false, Metadata.empty()) });

A field inside a StructType. param: name The name of this field. param: dataType The data type of this field. param: nullable Indicates if values of this field can be null values. param: metadata The metadata of this field. The metadata should be preserved during transformation if the content of the column is not modified

第一个参数是：名称；第二个参数是dataType 数据类型；第三个参数是标识该字段的值是否可以为空；第四个参数为字段的元数据信息。

整个示例代码：

import org.apache.spark.ml.feature.CountVectorizer; import org.apache.spark.ml.feature.CountVectorizerModel; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.RowFactory; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.types.*; import java.util.Arrays; import java.util.List; public class CounterVectorExample { public static void main(String[] args) { SparkSession spark = SparkSession.builder().appName("CountVectorizer").master("spark://172.25.129.170:7077").getOrCreate(); List data = Arrays.asList( // RowFactory.create(Arrays.asList("a", "b", "c")), // RowFactory.create(Arrays.asList("a", "b", "b", "c", "a")), // RowFactory.create(Arrays.asList("a", "b", "a", "b")) RowFactory.create(Arrays.asList("w1", "w2", "w3")), RowFactory.create(Arrays.asList("w1", "w2", "w4", "w5", "w2")) ); StructType schema = new StructType(new StructField[]{ new StructField("text", new ArrayType(DataTypes.StringType, true), false, Metadata.empty()) }); Dataset df = spark.createDataFrame(data, schema); CountVectorizer cv = new CountVectorizer().setInputCol("text").setOutputCol("feature") .setVocabSize(3).setMinDF(2); CountVectorizerModel cvModel = cv.fit(df); //prior dictionary CountVectorizerModel cvm = new CountVectorizerModel(new String[]{"a", "b", "c"}).setInputCol("text") .setOutputCol("feature"); // cvm. cvModel.transform(df).show(false); spark.stop(); } }

输出结果默认是以稀疏向量表示：

A sparse vector represented by an index array and a value array.
param: size size of the vector. param: indices index array, assume to be strictly increasing. param: values value array, must have the same length as the index array.

第一个字段代表：向量长度，由于这里词典中只有2个Term，因此转换出来的向量长度为2；第二个字段：索引下标；第三个字段：索引位置处相应的向量元素值。由上图中位置0处的Term是 w2，位置1处的Term是w1，因此，输出：

当然，我们也可以预先定义词典：在构造CountVectorizerModel的时候指定词典：【"w1", "w2", "w3"】

//prior dictionary CountVectorizerModel cvm = new CountVectorizerModel(new String[]{"w1", "w2", "w3"}).setInputCol("text").setOutputCol("feature"); cvm.transform(df).show(false);

对于文本：[w1,w2,w3]，每个Term都在词典中，且出现了一次，因此稀疏特征向量表示为：(3,[0,1,2],[1.0,1.0,1.0])。其中，3代表向量的长度为3维向量；[0,1,2]表示向量的索引；[1.0,1.0,1.0]表示，在相应的索引处，每个元素值为1.0（即各个Term只出现了一次）。而对于文本[w1, w2, w4, w5, w2]，因为w4和w5不在词典中，w1出现一次，w2出现2次，故其特征如下：

可以看出：对于CountVectorizerModel，向量长度就是词典的大小。

系列文章：

spark JAVA 开发环境搭建及远程调试

原文：https://www.cnblogs.com/hapjin/p/9899164.html

推荐阅读

io
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
io
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
io
C＃字符串处理如何从字符串中获取路径和args - C# string handling how get path and args from a string

Ihaveastringwithquotesaroundthepathasfollows:我在路径周围有一个带引号的字符串,如下所示:C:\ProgramFiles(x ... [详细]

蜡笔小新 2024-12-23 16:21:52
io
Python——对象自省

对象自省自省在计算机编程领域里，是指在运行时判断一个对象的类型和能力。dir能够返回一个列表，列举了一个对象所拥有的属性和方法。my_list[ ... [详细]

蜡笔小新 2024-12-23 12:55:35
io
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
select
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
select
开发笔记:9.八大排序

开发笔记:9.八大排序 ... [详细]

蜡笔小新 2024-12-24 01:20:47
io
python3小游戏源代码_python 点球小游戏代码

#点球小游戏fromrandomimportchoiceimporttimescore[0,0]direction[left,center,right]defkick() ... [详细]

蜡笔小新 2024-12-23 19:17:34
io
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
select
iBatis.NET 循环迭代：深入解析 Iterate 标签

本文详细介绍了 iBatis.NET 中的 Iterate 元素，它用于遍历集合并重复生成每个项目的主体内容。通过该元素，可以实现类似于 foreach 的功能，尽管 iBatis.NET 并未直接提供 foreach 标签。 ... [详细]

蜡笔小新 2024-12-23 18:51:40
io
最小路径覆盖与强连通分量的应用：国王的问题

本题探讨了在一个有向图中，如何根据特定规则将城市划分为若干个区域，使得每个区域内的城市之间能够相互到达，并且划分的区域数量最少。题目提供了时间限制和内存限制，要求在给定的城市和道路信息下，计算出最少需要划分的区域数量。 ... [详细]

蜡笔小新 2024-12-23 18:42:12
select
Enhancing Paragraph Configuration in Create Note/Paragraph REST API

This pull request introduces the ability to provide comprehensive paragraph configurations directly within the Create Note and Create Paragraph REST endpoints, reducing the need for additional configuration calls. ... [详细]

蜡笔小新 2024-12-23 13:32:41
select
C#中SQL Server与Access批量数据插入性能对比

本文探讨了使用C#在SQL Server和Access数据库中批量插入多条数据的性能差异。通过具体代码示例，详细分析了两种数据库的执行效率，并提供了优化建议。 ... [详细]

蜡笔小新 2024-12-23 13:03:32
io
Lesson09异常

异常要理解Java异常处理是如何工作的，需要掌握一下三种异常类型：检查性异常：最具代表性的检查性异常是用户错误或问题引起的异常ÿ ... [详细]

蜡笔小新 2024-12-23 10:49:54
io
Android 自定义绘图板应用

本文介绍如何使用 Android 的 Canvas 和 View 组件创建一个简单的绘图板应用程序，支持触摸绘画和保存图片功能。 ... [详细]

蜡笔小新 2024-12-23 10:12:53

手机用户2502897247

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章