[SparkMLlib]MLlib基本数据类型（1）

作者：启布平凡 | 来源：互联网 | 2023-09-24 12:41

MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括：标注点（LabeledPoint）、本地向量（LocalVector）、、本地矩阵、分布式矩阵等。单

MLLib提供了一系列基本数据类型以支持底层的机器学习算法。
主要的数据类型包括：标注点（Labeled Point）、本地向量（Local Vector）、、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵，以及基于一个或多个RDD的分布式矩阵。
其中，本地向量与本地矩阵作为公共接口提供简单数据模型，底层的线性代数操作由Breeze库和jblas库提供。
标注点类型用来表示监督学习（Supervised Learning）中的一个训练样本。

在正式学习机器学习算法之前，让我们先了解下这些数据类型的用法。

一、本地向量（Local Vector）

本地向量存储在单机上，其拥有整型、从0开始的索引值以及浮点型的元素值。

MLlib提供了两种类型的本地向量，稠密向量DenseVector和稀疏向量SparseVector。

稠密向量使用一个双精度浮点型数组来表示其中每一维元素，而稀疏向量则是基于一个整型索引数组和一个双精度浮点型的值数组。

例如，向量(1.0, 0.0, 3.0)的稠密向量表示形式是[1.0,0.0,3.0]，而稀疏向量形式则是(3, [0,2], [1.0, 3.0])，其中，3是向量的长度，[0,2]是向量中非0维度的索引值，表示位置为0、2的两个元素为非零值，而[1.0, 3.0]则是按索引排列的数组元素值。

所有本地向量都以spark.mllib.linalg.Vectors为基类，DenseVector和SparseVector分别是它的两个实现类，故推荐使用Vectors工具类下定义的工厂方法来创建本地向量，请看如下实例（假设在Pyspark中运行，下同）：

from pyspark.mllib.linalg import Vectors // 创建一个稠密本地向量 >>> Vectors.dense(2.0, 0.0, 8.0) DenseVector([2.0, 0.0, 8.0]) // 创建一个稀疏本地向量 // 方法第二个参数数组指定了Non-zero entries, as a dictionary, list of tuples, or two sorted lists containing indices and values >>> Vectors.sparse(4, {1: 1.0, 3: 5.5}) SparseVector(4, {1: 1.0, 3: 5.5}) >>> Vectors.sparse(4, [(1, 1.0), (3, 5.5)]) SparseVector(4, {1: 1.0, 3: 5.5}) >>> Vectors.sparse(4, [1, 3], [1.0, 5.5]) SparseVector(4, {1: 1.0, 3: 5.5})二、标注点（Labeled Point）

标注点LabeledPoint是一种带有标签（Label/Response）的本地向量，它可以是稠密或者是稀疏的。

在MLlib中，标注点在监督学习算法中被使用。由于标签是用双精度浮点型来存储的，故标注点类型在回归（Regression）和分类（Classification）问题上均可使用。

例如，对于二分类问题，则正样本的标签为1，负样本的标签为0，而对于多类别的分类问题来说，标签则应是一个以0开始的索引序列:0, 1, 2 ...

标注点的实现类是pyspark.mllib.regression.LabeledPoint，请注意它与前面介绍的本地向量不同，并不位于linalg包下，标注点的创建如下所示：

>>> from pyspark.mllib.linalg import Vectors >>> from pyspark.mllib.regression import LabeledPoint >>> LabeledPoint(1.0,Vectors.dense(4.0,0.0,8.0)) LabeledPoint(1.0, [4.0,0.0,8.0]) >>> LabeledPoint(1.0,Vectors.sparse(3,[0,2],[4.0,8.0])) LabeledPoint(1.0, (3,[0,2],[4.0,8.0]))

在实际的机器学习问题中，稀疏向量数据是非常常见的，MLlib提供了读取LIBSVM格式数据的支持，该格式被广泛用于LIBSVM、LIBLINEAR等机器学习库。在该格式下，每一个带标注的样本点由以下格式表示：

label index1:value1 index2:value2 index3:value3 ...

其中label是该样本点的标签值，一系列index:value对则代表了该样本向量中所有非零元素的索引和元素值。这里需要特别注意的是，index是以1开始并递增的。

MLlib在Pyspark.mllib.util.MLUtils工具类中提供了读取LIBSVM格式的方法loadLibSVMFile，其使用非常方便。

>>> import pyspark.mllib.util.MLUtils // 用loadLibSVMFile方法读入LIBSVM格式数据 // sample_libsvm_data.txt为spark自带的一个示例，在以下地址可以找到： // $SPARK_HOME$/data/mllib/sample_libsvm_data.txt >>> examples = MLUtils.loadLibSVMFile(sc, "/data/mllib/sample_libsvm_data.txt") //返回的是组织成RDD的一系列LabeledPoint examples: org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint] = MapPartitionsRDD[6] at map at MLUtils.scala:108

这里，sc是Spark-shell自动建立的SparkContext。我们可以查看下加载进来的标注点的值

>>> examples.collect().head res7: org.apache.spark.mllib.regression.LabeledPoint = (0.0,(692,[127,128,129,130,131,154,155,156,157,158,159,181,182,183,184,185,186,187,188,189,207,208,209,210,211,212,213,214,215,216,217,235,236,237,238,239,240,241,242,243,244,245,262,263,264,265,266,267,268,269,270,271,272,273,289,290,291,292,293,294,295,296,297,300,301,302,316,317,318,319,320,321,328,329,330,343,344,345,346,347,348,349,356,357,358,371,372,373,374,384,385,386,399,400,401,412,413,414,426,427,428,429,440,441,442,454,455,456,457,466,467,468,469,470,482,483,484,493,494,495,496,497,510,511,512,520,521,522,523,538,539,540,547,548,549,550,566,567,568,569,570,571,572,573,574,575,576,577,578,594,595,596,597,598,599,600,601,602,603,604,622,623,624,625,626,627,628,629,630,651,652,653,654,655,656,657],[51.0,159.0,253.0,159.0,50...

这里，examples.collect()把rdd转换为了向量，并取第一个元素的值。每个标注点共有692个维，其中第127列对应的值是51.0，第128列对应的值是159.0，依此类推。

三、本地矩阵（Local Matrix）

本地矩阵具有整型的行、列索引值和双精度浮点型的元素值，它存储在单机上。MLlib支持稠密矩阵DenseMatrix和稀疏矩阵Sparse Matrix两种本地矩阵，稠密矩阵将所有元素的值存储在一个列优先（Column-major）的双精度型数组中，而稀疏矩阵则将非零元素以列优先的CSC（Compressed Sparse Column）模式进行存储，关于CSC等稀疏矩阵存储方式的具体实现，可以参看Sparse Matrix Compression Formats一文。

本地矩阵的基类是org.apache.spark.mllib.linalg.Matrix，DenseMatrix和SparseMatrix均是它的实现类，和本地向量类似，MLlib也为本地矩阵提供了相应的工具类Matrices，调用工厂方法即可创建实例：

1. scala>import org.apache.spark.mllib.linalg.{Matrix, Matrices} 2. import org.apache.spark.mllib.linalg.{Matrix, Matrices} 3. // 创建一个3行2列的稠密矩阵[ [1.0,2.0], [3.0,4.0], [5.0,6.0] ] 4. // 请注意，这里的数组参数是列先序的！ 5. scala> val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0)) 6. dm: org.apache.spark.mllib.linalg.Matrix = 7. 1.0 2.0 8. 3.0 4.0 9. 5.0 6.0

这里可以看出列优先的排列方式，即按照列的方式从数组中提取元素。也可以创建稀疏矩阵：

1. // 创建一个3行2列的稀疏矩阵[ [9.0,0.0], [0.0,8.0], [0.0,6.0]] 2. // 第一个数组参数表示列指针，即每一列元素的开始索引值 3. // 第二个数组参数表示行索引，即对应的元素是属于哪一行 4. // 第三个数组即是按列先序排列的所有非零元素，通过列指针和行索引即可判断每个元素所在的位置 5. scala> val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8)) 6. sm: org.apache.spark.mllib.linalg.Matrix = 7. 3 x 2 CSCMatrix 8. (0,0) 9.0 9. (2,1) 6.0 10. (1,1) 8.0

这里，创建一个3行2列的稀疏矩阵[ [9.0,0.0], [0.0,8.0], [0.0,6.0]]。Matrices.sparse的参数中，3表示行数，2表示列数。第1个数组参数表示列指针，即每一列元素的开始索引值，第二个数组参数表示行索引，即对应的元素是属于哪一行；第三个数组即是按列先序排列的所有非零元素，通过列指针和行索引即可判断每个元素所在的位置。比如取每个数组的第2个元素为2,1,6，表示第2列第1行的元素值是6.0。

推荐阅读

string
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24
string
如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法

本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ... [详细]

蜡笔小新 2024-11-21 17:38:10
get
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
string
深入探讨Golang中的String数据结构与特性

本文详细介绍了Golang中string类型的内部结构及其特性，包括字符串的定义、表示方式、数据结构以及相关的操作方法，如字符串拼接和类型转换等。 ... [详细]

蜡笔小新 2024-11-25 13:46:23
string
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
get
使用 Pyglet 加载和显示图像

本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具，特别适用于游戏和多媒体项目。 ... [详细]

蜡笔小新 2024-11-23 15:23:32
go
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
go
深入解析Unity3D游戏开发中的音频播放技术

在游戏开发中，音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频，包括背景音乐和效果音效，并介绍实现这些功能的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 21:05:22
get
如何在没有提交按钮的情况下提交HTML表单？

探讨了在HTML表单中使用元素代替进行表单提交的方法。 ... [详细]

蜡笔小新 2024-11-22 17:48:42
get
使用Matlab创建动态GIF动画

动态GIF图可以有效增强数据表达的直观性和吸引力。本文将详细介绍如何利用Matlab软件生成动态GIF图，涵盖基本代码实现与高级应用技巧。 ... [详细]

蜡笔小新 2024-11-22 16:52:32
install
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
install
Android与JUnit集成测试实践

本文探讨了如何在Android项目中集成JUnit进行单元测试，并详细介绍了修改AndroidManifest.xml文件以支持测试的方法。 ... [详细]

蜡笔小新 2024-11-20 18:30:14
string
深入解析 Bootstrap Table 的使用技巧

本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作，包括数据加载、表格配置及前后端交互等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 17:21:26
string
使用Python绘制点云及其最大边界框

本文介绍了如何利用Python中的Matplotlib库来绘制三维点云数据，并展示其外接的最大边界框。通过具体代码示例，帮助读者理解点云数据的可视化方法。 ... [详细]

蜡笔小新 2024-11-20 09:13:02
string
ZC公司员工评估系统的动态数据表生成方案

本文介绍了一种在ZC公司的员工评估系统中，如何根据动态设置的评分指标，在后台查询时动态生成并显示数据表的方法。该方法确保了评分指标与被评人员信息的有效整合。 ... [详细]

蜡笔小新 2024-11-19 20:14:11

启布平凡

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章