PCA主成份分析（Spark2.0）

作者：啊哈哈 | 来源：互联网 | 2023-08-25 20:28

PCA在Spark2.0用法比较简单，只需要设置：.setInputCol(“features”)保证输入是特征值向量.setOutputCol(“pc

PCA在Spark2.0用法比较简单&＃xff0c;只需要设置&＃xff1a;
.setInputCol(“features”)//保证输入是特征值向量
.setOutputCol(“pcaFeatures”)//输出
.setK(3)//主成分个数
注意&＃xff1a;PCA前一定要对特征向量进行规范化&＃xff08;标准化&＃xff09;&＃xff01;&＃xff01;&＃xff01;

//Spark 2.0 PCA主成分分析 //注意&＃xff1a;PCA降维前必须对原始数据&＃xff08;特征向量&＃xff09;进行标准化处理 package my.spark.ml.practice;import org.apache.spark.ml.feature.PCA; import org.apache.spark.ml.feature.PCAModel;//不是mllib import org.apache.spark.ml.feature.StandardScaler; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession;public class myPCA {public static void main(String[] args) {SparkSession spark&＃61;SparkSession.builder().appName("myLR").master("local[4]").getOrCreate();Dataset rawDataFrame&＃61;spark.read().format("libsvm").load("/home/hadoop/spark/spark-2.0.0-bin-hadoop2.6" &＃43;"/data/mllib/sample_libsvm_data.txt");//首先对特征向量进行标准化Dataset scaledDataFrame&＃61;new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithMean(false)//对于稀疏数据&＃xff08;如本次使用的数据&＃xff09;&＃xff0c;不要使用平均值.setWithStd(true).fit(rawDataFrame).transform(rawDataFrame);//PCA ModelPCAModel pcaModel&＃61;new PCA().setInputCol("scaledFeatures").setOutputCol("pcaFeatures").setK(3)//.fit(scaledDataFrame);//进行PCA降维pcaModel.transform(scaledDataFrame).select("label","pcaFeatures").show(100,false); } }/*** 没有标准化特征向量&＃xff0c;直接进行PCA主成分&＃xff1a;各主成分之间值变化太大&＃xff0c;有数量级的差别。 &＃43;-----&＃43;------------------------------------------------------------&＃43; |label|pcaFeatures | &＃43;-----&＃43;------------------------------------------------------------&＃43; |0.0 |[-1730.496937303442,6.811910953794295,2.8044962135250024] | |1.0 |[290.7950975587044,21.14756134360174,0.7002807351637692] | |1.0 |[149.4029441007031,-13.733854376555671,9.844080682283838] | |1.0 |[200.47507801105797,18.739201694569232,22.061802015132024] | |1.0 |[236.57576401934855,36.32142445435475,56.49778957910826] | |0.0 |[-1720.2537550195714,25.318146742090196,2.8289957152580136] | |1.0 |[285.94940382351075,-6.729431266185428,-33.69780131162192] | |1.0 |[-323.70613777909136,2.72250162998038,-0.528081577573507] | |0.0 |[-1150.8358810584655,5.438673892459839,3.3725913786301804] |*/ /*** 标准化特征向量后PCA主成分&＃xff0c;各主成分之间值基本上在同一水平上&＃xff0c;结果更合理|label|pcaFeatures | &＃43;-----&＃43;-------------------------------------------------------------&＃43; |0.0 |[-14.998868464839624,-10.137788261664621,-3.042873539670117] | |1.0 |[2.1965800525589754,-4.139257418439533,-11.386135042845101] | |1.0 |[1.0254645688925883,-0.8905813756164163,7.168759904518129] | |1.0 |[1.5069317554093433,-0.7289177578028571,5.23152743564543] | |1.0 |[1.6938250375084654,-0.4350617717494331,4.770263568537382] | |0.0 |[-15.870371979062549,-9.999445137658528,-6.521920373215663] | |1.0 |[3.023279951602481,-4.102323190311296,-9.451729897327345] | |1.0 |[3.500670997961283,-4.1791886802435805,-9.306353932746568] | |0.0 |[-15.323114679599747,-16.83241059234951,2.0282183995400374] | */

如何选择k值&＃xff1f;

//PCA ModelPCAModel pcaModel&＃61;new PCA().setInputCol("scaledFeatures").setOutputCol("pcaFeatures").setK(100)//.fit(scaledDataFrame);int i&＃61;1;for(double x:pcaModel.explainedVariance().toArray()){System.out.println(i&＃43;"\t"&＃43;x&＃43;" ");i&＃43;&＃43;;} 输出100个降序的explainedVariance&＃xff08;和scikit-learn中PCA一样&＃xff09;&＃xff1a; 1 0.25934799275530857 2 0.12355355301486977 3 0.07447670060988294 4 0.0554545717486928 5 0.04207050513264405 6 0.03715986573644129 7 0.031350566055423544 8 0.027797304129489515 9 0.023825873477496748 10 0.02268054946233242 11 0.021320060154167115 12 0.019764029918116235 13 0.016789082901450734 14 0.015502412597350008 15 0.01378190652256973 16 0.013539546429755526 17 0.013283518226716669 18 0.01110412833334044 ...

这里写图片描述
大约选择20个主成分就足够了
随便做一个图可以选择了&＃xff08;详细可参考Scikit-learn例子&＃xff09;
http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html

Scikit中使用PCA
参考http://blog.csdn.net/u012162613/article/details/42192293
sklearn.decomposition.PCA(n_components&＃61;None, copy&＃61;True, whiten&＃61;False)
参数说明&＃xff1a;
n_components:
意义&＃xff1a;PCA算法中所要保留的主成分个数n&＃xff0c;也即保留下来的特征个数n
类型&＃xff1a;int 或者 string&＃xff0c;缺省时默认为None&＃xff0c;所有成分被保留。
赋值为int&＃xff0c;比如n_components&＃61;1&＃xff0c;将把原始数据降到一个维度。
赋值为string&＃xff0c;比如n_components&＃61;’mle’&＃xff0c;将自动选取特征个数n&＃xff0c;使得满足所要求的方差百分比。
copy:
类型&＃xff1a;bool&＃xff0c;True或者False&＃xff0c;缺省时默认为True。
意义&＃xff1a;表示是否在运行算法时&＃xff0c;将原始训练数据复制一份。若为True&＃xff0c;则运行PCA算法后&＃xff0c;原始训练数据的值不会有任何改变&＃xff0c;因为是在原始数据的副本上进行运算&＃xff1b;若为False&＃xff0c;则运行PCA算法后&＃xff0c;原始训练数据的值会改&＃xff0c;因为是在原始数据上进行降维计算。
whiten:
类型&＃xff1a;bool&＃xff0c;缺省时默认为False
意义&＃xff1a;白化&＃xff0c;使得每个特征具有相同的方差。关于“白化”&＃xff0c;可参考&＃xff1a;Ufldl教程
简单例子&＃xff1a;
`#!/usr/bin/env python2 # -- coding: utf-8 --from sklearn import datasets from sklearn.decomposition import PCAiris &＃61; datasets.load_iris()X &＃61; iris.data y &＃61; iris.target target_names &＃61; iris.target_namespca &＃61; PCA(n_components&＃61;3) X_r &＃61; pca.fit(X).transform(X) print "X_r" print X_rprint "X" print Xprint "pca.explained_variance_ratio" print pca.explained_variance_ratio_`

推荐阅读

main
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
get
使用Java和PDFBox实现PDF局部切割

本文介绍了如何使用Java和PDFBox库根据坐标值对PDF文件进行局部切割的方法。 ... [详细]

蜡笔小新 2024-11-13 13:04:52
数组
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
数组
客户端与服务器之间的交互过程解析

本文详细解析了客户端与服务器之间的交互过程，重点介绍了Socket通信机制。IP地址由32位的4个8位二进制数组成，分为网络地址和主机地址两部分。通过使用 `ipconfig /all` 命令，用户可以查看详细的IP配置信息。此外，文章还介绍了如何使用 `ping` 命令测试网络连通性，例如 `ping 127.0.0.1` 可以检测本机网络是否正常。这些技术细节对于理解网络通信的基本原理具有重要意义。 ... [详细]

蜡笔小新 2024-11-11 15:09:25
main
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43
数组
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
get
Java 中如何将多参数方法传递给使用 List 的 Function

本文探讨了如何在 Java 中将多参数方法通过 Lambda 表达式传递给一个接受 List 的 Function。具体分析了 `OrderUtil` 类中的 `runInBatches` 方法及其使用场景。 ... [详细]

蜡笔小新 2024-11-12 22:25:23
get
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
const
深入解析Android Audio系统中的mpAudioPolicy->get_input

在分析Android的Audio系统时，我们对mpAudioPolicy->get_input进行了详细探讨，发现其背后涉及的机制相当复杂。本文将详细介绍这一过程及其背后的实现细节。 ... [详细]

蜡笔小新 2024-11-12 18:52:04
go
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
get
Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案

本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时，遇到的Schema变为Binary的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-12 08:06:20
go
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
header
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
get
C#编程指南：实现流畅用户界面的设计技巧与方法分享

在C#编程中，设计流畅的用户界面是一项重要的任务。本文分享了实现Fluent界面设计的技巧与方法，特别是通过编写领域特定语言（DSL）来简化字符串操作。我们探讨了如何在不使用`+`符号的情况下，通过方法链式调用来组合字符串，从而提高代码的可读性和维护性。文章还介绍了如何利用静态方法和扩展方法来实现这一目标，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-10 13:37:55
get
Unity3D 中 AsyncOperation 实现异步场景加载及进度显示优化技巧

在Unity3D中，通过使用`AsyncOperation`可以实现高效的异步场景加载，并结合进度条显示来提升用户体验。本文详细介绍了如何利用`AsyncOperation`进行异步加载，并提供了优化技巧，包括进度条的动态更新和加载过程中的性能优化方法。此外，还探讨了如何处理加载过程中可能出现的异常情况，确保加载过程的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-10 11:22:38

啊哈哈

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章