作者:克乄浪木守 | 来源:互联网 | 2023-08-25 13:03
#Hadoop*#sparkspark是一种处理大数据的框架,与HadoopMapReduce一样适用于通用分布式并行处理。目前spark中的MLlib库中支持的机器学习算法有:二
#Hadoop
*
#spark
spark是一种处理大数据的框架,与Hadoop MapReduce一样适用于通用分布式并行处理。
目前spark中的MLlib库中支持的机器学习算法有:二分类,回归,协同过滤和聚类。
##二分类
目前支持的二分类算法有:SVM,LR及其变体(L1,L2正则)
采用随机梯度下降法训练。
##回归
线性回归,L1,L2回归
##聚类
kmeans
##协同过滤
spark是基于内存的分布式平台,因为不需要每次处理后都将数据写入磁盘,因此实时性好于Hadoop。