当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:数据分析工具篇——pyspark应用详解

作者：念念不忘的叶子公寓 | 来源：互联网 | 2023-10-11 18:16

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数据分析工具篇——pyspark应用详解相关的知识，希望对你有一定的参考价值。前面

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数据分析工具篇——pyspark应用详解相关的知识，希望对你有一定的参考价值。

前面几篇文章我们讲解了大数据计算的主要架构：hadoop和spark，从离线和实时解决了大数据分析过程中遇到的大部分问题，但是这是否是就代表了大数据计算引擎？

不是的～

现阶段流批一体盛行，Flink也逐渐进入大家的视野，大有发展壮大的趋势，我们后面会单独讲解这一工具，这篇文章我们重点讲解一下基于spark运算的pyspark工具。

pyspark不是所有的代码都在spark环境应用，可以将一些主要的运算单元切到spark环境运算完成，然后输出运算结果到本地，最后在本地运行一些简单的数据处理逻辑。

pyspark主要的功能为：

1）可以直接进行机器学习的训练，其中内嵌了机器学习的算法，也就是遇到算法类的运算可以直接调用对应的函数，将运算铺在spark上训练。

2）有一些内嵌的常规函数，这些函数可以在spark环境下处理完成对应的运算，然后将运算结果呈现在本地。

个人理解pyspark是本地环境和spark环境的结合用法，spark中的函数是打开本地环境到spark环境的大门，本地的数据和逻辑按照spark运算规则整理好之后，通过spark函数推到spark环境中完成运算。

所以关键在于有多少计算方式是可以放在spark环境计算的，有多少常用的pyspark函数；

pyspark原理介绍

原理图如下：

数据分析工具篇——pyspark应用详解

上图中，python中调用sparkcontext。

sparkcontext会通过py4j启动jvm中的javasparkcontext，javasparkcontext再将数据逻辑推到集群中完成运算。

数据分析工具篇——pyspark应用详解

结合上图，pyspark的运算逻辑为：

运算job时pyspark会通过py4j将写好的代码映射到jvm中，jvm调用自身的sparkcontext.runjob()函数，实现job的分发，分发的方式是spark的，每个job分发到集群各个executor上之后，各个executor中jvm会调用自身服务器的python进程，完成自身部分的运算，运算完成后再将结果集返回给jvm，原路返回，最终呈现在python的界面上。

有没有感觉jvm只是一个通道？

是的～

简单讲他的功能就是将python分发到各个节点上，然后再将运算结果收回来。

pyspark的常用函数

1）parallelize()：将list数据序列化成RDD格式，方便spark进行运算；

2）collect()：将RDD格式数据转化成list数据，方便数据输出；

3）glom()：显示出RDD被分配到哪个分区节点（exector）中进行计算；

4）map()：针对RDD对应的列表的每一个元素，进行map()函数里面的函数；

mydata =mydata1.map(lambda x : (x[0], x[1]**2)).collect()

5）reduce(fun(a, b))：合并相同key值的数据。

是针对RDD对应的列表中的元素，递归地选择第一个和第二个元素进行操作，操作的结果作为一个元素用来替换这两个元素，其中函数需要有两个参数。

reduce() ：rdd.reduce(func)

对同类型的数据的RDD进行聚合操作,返回值是一个同类型的数值结果：

num=sc.parallelize([1,2,3,4])sum=num.reduce(lambda x,y: x+y)

理解x,y: x指的是返回值，而y是对rdd各元素的遍历。所以，x+y表示对num中数据进行累加：

print(sum) #10

另外函数为：

reduceByKey(fun(a, b))

类似于hive中的groupby函数，按照key值a进行分组，对b进行聚合计算，返回的是list；

reduceByKeyLocally(fun(a, b))

类似于hive中的groupby函数，按照key值a进行分组，对b进行聚合计算，返回的是字典；

6）在spark环境下构建dataframe数据块；

data = spark.createDataFrame(data, ["A", "B"])

常用算子

1）data.show()：显示dataframe中的数据；

2）mydata.rdd.map()：将dataframe转化成rdd，然后进行map运算；

map运算是每行进行单独计算，返回每行的计算结果值，形成一个新的rdd；

一般map会与lambda结合使用，通过lambda函数对map中的每行数据进行计算，例如：

from pyspark.sql import SparkSessionspark = SparkSession\ .builder\ .appName("PythonWordCount")\ .master("local") \ .getOrCreate()spark.conf.set("spark.executor.memory", "500M")sc = spark.sparkContextprint('see the difference of flatmap and map:')L = [1,2,3,4]rdd_1 = sc.parallelize(L, 2)rdd_2 = rdd_1.map(lambda x: (x, x**2))rdd_3 = rdd_1.flatMap(lambda x: (x, x**2))print('map:', rdd_2.glom().collect())print('flatmap:', rdd_3.glom().collect())

3）flatmap()：将map中的数据元组展平到一个list中；

上图中的数据是一个parallelize，即为一个rdd结构的list值，其运算基本符合numpy的运算结构，map的每次运算都会取出一个元素进行计算；另外除了parallelize之外pyspark还提供了dataframe结构，这一结构在进行map运算时需要先转化成rdd，然后按照每次一行的结构将数据传入到map中进行运算，map中用lambda函数对每行进行深度计算，每行是一个dataframe格式，切记取其中某个值时需要使用x['a']结构。

map的运算结果为：[[(1,2),(3,4)],[(5,6),(7,8)]]

flatmap的运算结果为：[[1,2,3,4], [5,6,7,8]]

4）filter()：用于删除/过滤，即删除不满足条件的元素，这个条件以lambda函数的形式作为参数传入filter()函数中；

rdd1.filter(lambda x : x>=2).collect()

5）distinct()：用于去重，没有参数；

6）join()：将两两具有相同key的元素的值，组成一个tuple作为这个key的value；

左连接：

print (kvRDD1.leftOuterJoin(kvRDD2).collect())

右链接：

print (kvRDD1.rightOuterJoin(kvRDD2).collect())

7）RDD1.union(RDD2)：求两个RDD对象的所有元素的并，不去掉重复元素；

求交集：

intRDD1.intersection(intRDD2).collect()

求差集：

intRDD1.subtract(intRDD2).collect()

求笛卡尔积：

intRDD1.cartesian(intRDD2).collect()

8）randomsplit()：将RDD按照一定的比例拆分成多个；

intRDD.randomSplit([0.4,0.6])

9）sortByKey()：按照key进行排序；

kvRDD1.sortByKey().collect()

10）keys()/values()：对键值对的数据获取；

print(kvRDD1.keys().collect()) print (kvRDD1.values().collect()

11）读取前2条数据；

kvRDD1.take(2)

12）按照key计数；

print (kvRDD1.countByKey().collect())

13）根据输入的key值来查找对应的Value值：

print (kvRDD1.lookup(3))

pyspark环境下的类SQL操作

pyspark环境下的类SQL操作主要是对spark—dataframe的操作：

1）查询一列或多列数据：

df.select(“name”)df.select(df[‘name’], df[‘age’]+1)df.select(df.a, df.b, df.c)

2）按照条件显示某一组数据：

df.where("income = 50" ).show()

3）新增一列数据：

df.withColumn('income1', df.income+10).show(5)

4）修改列名：

df.withColumnRenamed( "income" , "income2" ).show(3)

5）union实现的横向合并：

df.union(df).show()

6）两个表做连接：

df_join = df_left.join(df_right, df_left.key == df_right.key, "inner")

7）调用多个函数：

df.groupBy(“A”).agg(functions.avg(“B”), functions.min(“B”), functions.max(“B”)).show()

8）列表转化成dataframe的方法：

df = sc.parallelize([('india','japan'),('usa','uruguay')]).toDF(['col1','col2'])

9）单列求和（可以和分组求和比较）：

from pyspark.sql.functions import sum as spark_sumresult = spark_sum(filter_df['_2'] * filter_df['_3'])df.select(result).show()

pyspark常用方法集合

1）构建字典结构，pyspark中没有对应的字典结构，如果需要可以用to_json()的方式实现：

from pyspark.sql.functions import udffrom pyspark.sql import types as T@udf(T.MapType(T.StringType(), T.StringType()))def create_struct(zip_code, dma): return {zip_code: dma}data.withColumn('struct', create_struct(data.zip_code, data.dma)).toJSON().collect()

2）将一行中list的部分转化成列：笛卡尔积操作

import pyspark.sql.functions as Fexploded_df = df.select("*", F.explode("res").alias("exploded_data"))exploded_df.show(truncate=False)

修改对应列名：

exploded_df = exploded_df.withColumn( "Budget", F.col("exploded_data").getItem("Budget") )

取出对应的列：

exploded_df.select("Person", "Amount", "Budget", "Month", "Cluster").show(10, False)

3）RDD中需要以map、lambda和自定义函数来进行循环操作

sample2 = sample.rdd.map(lambda x: (x.name, x.age, x.city))

4）pyspark的文件读写：

from pyspark.sql import SQLContextfrom pyspark import SparkContextsc = SparkContext() # 只能运行一次sqlCOntext= SQLContext(sc)

# 读取数据：

raw_data = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('./data/train.csv')

# 写入csv文件：

save_data_test.write.csv('./data/small_train.csv')

5）pyspark中对循环有不便利，rdd无法直接进行循环，需要进行转化：

使用DataFrame.collect()方法，将Spark-SQL来自所有执行程序的查询结果聚合到驱动程序中。

该collect()方法将返回Python list，其中每个元素都是Spark Row。

然后，你可以在for-loop中迭代此列表。

代码段：

data1 = hive_context.sql("select col_name from schema_def where data_type<>'string'")colum_names_as_python_list_of_rows = data1.collect()

6）如何按照一定的条件选择某一list中的值：

数据分析工具篇——pyspark应用详解

转变成：

这一思路有如下两种方法：

第一种：

df.select("index", f.expr("valuelist[CAST(index AS integer)]").alias("value")).show()

第二种：

import pyspark.sql.functions as fdf.select("index", f.posexplode("valuelist").alias("pos", "value"))\ .where(f.col("index").cast("int") == f.col("pos"))\ .select("index", "value")\ .show()

其中：

f.col("index")：col 方法接收一个字符串列名作为参数, 根据指定的列名返回一个Column。作用和df.columnName相同。

df.selectExpr()/f.expr()：用来选择某列并对某列进行变换，返回变换后的值；

df.selectExpr('length(key)').show()：计算key列中每个元素的长度；

df.withColumn(colName, col)：用来对某一列进行操作，如转换数据类型，根据某一列创建新列等：

add1 = udf(lambda x: x+1)df.withColumn('val1', add1('val')).show()df.withColumn('val', df.val.cast('float')).show()

欢迎大家关注公众号：

来都来了，点个关注再走呗～

推荐阅读

java
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
config
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
java
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
java
数字经济浪潮下企业人才需求变化，优质IT培训机构助力技能提升

随着云计算、大数据、人工智能、区块链和5G等技术的迅猛发展，数字经济已成为推动经济增长的重要动力。据信通院数据，2020年中国数字经济占GDP比重达38.6%，整体规模突破39.2万亿元。本文探讨了企业在数字化转型中对技术人才的需求变化，并介绍了优质IT培训机构如何助力人才培养。 ... [详细]

蜡笔小新 2024-11-14 12:12:41
js
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
java
诚邀资深后端开发工程师加盟，共谋家乡发展

一家位于长沙的知名网络安全企业，现面向全国诚聘高级后端开发工程师，特别欢迎具有一线城市经验的技术精英回归故乡，共创辉煌。 ... [详细]

蜡笔小新 2024-11-22 19:22:15
config
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
java
2023年，Android开发前景如何？25岁还能转行吗？

近期，关于Android开发行业的讨论在多个平台上热度不减，许多人担忧其未来发展。本文将探讨当前Android开发市场的现状、薪资水平及职业选择建议。 ... [详细]

蜡笔小新 2024-11-21 18:08:07
java
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
spring
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
int
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
config
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03

念念不忘的叶子公寓

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章