当前位置: 开发笔记 > 编程语言 > 正文

SparkDataFrame的DSL操作

作者：mobiledu2502853587 | 来源：互联网 | 2023-10-12 11:12

一、show方法功能：展示DataFrame中的数据，默认展示20条语法：df.show(参数1，参数2)-参数1

一、show方法

功能&＃xff1a;展示DataFrame中的数据&＃xff0c;默认展示20条
语法&＃xff1a;

df.show(参数1&＃xff0c;参数2) - 参数1&＃xff1a;默认是20&＃xff0c;控制展示多少条 - 参数2&＃xff1a;是否阶段列&＃xff0c;默认只输出20个字符的长度&＃xff0c;过长不显示&＃xff0c;要显示的话&＃xff0c;请填入truncate&＃61;True

二、printSchema方法

功能&＃xff1a;打印输出df的schema信息
语法

df.printSchema()

三、select

功能&＃xff1a;选择DataFrame中的指定列&＃xff08;通过传入参数进行指定&＃xff09;
语法&＃xff08;可传递&＃xff09;&＃xff1a;
- 可变参数的cols对象&＃xff0c;cols对象可以是Column对象来指定列或者字符串列名来指定列
- List[Column]对象或者List[str]对象&＃xff0c;用来选择多个列
  
  # column对象的获取 id_column &＃61; df[&＃39;id&＃39;] subject_column &＃61; df[&＃39;subject&＃39;] # select # 支持字符串形式传入 df.select(["id", "subject"]).show() df.select(["id", "subject"]).show() # 也支持column对象的方式传入 df.select(df[&＃39;id&＃39;], df[&＃39;subject&＃39;]).show()

四、filter和where

功能&＃xff1a;过滤DataFrame内的数据&＃xff0c;返回一个过滤后的DataFrame
语法&＃xff1a;

df.filter()

df.where()

where和filter功能上是等价的

# filter # 传字符串的形式 df.filter("score <99").show() # 传column的形式 df.filter(df[&＃39;score&＃39;] < 99).show() # where和filter等价 df.where("score <99").show() df.where(df[&＃39;score&＃39;] < 99).show()

五、groupBy分组

功能&＃xff1a;按照指定的列进行数据的分组&＃xff0c;返回值是GroupedData对象
语法&＃xff1a;

传入参数和select一样&＃xff0c;支持多种形式&＃xff0c;不管怎么传意思就是告诉spark按照哪个列分组

df.groupBy()

# groupBy df.groupBy("subject").count().show() df.groupBy("df[&＃39;subject&＃39;]").count().show()

推荐阅读

bit
解决Android引导页图片拉伸问题的方法

本文介绍了一种通过设置主题（Theme）来实现快速启动的Android引导页，并详细说明了如何避免因不同屏幕分辨率导致的图片拉伸问题。 ... [详细]

蜡笔小新 2024-11-17 14:34:25
string
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
string
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
string
深入解析Android联系人数据库设计：AbstractContactsProvider

本文探讨了Android系统中联系人数据库的设计，特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析，并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]

蜡笔小新 2024-11-24 18:04:54
string
MyBatis中SQL查询参数传递方法详解

本文详细介绍了在MyBatis框架中如何通过#和$两种方式来传递SQL查询参数。使用#方式可以提高执行效率，而使用$则有助于在复杂SQL语句中更好地查看日志。此外，文章还探讨了不同场景下的参数传递方法，包括实体对象、基本数据类型以及混合参数的使用。 ... [详细]

蜡笔小新 2024-11-24 15:36:41
string
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
select
详解Linux命令：mysqlshow的使用方法

本文详细介绍了如何使用Linux下的mysqlshow命令来查询MySQL数据库的相关信息，包括数据库、表以及字段的详情。通过本文的学习，读者可以掌握mysqlshow命令的基本语法及其常用选项。 ... [详细]

蜡笔小新 2024-11-24 11:25:08
byte
深入解析select与epoll的内部机制及性能对比

本文详细探讨了select和epoll两种I/O多路复用技术的内部实现原理，分析了它们在处理大量文件描述符时的性能差异，并通过具体示例代码展示了select的工作流程。 ... [详细]

蜡笔小新 2024-11-24 10:07:32
jsp
selenium通过JS语法操作页面元素

做过web测试的小伙伴们都知道，web元素现在很多是JS写的，那么既然是JS写的，可以通过JS语言去操作页面，来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]

蜡笔小新 2024-11-24 03:05:20
select
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
subset
深入解析 Java 中 org.w3c.dom.Node.isEqualNode() 方法及其应用实例

本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值，并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等，而不仅仅是判断它们是否为同一个对象。 ... [详细]

蜡笔小新 2024-11-19 18:11:10
string
mysql数据库json类型数据,sql server json数据类型

mysql数据库json类型数据,sql server json数据类型 ... [详细]

蜡笔小新 2024-11-19 11:05:28
string
在Android中调用其他应用的Activity

本文介绍了如何在Android应用中通过Intent调用其他应用的Activity，并提供了详细的代码示例和注意事项。 ... [详细]

蜡笔小新 2024-11-17 17:53:47
jsp
实现滑动界面及过渡动画的方法

本文介绍了如何使用 Gesture Detector 和 overridePendingTransition 方法来实现滑动界面和过渡动画。 ... [详细]

蜡笔小新 2024-11-17 07:45:07
string
Spring 高级教程（15）：Spring AOP（3）—— 使用注解配置切面（1）：方法执行前后的增强处理

本文介绍了如何在Spring框架中使用AspectJ实现AOP编程，重点讲解了通过注解配置切面的方法，包括方法执行前和方法执行后的增强处理。阅读本文前，请确保已安装并配置好AspectJ。 ... [详细]

蜡笔小新 2024-11-15 15:57:13

mobiledu2502853587

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章