spark读取mongo数据（python）

作者： | 来源：互联网 | 2023-08-16 16:58

使用mongo官方提供的sparkconnector可以很方便的让spark读写mongo中的数据。示例：frompyspark.sqlimportSparkSessionfrom

使用mongo官方提供的spark connector可以很方便的让spark读写mongo中的数据。

示例：

from pyspark.sql import SparkSession from pyspark import SparkConf if __name__=='__main__': myconf = SparkConf() myconf.setAppName("test").setMaster("yarn") myconf.set('spark.executor.instances','4') myconf.set('spark.executor.memory','4G') myconf.set('spark.executor.cores','4') myconf.set('spark.task.cpus','4') # 指定连接器对应的spark-package myconf.set("spark.jars.packages","org.mongodb.spark:mongo-spark-connector_2.11:2.2.0") # 指定mongo地址，需要每个工作节点都能访问到 myconf.set("spark.mongodb.input.uri","mongodb://192.168.1.15:27017/") # 设置要读取的dbs名和collection名 myconf.set("spark.mongodb.input.database","db_name") myconf.set("spark.mongodb.input.collection","collection_name") # 指定分区方式 myconf.set("spark.mongodb.input.partitioner","MongoSplitVectorPartitioner") spark = SparkSession.builder.config(conf=myconf).getOrCreate() # 使用指定格式读取 mg_data = spark.read.format("com.mongodb.spark.sql").load() mg_data.createOrReplaceTempView("tmp_table") mydf = spark.sql("select _id, trackName from tmp_table limit 4") print(mydf.rdd.collect()) spark.stop()

有几个问题需要注意，有一些我自己也没搞清楚。

1. spark的py脚本提交到yarn上，有这样几种方式：

使用spark-submit提交
使用python提交
之前还可以使用pyspark提交，但是spark2.3已经不支持了

使用第一种方式提交，原则上相关参数的传入有三种方式：一种是在脚本中设置，就像上面这样；一种是提交的时候传入参数；还有一种是将参数设置写在文件中，通过文件传入。在Spark文档中有详细介绍。

mongo-spark连接器通过‘spark.jars.packages’这个参数设置，如果是提交时传入对应的参数是‘&＃8211;packages’。spark的这些“工具包”（参考spark-packages.org），感觉上类似python中import导入的工具包。

这里的第一个问题是：如果使用spark-submit提交脚本，package的参数只能在提交时传入；像实例这样在脚本中设置会出一些问题:java.lang.ClassNotFoundException: Failed to find data source: com.mongodb.spark.sql. Please find packages at http://spark.apache.org/third-party-projects.html

2. 从spark文档来看，spark有意在弱化rdd，而强调DataFrame。因此spark程序的主要入口也从SparkContext转移到SparkSession。Dataframe这种格式支持sql，可以在map、reduce等计算之前对数据做一些预处理。

from pyspark import SparkConf from pyspark.sql import SparkSession if __name__=='__main__': mycOnf= SparkConf().setMaster('yarn') spark = SparkSession.builder.config(cOnf=myconf).getOrCreate() # 读取各种格式的数据，并返回dataframe mydata = spark.read.json('...') # json格式文件 mydata = spark.read.csv('...') mydata = spark.read.text('...') mydata = spark.read.format('..').load() # 自定义格式读取mongo数据就是用的这种方式

这里的第二个问题是：这种方式读mongo中的表，好像是把整个表都读出来，因为读大表的时候明显感觉到比较慢。虽然读出来之后，可以使用sql语句做一些过滤操作。但是能不能读的时候就根据过滤条件只读一部分呢？

第二个问题的答案：可以在读mongo时使用filter或pipline，相关语句会传给mongo执行。使用sql的方式是将所有数据读入集群，然后并行的执行sql语句。两种方式适合不同的场景，可以参考这个链接

df = spark.read.format("com.mongodb.spark.sql") \ .option("uri", "mongodb://127.0.0.1:27017/dbname") \ .option("collection", "collection_name") \ .option("pipeline", "[{'$limit':100},{'$project':{'myfield':1}}]") \ .load()

3.使用Dataframe做sql操作有两种方式。一种是直接使用Dataframe这种数据类型的方法，另一种是使用spark.sql方法

#使用Dataframe方法 newdata = mydata.filter("col_name > 3").limit(1000) newdata = newdata.select(col_name1,col_name2).orderBy(...).limit(10) #使用spark.sql方法 mydata.createOrReplaceTempView('tmp_name') newdata = spark.sql('select * from tmp_name where ...')

第三个问题：不清楚上面两种方法各有什么优缺点，或者两者等价？

推荐阅读

instance
操作系统如何通过进程控制块管理进程

本文详细介绍了操作系统如何通过进程控制块（PCB）来管理和控制进程。PCB是操作系统感知进程存在的重要数据结构，包含了进程的标识符、状态、资源清单等关键信息。 ... [详细]

蜡笔小新 2024-11-13 16:14:39
go
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
bit
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
bit
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
instance
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
window
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
java
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
version
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
java
深切明白ES6笔记（三）函数

重要知识点有：函数参数默许值、盈余参数、扩大运算符、new.target属性、块级函数、箭头函数以及尾挪用优化《深切明白ES6》笔记目次函数的默许参数在ES5中，我们给函数传参数， ... [详细]

蜡笔小新 2024-11-12 14:57:05
java
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
java
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
version
深入解析数据库并发控制机制

本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制（MVCC）、乐观并发控制和悲观并发控制等内容。 ... [详细]

蜡笔小新 2024-11-12 12:37:08
instance
单元测试：使用mocha和should.js搭建nodejs的单元测试

2019独角兽企业重金招聘Python工程师标准BDD测试利器：mochashould.js众所周知对于任何一个项目来说，做好单元测试都是必不可少 ... [详细]

蜡笔小新 2024-11-12 11:08:57
instance
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
java
Java中com.sun.codemodel.JBlock._continue()方法详解及示例

本文介绍了Java中的com.sun.codemodel.JBlock._continue()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-12 10:16:29

Tags | 热门标签

RankList | 热门文章