在PysparkDatabricks中处理1000个JSON文件

作者：手机用户2502918767 | 来源：互联网 | 2023-08-26 15:44

我大约有2.5k个JSON文件，每个JSON文件代表1行。使用这些文件，我需要执行一些非常简

我大约有2.5 k个JSON文件，每个JSON文件代表1行。使用这些文件，我需要执行一些非常简单的ETL，并将它们移到我的数据湖的curated部分中。

我遍历数据湖，并通过一个简单的.read调用来调用JSON文件，这是我事先定义的JSON模式。

然后我执行ETL并尝试将这些文件写入到我的数据湖的单独部分中，但是写入过程非常慢，只花了15分钟的时间就写入了一个文件。几百kb？

rp = spark.read.json(paths,multiLine=True,schema=json_s).withColumn('path',F.input_file_name()) for iter in iterable: #do stuff # filter my sparkDF with .filter SparkDF_F = sparkDF.filter(...) sparkDF_F.write('path/filename.parquet')

我尝试使用“ OPTIMIZE”并在“路径”上调用它

%sql OPTIMIZE delta.'dbfs:/mnt/raw/data/table'

这将引发以下错误。

Error in SQL statement: ParseException: mismatched input 'dbfs:/mnt/raw/data/table' expecting {'SELECT','FROM',' ADD','AS','TIMESTAMP','VERSION','ALL','ANY','DISTINCT','WHERE','GROUP','BY','GROUPING','SETS','CUBE','ROLLUP','ORDER....

有人能引导我了解我在这里的误解吗？

设置

Azure Databricks

火花2.4

Python 3.6

具有12个内核的42GB群集。

4个节点

Azure Gen1 DataLake。

两件事：

如果2.5k JSON文件存储在同一文件夹中。您可以使用相同的文件夹路径直接读取它们：
rp = spark.read.json（path_common，multiLine = True，schema = json_s）.withColumn（'path'，F.input_file_name（））

然后，您可以将rp.filter应用于整个数据帧，因为它只是一个（不需要对每个文件进行迭代）

关于Delta的文档，您只能优化表（存储在dbfs中），而不能直接优化DBFS文件。因此，您可以使用dbfs中指向的目录创建表，并按照文档此处的建议使用优化：https://docs.databricks.com/spark/latest/spark-sql/language-manual/optimize.html

希望这会有所帮助

推荐阅读

web
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
select
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
dll
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
dll
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
dll
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
dll
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
main
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
text
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
text
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
dll
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
function
Axublog 1.1.0 版本 c_login.php 文件中发现 SQL 注入安全漏洞

在 Axublog 1.1.0 版本的 `c_login.php` 文件中发现了一个严重的 SQL 注入漏洞。该漏洞允许攻击者通过操纵登录请求中的参数，注入恶意 SQL 代码，从而可能获取敏感信息或对数据库进行未授权操作。建议用户尽快更新到最新版本并采取相应的安全措施以防止潜在的风险。 ... [详细]

蜡笔小新 2024-11-09 13:37:09
text
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
hash
如何在PHP中计算腾讯云接口签名，实现人脸核身接口的对接与签名配置

在PHP中实现腾讯云接口签名，以完成人脸核身功能的对接与签名配置时，需要注意将文档中的POST请求改为GET请求。具体步骤包括：使用你的`secretKey`生成签名字符串`$srcStr`，格式为`GET faceid.tencentcloudapi.com?`，确保参数正确拼接，避免因请求方法错误导致的签名问题。此外，还需关注API的其他参数要求，确保请求的完整性和安全性。 ... [详细]

蜡笔小新 2024-11-08 21:58:28
text
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
select
C# 中 SQLite 报错：在 "\\s\\" 附近出现语法错误，如何解决？

C# 中 SQLite 报错：在 "\\s\\" 附近出现语法错误，如何解决？ ... [详细]

蜡笔小新 2024-11-11 19:30:41

手机用户2502918767

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章