用Python定义Schema并生成Parquet文件

作者：mobiledu2502885927 | 来源：互联网 | 2023-09-14 19:17

原来用Java和Python实现过Avro转换成Parquet格式，所以Schema都是在Avro中定义的。这里要尝试的是如何定义Parquet的Schema,然后据

原来用 Java 和 Python 实现过 Avro 转换成 Parquet 格式&＃xff0c;所以 Schema 都是在 Avro 中定义的。这里要尝试的是如何定义 Parquet 的 Schema, 然后据此填充数据并生成 Parquet 文件。

本文将演示两个例子&＃xff0c;一个是没有层级的两个字段&＃xff0c;另一个是含于嵌套级别的字段&＃xff0c;将要使用到的 Python 模块有 pandas 和 pyarrow

简单字段定义

定义 Schema 并生成 Parquet 文件

import pandas as pd import pyarrow as pa import pyarrow.parquet as pq# 定义 Schema schema &＃61; pa.schema([(&＃39;id&＃39;, pa.int32()),(&＃39;email&＃39;, pa.string()) ])# 准备数据 ids &＃61; pa.array([1, 2], type &＃61; pa.int32()) emails &＃61; pa.array([&＃39;first&＃64;example.com&＃39;, &＃39;second&＃64;example.com&＃39;], pa.string())# 生成 Parquet 数据 batch &＃61; pa.RecordBatch.from_arrays([ids, emails],schema &＃61; schema ) table &＃61; pa.Table.from_batches([batch])# 写 Parquet 文件 plain.parquet pq.write_table(table, &＃39;plain.parquet&＃39;) import pandas as pdimport pyarrow as paimport pyarrow . parquet as pq# 定义 Schemaschema &＃61; pa . schema ( [( &＃39;id&＃39; , pa . int32 ( ) ) ,( &＃39;email&＃39; , pa . string ( ) )] )# 准备数据ids &＃61; pa . array ( [ 1 , 2 ] , type &＃61; pa . int32 ( ) )emails &＃61; pa . array ( [ &＃39;first&＃64;example.com&＃39; , &＃39;second&＃64;example.com&＃39; ] , pa . string ( ) )# 生成 Parquet 数据batch &＃61; pa . RecordBatch . from_arrays ([ ids , emails ] ,schema &＃61; schema)table &＃61; pa . Table . from_batches ( [ batch ] )
写 Parquet 文件 plain.parquet

pq . write_table ( table , ‘plain.parquet’ )

验证 Parquet 数据文件

我们可以用工具 parquet-tools 来查看 plain.parquet 文件的数据和 Schema

$ parquet-tools schema plain.parquet message schema { optional int32 id; optional binary email (STRING); } $ parquet-tools cat --json plain.parquet {"id":1,"email":"first&＃64;example.com"} {"id":2,"email":"second&＃64;example.com"}

没问题&＃xff0c;与我们期望的一致。也可以用 pyarrow 代码来获取其中的 Schema 和数据

schema &＃61; pq.read_schema(&＃39;plain.parquet&＃39;) print(schema)df &＃61; pd.read_parquet(&＃39;plain.parquet&＃39;) print(df.to_json()) schema &＃61; pq . read_schema ( &＃39;plain.parquet&＃39; )print ( schema )df &＃61; pd . read_parquet ( &＃39;plain.parquet&＃39; )print ( df . to_json ( ) )

输出为

id: int32-- field metadata --PARQUET:field_id: &＃39;1&＃39; email: string-- field metadata --PARQUET:field_id: &＃39;2&＃39; {"id":{"0":1,"1":2},"email":{"0":"first&＃64;example.com","1":"second&＃64;example.com"}} id : int32-- field metadata --PARQUET : field_id : &＃39;1&＃39;email : string-- field metadata --PARQUET : field_id : &＃39;2&＃39;{ "id" : { "0" : 1 , "1" : 2 } , "email" : { "0" : "first&＃64;example.com" , "1" : "second&＃64;example.com" } }

含嵌套字段定义

下面的 Schema 定义加入一个嵌套对象&＃xff0c;在 address 下分 email_address 和 post_address&＃xff0c;Schema 定义及生成 Parquet 文件的代码如下

import pandas as pd import pyarrow as pa import pyarrow.parquet as pq# 内部字段 address_fields &＃61; [(&＃39;email_address&＃39;, pa.string()),(&＃39;post_address&＃39;, pa.string()), ]# 定义 Parquet Schema&＃xff0c;address 嵌套了 address_fields schema &＃61; pa.schema(j)# 准备数据 ids &＃61; pa.array([1, 2], type &＃61; pa.int32()) addresses &＃61; pa.array([(&＃39;first&＃64;example.com&＃39;, &＃39;city1&＃39;), (&＃39;second&＃64;example.com&＃39;, &＃39;city2&＃39;)],pa.struct(address_fields) )# 生成 Parquet 数据 batch &＃61; pa.RecordBatch.from_arrays([ids, addresses],schema &＃61; schema ) table &＃61; pa.Table.from_batches([batch])# 写 Parquet 数据到文件 pq.write_table(table, &＃39;nested.parquet&＃39;) import pandas as pdimport pyarrow as paimport pyarrow . parquet as pq# 内部字段address_fields &＃61; [( &＃39;email_address&＃39; , pa . string ( ) ) ,( &＃39;post_address&＃39; , pa . string ( ) ) ,]# 定义 Parquet Schema&＃xff0c;address 嵌套了 address_fieldsschema &＃61; pa . schema ( j )# 准备数据ids &＃61; pa . array ( [ 1 , 2 ] , type &＃61; pa . int32 ( ) )addresses &＃61; pa . array ([ ( &＃39;first&＃64;example.com&＃39; , &＃39;city1&＃39; ) , ( &＃39;second&＃64;example.com&＃39; , &＃39;city2&＃39; ) ] ,pa . struct ( address_fields ))# 生成 Parquet 数据batch &＃61; pa . RecordBatch . from_arrays ([ ids , addresses ] ,schema &＃61; schema)table &＃61; pa . Table . from_batches ( [ batch ] )# 写 Parquet 数据到文件pq . write_table ( table , &＃39;nested.parquet&＃39; )

验证 Parquet 数据文件

同样用 parquet-tools 来查看下 nested.parquet 文件

$ parquet-tools schema nested.parquet message schema { optional int32 id; optional group address { optional binary email_address (STRING); optional binary post_address (STRING); } } $ parquet-tools cat --json nested.parquet {"id":1,"address":{"email_address":"first&＃64;example.com","post_address":"city1"}} {"id":2,"address":{"email_address":"second&＃64;example.com","post_address":"city2"}}

用 parquet-tools 看到的 Schama 并没有 struct 的字样&＃xff0c;但体现了它 address 与下级属性的嵌套关系。

用 pyarrow 代码来读取 nested.parquet 文件的 Schema 和数据是什么样子

schema &＃61; pq.read_schema("nested.parquet") print(schema)df &＃61; pd.read_parquet(&＃39;nested.parquet&＃39;) print(df.to_json()) schema &＃61; pq . read_schema ( "nested.parquet" )print ( schema )df &＃61; pd . read_parquet ( &＃39;nested.parquet&＃39; )print ( df . to_json ( ) )

id: int32-- field metadata --PARQUET:field_id: &＃39;1&＃39; address: struct<email_address: string, post_address: string>child 0, email_address: string-- field metadata --PARQUET:field_id: &＃39;3&＃39;child 1, post_address: string-- field metadata --PARQUET:field_id: &＃39;4&＃39;-- field metadata --PARQUET:field_id: &＃39;2&＃39; {"id":{"0":1,"1":2},"address":{"0":{"email_address":"first&＃64;example.com","post_address":"city1"},"1":{"email_address":"second&＃64;example.com","post_address":"city2"}}}id : int32-- field metadata --PARQUET : field_id : &＃39;1&＃39;address : struct & lt ; email_address : string , post_address : string & gt ;child 0 , email_address : string-- field metadata --PARQUET : field_id : &＃39;3&＃39;child 1 , post_address : string-- field metadata --PARQUET : field_id : &＃39;4&＃39;-- field metadata --PARQUET : field_id : &＃39;2&＃39;{ "id" : { "0" : 1 , "1" : 2 } , "address" : { "0" : { "email_address" : "first&＃64;example.com" , "post_address" : "city1" } , "1" : { "email_address" : "second&＃64;example.com" , "post_address" : "city2" } } }

数据当然是一样的&＃xff0c;有略微不同的是显示的 Schema 中, address 标识为 struct , 明确的表明它是一个 struct 类型&＃xff0c;而不是只展示嵌套层次。

最后留下一个问题&＃xff0c;前面我们定义 Parquet Schema 都是在 Python 代码中完成了&＃xff0c;Parquet 是否也能像 Avro 一样用外部文件来定义 Schema, 然后编译给 Python 用&＃xff1f;
在这里插入图片描述
如果对软件测试、接口测试、自动化测试、持续集成、面试经验。感兴趣可以进到806549072&＃xff0c;群内会有不定期的分享测试资料。还会有技术大牛&＃xff0c;业内同行一起交流技术

推荐阅读

default
SaltStack部署实践（4）JOB管理与Returns模块

目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]

蜡笔小新 2024-12-22 18:53:43
join
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
java
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
const
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
format
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
join
Python编程基础练习题（进阶篇）

本文提供了一系列Python编程基础练习题，涵盖了列表操作、循环结构、字符串处理和元组特性等内容。通过这些练习题，读者可以巩固对Python语言的理解并提升编程技能。 ... [详细]

蜡笔小新 2024-12-25 13:42:47
client
PostgreSQL中插入JSON数据的最佳实践

本文介绍如何在PostgreSQL数据库中正确插入和处理JSON数据类型，确保数据完整性和避免常见错误。 ... [详细]

蜡笔小新 2024-12-24 16:41:47
ip
深入解析 Django ORM：Model 和 Field 类型

本文详细探讨了 Django 的 ORM（对象关系映射）机制，重点介绍了其如何通过 Python 元类技术实现数据库表与 Python 类的映射。此外，文章还分析了 Django 中各种字段类型的继承结构及其与数据库数据类型的对应关系。 ... [详细]

蜡笔小新 2024-12-24 15:25:10
ip
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
java
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
java
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
default
深入解析Spring启动过程

本文详细介绍了Spring框架的启动流程，帮助开发者理解其内部机制。通过具体示例和代码片段，解释了Bean定义、工厂类、读取器以及条件评估等关键概念，使读者能够更全面地掌握Spring的初始化过程。 ... [详细]

蜡笔小新 2024-12-21 17:33:44
java
SQL Server 中 INSERT 语句无法插入数据的问题分析与解决

本文探讨了在 SQL Server 中使用 JDBC 插入数据时遇到的问题。通过详细分析代码和数据库配置，提供了解决方案并解释了潜在的原因。 ... [详细]

蜡笔小新 2024-12-21 09:52:27
testing
优化SQL Server批量数据插入存储过程的实现

本文介绍了一种改进的SQL Server存储过程，用于生成批量插入语句。该方法不仅提高了性能，还支持单行和多行模式，适用于SQL Server 2005及以上版本。 ... [详细]

蜡笔小新 2024-12-21 06:43:52
default
CentOS 7.6环境下Prometheus与Grafana的集成部署指南

本文旨在提供一套详细的步骤，指导读者如何在CentOS 7.6操作系统上成功安装和配置Prometheus 2.17.1及Grafana 6.7.2-1，实现高效的数据监控与可视化。 ... [详细]

蜡笔小新 2024-12-20 10:05:02

mobiledu2502885927

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章