当前位置: 开发笔记 > 编程语言 > 正文

[Snowflake+Python]Python中如何使用Snowflake

作者：处男是你_909 | 来源：互联网 | 2023-10-13 09:26

Snowflake+Python使用场景：自动化构建数据管道以及在预处理后将数据存储到Snowflake中.SnowflakeSetup:11.登录： https:www.snow

Snowflake + Python

使用场景：自动化/构建数据管道以及在预处理后将数据存储到Snowflake中.

Snowflake Setup:

11.登录： https ://www.snowflake.com/

输入详细信息并申请 30 天试用，通过 Gmail 验证。
在试用中，Snowflake 将提供足够的积分来开始使用。

2.下载雪花 CLI：

Redirecting to … https://docs.snowflake.net/manuals/user-guide/snowsql-install-config.html

注意：Snowflake 的所有服务都有很好的文档。查看此用户指南以获得更详细的理解 (Redirecting to … https://docs.snowflake.net/manuals/user-guide.html

与雪花互动
Snowflake 有 2 种方式可以与服务交互：
Web 界面： Snowflake 提供了一个 Web 界面，其中包括在 Snowflake 中执行创建、修改和管理帐户和资源等操作的工具。
Web 界面
的限制：“put”命令不能通过 Web 界面运行。
湾。无法加载大于 50MB 的文件，因为它旨在用于小文件。
CLI：如果您是 Linux 用户，则该界面易于使用，并填补了 Web 界面的这些空白。

为表演搭建舞台（如果您熟悉 Snowflake 的设计流程，请跳过）

雪花的架构
Snowflake 的独特架构由三个关键层组成：
1. 集中式存储
2. 多集群计算和处理
3. 云服务

集中存储

当数据加载到 Snowflake 中时，它会将数据重新组织为 Snowflake 内部优化、压缩的列格式。Snowflake 将这些优化的数据存储在云存储中。Snowflake 管理如何存储这些数据的所有方面。

查询处理

每个虚拟仓库都是一个独立的计算集群，不与其他虚拟仓库共享计算资源。因此，每个虚拟仓库对其他虚拟仓库的性能没有影响。

云服务

该层内的服务包括：

验证
基础设施管理
元数据管理
查询解析和优化
访问控制

使用不同的权限，管理不同的数据库。因此，用户的角色对于执行某些任务是必不可少的。

设置 Python 和代码依赖项

参考：https ://docs.snowflake.net/manuals/user-guide/python-connector-install.html

确保安装了 Python 3.x 和所需的模块。

为 Snowflake 安装 Python 包：

pip install — upgrade snowflake-connector-python

py 脚本以非常简单的方式编写，没有花哨的类或方法。

代码（git repo）：hashmapinc / oss / python_snowflake_poc · GitLab
（这包括 Jupyter notebook）

注意：repo 还包含 Docker 映像和文件。暂时不要担心，因为这不是我们本次练习的重点。

1. 导入包

“cred.json” -> 包含用户信息的 JSON 文件，以避免在代码中写入敏感信息。我将 JSON 加载到 dict 类型的“cred”变量中，如下所示：

# import require module and credential import snowflake.connector import json with open(“cred.json”,”r”) as f: cred = json.load(f) 创建“cred.json” JSON文件并写入或者你可以使用用于创建 JSON 的 Json 转储： { “userid”:”userid”, “password”:”xxxxx”, “account”:”px00000.ap-southeast-2” }

2. 通过 Python 设置与 Snowflake 的连接

cOnn= snowflake.connector.connect( user=cred["userid"], password=cred["password"], account=cred["account"], session_parameters={ "QUERY_TAG": "EndOfMonthFinance", } ) print( “连接成功”，conn）

您还可以通过在连接后执行 SQL 语句 ALTER SESSION SET ... 来设置会话参数：

con.cursor().execute("ALTER SESSION SET QUERY_TAG = 'EndOfMonthFinancials'") """

3. 将当前角色更改为“ SYSADMIN”，因为默认可能不是 SYSADMIN。这对于执行将要执行的操作很重要。

conn.cursor().execute("使用角色 sysadmin")

4.设置雪花存储和管理数据：

使用“ CREATE OR REPLACE” -> 用于新建和覆盖
使用“CREATE” -> 用于新建（如果存在则创建时出错）
或使用IF NOT EXISTS

# 创建数据库、模式和仓库 conn.cursor().execute("CREATE WAREHOUSE IF NOT EXISTS tiny_warehouse_mg") conn.cursor().execute("CREATE DATABASE IF NOT EXISTS testdb_mg") conn.cursor().execute ("USE DATABASE testdb_mg") # 上面的行必须在下面的行之前执行，因为在构建 WH 的 testschema_mg 基本结构时，DB 应该存在 conn.cursor().execute("CREATE SCHEMA IF NOT EXISTS testschema_mg")

5.设置当前需求WH、DB、Schema。

# 使用数据库、模式和仓库 conn.cursor().execute("USE DATABASE testdb_mg") conn.cursor().execute("USE WAREHOUSE tiny_warehouse_mg") conn.cursor().execute("USE DATABASE testdb_mg" ) conn.cursor().execute("使用 SCHEMA testdb_mg.testschema_mg")

6.创建一个2列的新表；一个 int 类型和另一个 string 类型

# 创建表并插入数据 conn.cursor().execute( "CREATE OR REPLACE TABLE " "test_table(col1 integer, col2 string)" )

7.让我们在上表中插入2条记录

这里我们使用字符串连接。与 Python 中的任何其他 DB 连接器一样，我们也可以使用元组来防止SQL 注入

# Bad query: conn.cursor().execute( "INSERT INTO test_table(col1, col2) VALUES " + " (123, 'indian Cricket'), " + " (100, 'Kapil Dev')") 安全方法： # 安全示例。做这个！ conn.cursor().execute("INSERT INTO test_table(col1, col2) VALUES (%s, %s)", ('123', 'indian Cricket'));

8. 将 Python 与 Snowflake 一起使用

您必须先在雪花数据存储中加载数据，然后才能对该数据运行查询。为了正确管理它，我们有一个暂存区域和模式类型来帮助我们以所需的严格格式提取数据。下面的代码将帮助我们加载目录名称“data”中存在的 CSV 文件。在暂存它们之后，我们将复制文件内容或将数据转储到我们创建的表（test_table）中。

如果您使用的是Window 的 cmd，则必须提供类似（“\\”）的路径
：（ “PUT file://.\\data\\crick* @testdb_mg.testschema_mg.%test_table”）

对于 S3 或任何其他云存储，需要类似的代码。

注意：'put' 是从 CLI 中使用的，并确保有访问权限，提到的路径。

# Putting Data # @DB .SCHEMA.TABLE ，这是根据内容的层次结构。like DB <- SCHEMA <- Table # 如果使用 Window 的 cmd : ("PUT file://.\\data\\crick* @testdb_mg .testschema_mg.%test_table") conn.cursor().execute("PUT file: //./data/crick* @testdb_mg .testschema_mg.%test_table") conn.cursor().execute("""COPY INTO test_table from @testdb_mg .testschema_mg.%test_table/crick*.csv.gz file_format = (type = csv field_delimiter=',') 模式 = '.*.csv.gz' on_error= 'skip_file'""")# 对于 S3 # 复制数据 # con.cursor().execute(""" # COPY INTO testtable FROM s3:///data/ # CREDENTIALS = ( # aws_key_id='{aws_access_key_id}', # aws_secret_key=' {aws_secret_access_key}') # FILE_FORMAT=(field_delimiter=',') # """.format( #aws_access_key_id=AWS_ACCESS_KEY_ID, #aws_secret_access_key=AWS_SECRET_ACCESS_KEY))

9. 我们现在在表格中有数据

# 查询数据 cur = conn.cursor() try: cur.execute("SELECT col1, col2 FROM test_table ORDER BY col1") for (col1, col2) in cur: print('{0}, {1}'.format (col1, col2)) finally: cur.close() # 为系统稳定性避免不必要的连接 print("connection closed, script end.. Thanks ") # 如果结果集太大而无法放入内存，则使用 fetchone 或 fetchmany。 # 结果 = conn.cursor().execute("SELECT col1, col2 FROM test_table").fetchall()

转载： https://medium.com/hashmapinc/getting-started-with-snowflake-using-python-8ec552ffd02

推荐阅读

linux
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
post
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
数组
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
header
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
header
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
数组
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
callback
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
post
SQL中UPDATE SET FROM语句的使用方法及应用场景

本文详细介绍了SQL中UPDATE SET FROM语句的使用方法，通过具体示例展示了如何利用该语句高效地更新多表关联数据。适合数据库管理员和开发人员参考。 ... [详细]

蜡笔小新 2024-12-28 10:22:16
数组
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
数组
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
uml
IT项目管理过程中的方法、工具、技术

工欲善其事，必先利其器。而对于一个软件开发项目，最重要的器就是方法，工具和技术。而这三要素中重要的又是方法论，方法是基础&# ... [详细]

蜡笔小新 2024-12-27 21:03:43
uml
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
post
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
post
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
header
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12

处男是你_909

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章