Python连接hive数据库小结

作者：176精品传奇双线 | 来源：互联网 | 2023-09-09 11:40

一、前言做大数据分析及应用过程中，时常需要面对海量的数据存储及计算，传统的服务器已经很难再满足一些运算需求，基于hadoopspark的大数据处理平台得到广泛的应用。本文介

一、前言

做大数据分析及应用过程中，时常需要面对海量的数据存储及计算，传统的服务器已经很难再满足一些运算需求，基于hadoop/spark的大数据处理平台得到广泛的应用。本文介绍用python读取hive数据库的方式，其中还是存在一些坑，这里我也把自己遇到的进行分享交流。

基本情况

集团有20台服务器（其中1台采集主节点，1台大数据监控平台，1台集群主节点，17台集群节点），65THDFS的磁盘资源，3.5T的yarn内存，等等。项目目前需要对集团的家庭画像数据分析，通过其楼盘，收视节目偏好，家庭收入等数据进行区域性的分析；同时对节目画像及楼盘详细数据进行判断分析。本人习惯使用R语言和Python来分析，故采用了本次分享的数据获取部分的想法。

二、Python连接hive

1、pyhive方式连接hive数据库

首先是配置相关的环境及使用的库。sasl、thrift、thrift_sasl、pyhive。

其中sasl是采用0.2.1版本的，选择适合自己的即可。下载网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl

pip install sasl-0.2.1-cp36-cp36m-win_amd64.whl pip install thrift -i https://pypi.tuna.tsinghua.edu.cn/simple pip install thrift_sasl==0.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple pip install pyhive -i https://pypi.tuna.tsinghua.edu.cn/simple

下载好相关库后，我们直接上代码。

from pyhive import hive import pandas as pd # 读取数据 def select_pyhive(sql): # 创建hive连接 cOnn= hive.Connection(host='10.16.15.2', port=10000, username='hive', database='user') cur = conn.cursor() try: #c = cur.fetchall() df = pd.read_sql(sql, conn) return df finally: if conn: conn.close() sql = "select * from user_huaxiang_wide_table" df = select_pyhive(sql)

获取到hive数据库中约193W的家庭画像数据，37个字段。

《Python连接hive数据库小结》

可以看出代码并不是很复杂，但是大家在测试时可能会出现以下两种常见的问题。

问题一：

&＃8216;TSaslClientTransport&＃8217; object has no attribute &＃8216;readAll&＃8217;

解决一：

pip install thrift_sasl==0.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple，更新依赖thrift_sasl包到0.3.0即可

问题二：Could not start SASL: Error in sasl_client_start (-4) SASL(-4)

解决二：
1.寻找到sasl的安装位置，一般来说是如下位置：
C:\Users\你计算机的用户名字\AppData\Local\Programs\Python\Python37-32\Lib\site-packages\sasl\sasl2
2. C盘新建文件夹 C:\CMU\bin\sasl2
3. 将第一步中的saslPLAIN.dll拷贝至第二步新建的文件夹中

2、impala方式连接hive数据库

impala方式连接hive数据库，但是数据量过大会导致python卡死，目前还未找到合适方式解决。

首先是配置相关的环境及使用的库。sasl、thrift、thrift_sasl、impala。

其中sasl是采用0.2.1版本的，选择适合自己的即可。下载网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl

pip install sasl-0.2.1-cp36-cp36m-win_amd64.whl pip install thrift -i https://pypi.tuna.tsinghua.edu.cn/simple pip install thrift_sasl==0.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple pip install impala -i https://pypi.tuna.tsinghua.edu.cn/simple pip install thriftpy -i https://pypi.tuna.tsinghua.edu.cn/simple

下载好相关库后，我们直接上代码。

from impala.dbapi import connect from impala.util import as_pandas import pandas as pd # 获取数据 def select_hive(sql): # 创建hive连接 cOnn= connect(host='10.16.15.2', port=10000, auth_mechanism='PLAIN',user='hive', password='user@123', database='user') cur = conn.cursor() try: #cur.execute(sql) c = cur.fetchall() df = as_pandas(cur) return df finally: if conn: conn.close() data = select_hive(sql = 'select * from user_huaxiang_wide_table limit 100')

这个impala方式也是很方便，但是当数据量到达一定程度，则就会在fetchall处一直处于运行状态，几个小时也没有响应。

文章未经博主同意，禁止转载！

《Python连接hive数据库小结》

推荐阅读

yarn
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
yarn
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
settings
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
js
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
command
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
command
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
plugins
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
plugins
达梦数据库连接频繁中断及特定SQL语句语法错误问题分析与解决

在使用达梦数据库时，管理员可能会遇到连接频繁中断或特定SQL语句语法错误的问题。这些问题通常源于开发人员在创建对象时的不规范操作。为了解决这些问题，建议对数据库配置进行优化，并确保所有SQL语句符合达梦数据库的标准语法。此外，定期检查和维护数据库连接参数，以及对异常日志进行详细分析，也有助于及时发现并解决问题。 ... [详细]

蜡笔小新 2024-11-11 17:31:49
plugins
搜索引擎技术概论（上篇）：核心原理与应用分析

搜索引擎技术概论（上篇）探讨了搜索的基本概念及其核心原理。搜索的本质在于信息检索，即用户通过输入关键词，利用特定的算法从海量数据中快速定位并提供所需信息。本文详细分析了搜索引擎的工作机制及其在实际应用中的表现。 ... [详细]

蜡笔小新 2024-11-11 17:21:12
default
MySQL定时清理：每10分钟自动删除数据库中的无效数据

为了确保数据库的高效运行，本文介绍了一种方法，通过编写定时任务脚本来自动清理 `order` 表中状态为 0 或为空的无效订单记录。该脚本使用 PHP 编写，并设置时区为中国标准时间，每 10 分钟执行一次，以保持数据库的整洁和性能优化。此外，还详细介绍了如何配置定时任务以及脚本的具体实现步骤。 ... [详细]

蜡笔小新 2024-11-11 14:20:31
buffer
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
timestamp
Cacti 数据库错误：SQL 查询失败，错误代码 145

在使用 Cacti 进行监控时，发现已运行的转码机未产生流量，导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志，发现数据库中存在 SQL 查询失败的问题，错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致，建议对相关表进行修复操作以恢复监控功能。 ... [详细]

蜡笔小新 2024-11-11 12:57:49
default
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04

176精品传奇双线

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章