热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hive小计

image.pnghive其实说实话灭有太多高深的内容,它就是健在HDFS上的分析性数据仓库而已,仓库和数据库的区别在于,仓库只能新增和查询,连更改和删除都没有,仓库的数据文件是散

《hive 小计》 image.png

hive其实说实话 灭有 太多高深的内容,它就是健在 HDFS上的分析性数据仓库而已,仓库和数据库的区别在于,仓库只能新增 和 查询,连更改和删除都没有,仓库的数据文件是散落在文件系统上的,但是可以被索引到,相比数据库文件,仓库与数据文件之间的关联会更弱些。另外 仓库 一般的使用场景是 离线 批次性 数据 ,可以相比 hive就是适合搞批发的 在仓库理货的,晚点 慢点 都不会出大问题,mysql 就是在超市 负责和 大量实时客户做交易的,一丝不苟,正是基于此 hive 的功能时而强大 时而又让你感觉力不从心。

hive 呢 主要常用的就那些 ,
一 是hql ,其实是sql 的变种 不算难
二是 hive的一些函数 ,不难 ,
三 hive自定义 函数 udf ,不难,
四 hive 和 hadoop hbase flume spark kafka beeline sqoop mysql kylin 的搭配,这个熟悉就不难
五 hive 本身的功能

hive 虽然不支持删除,但是可以绕路实现,一 暴力点的就是 drop table ,但是这样整个表就没了,之前的数据也就没有了,不适合,
二 就是建分区表 , 我们为 每次 批次添加的数据 当做其中的一个分区,这样没一批次数据都是单独的,这样 我们可以单独删除某个分区,数据入库出错 就删除这个分区,重新尝试入库,而不会影响到其他批次的

hive 的建表 ,你还是需要指定 filed字段的分隔符和 行列分隔符,否则是无法识别 新的数据,新的数据也一定要按照这个格式来

create table tab_um_model (gid string,mobile string ,apply_time string,um_score float ) partitioned by (client_nmbr string, batch string)row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile;

有时候我们拿到的数据并不符合我们的入库标准,我们需要反复的需要 清洗处理等等,我们的格式 有 excel csv txt ,我们拿到的数据 首先要整理成数据仓库 表相应的字段 顺序 数据类型,然后检查 空值等等,有时入库 的文件 带header,需要把header 拿掉,有时在mac上 经常excel txt就是出现中文字符乱码,就需要 先在excel 上把 数据另存为 Unicode16 的txt 文件,然后再在 sublime上打开,保存 utf-8格式 一遍,这还没完,有时候你需要在 服务器端有脚本 ,python加 shell 脚本一起在最后处理加载入到数据库,python脚本 ,比如使用pandas 做空值判断 填充 ,异常值检查 ,md5 值生成,然后 shell脚本在去执行python脚本,然后执行hive加载命令 ,把数据就加载进入。

加载到库中 别没有结束,你还需要 去验证 一这次加载的数据的行数 是否与源数据文件统一,head 5行和tail 5行是否一致,字段列的对应是否统一,等等,这些完后,如果需要群组 知道 ,还要发邮件给群组 ,告知大家 你这次入库的内容
数据源 库 表 分区 查询语句 条数 等等信息。

未来 hive的竞争对手越来越多,但是hive作为数据仓库的思想基石 会被保留和延续 并发展


推荐阅读
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • HBase Java API 进阶:过滤器详解与应用实例
    本文详细探讨了HBase 1.2.6版本中Java API的高级应用,重点介绍了过滤器的使用方法和实际案例。首先,文章对几种常见的HBase过滤器进行了概述,包括列前缀过滤器(ColumnPrefixFilter)和时间戳过滤器(TimestampsFilter)。此外,还详细讲解了分页过滤器(PageFilter)的实现原理及其在大数据查询中的应用场景。通过具体的代码示例,读者可以更好地理解和掌握这些过滤器的使用技巧,从而提高数据处理的效率和灵活性。 ... [详细]
  • 如何在Java中使用DButils类
    这期内容当中小编将会给大家带来有关如何在Java中使用DButils类,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。D ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制(MVCC)、乐观并发控制和悲观并发控制等内容。 ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • Unity与MySQL连接过程中出现的新挑战及解决方案探析 ... [详细]
  • 本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中,如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时,数据库会自动生成三个关键表:`activemq_msgs`、`activemq_lock`和`activemq_ACKS`,分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性,还增强了系统的可扩展性和容错能力。 ... [详细]
  • Java Socket 关键参数详解与优化建议
    Java Socket 的 API 虽然被广泛使用,但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数,如 backlog 参数,它用于控制服务器等待连接请求的队列长度。此外,还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响,并提供了优化建议,帮助开发者提升网络通信的稳定性和效率。 ... [详细]
  • 本指南详细介绍了在Linux环境中高效连接MySQL数据库的方法。用户可以通过安装并使用`mysql`客户端工具来实现本地连接,具体命令为:`mysql -u 用户名 -p 密码 -h 主机`。例如,使用管理员账户连接本地MySQL服务器的命令为:`mysql -u root -p pass`。此外,还提供了多种配置优化建议,以确保连接过程更加稳定和高效。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
author-avatar
念中怡名哲盈_452
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有