热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hivespark引擎推送数据到es(elasticsearch)

需要导入相关的依赖jar包,例如es-hadoop的jar包。这里要特别注意:下载以后要传到hdfs一个地址,否则无法在hive中添加

需要导入相关的依赖jar包,例如es-hadoop的jar包。

这里要特别注意: 

下载以后要传到hdfs一个地址,否则无法在hive中添加,用hdfs dfs -put命令。

--导入依赖jar包
add jar hdfs://elasticsearch-hadoop-7.13.0.jar;
add jar hdfs://commons-httpclient-3.1.jar;
--设置hive引擎为spark引擎
set hive.execution.engine=spark;

创建es外部表:

create EXTERNAL TABLE IF NOT EXISTS profile_v2.shop_user_order(shop_id string comment'店铺id',user_id string comment'会员id',all_sale_total_amount bigint comment'累计下单金额(2016年开始支付的不考虑退货)单位:分',order_cnt bigint comment'下单次数(2016年开始支付的)',order_quantity_cnt bigint comment'下单件数(2016年开始支付的)',first_order_date string comment'首次下单时间(2016年开始支付yyyymmdd)',last_order_date string comment'最后下单时间(2016年开始支付yyyymmdd)',user_buyback_cycle bigint comment'客户回购周期(最后-首次)/下单次数)',order_unit_price bigint comment'客单价(累计下单金额/下单次数)',quantity_unit_price bigint comment'件单价(累计下单金额/下单件数)',hivetablename string,join_field struct
)
comment '店铺-会员-历史下单行为分析(全量)'
--指定存储格式为es相关
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.resource' = 'user_profile','es.nodes'='10.112','es.port'='0','es.index.auto.create'='TRUE',--'es.mapping.id' = 'user_id','es.nodes.wan.only'='true','es.read.metadata'='true','es.mapping.names'='hivetablename:hiveTableName','es.mapping.routing'='user_id','es.mapping.join'='user_id'
);

配置信息: 

 --指定索引
  'es.resource' = 'user_profile',
  --es节点 多个用,分隔
  'es.nodes'='10.112',
  --es端口
  'es.port'='80',
  --是否自动创建索引
  'es.index.auto.create'='TRUE',
  --表示es的_id对应的字段
  --'es.mapping.id' = 'user_id',
  --默认为 false,设置为 true 之后,会关闭节点的自动 discovery,只使用es.nodes声明的节点进行数据读写操作;如果你需要通过域名进行数据访问,则设置该选项为 true,否则请务必设置为 false;
  'es.nodes.wan.only'='true',
  --要想把_id映射到Hive表字段中,必须使用这种方式
  'es.read.metadata'='true',
  --表示其他字段的对应(可以不写,插入时按顺序依次对应即可);
  'es.mapping.names'='hivetablename:hiveTableName',
  'es.mapping.routing'='user_id',
   'es.mapping.join'='user_id'

每天执行任务先修改别名: 

alter table profile_v2.shop_user_order SET TBLPROPERTIES ('es.resource'='user_profile_${indexdt}');

写入数据:


insert overwrite table profile_v2.shop_user_order
selectshop_id,user_id,all_sale_total_amount,order_cnt,order_quantity_cnt,regexp_replace(first_order_date,'-',''),regexp_replace(last_order_date,'-',''),user_buyback_cycle,order_unit_price,quantity_unit_price,'shop_user_order' as hiveTableName,named_struct('parent',user_id,'name','shop_user_order')
from profile.ads_shop_all_portrait_shop_user_order
where dt = '${dt}';

执行脚本:


dt=`date -d 'last day' +"%Y%m%d"`
indexdt=`date +"%Y-%m-%d"`
echo dt=$dt ... indexdt=$indexdtbase_dir='/home'
sql_name='test.sql'echo hive --hivevar dt=${dt} --hivevar indexdt=${indexdt} -f $base_dir/$sql_name
hive --hivevar dt=${dt} --hivevar indexdt=${indexdt} -f $base_dir/$sql_nameif [ $? -ne 0 ];thenecho "hive sql 运行报错,sql执行失败!"exit -1
fiecho " hive数据导入ES成功 ... "


推荐阅读
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • 解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法
    本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法,包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时,还介绍了修改nginx的error.log日志级别为debug,以便查看详细日志信息。 ... [详细]
  • CEPH LIO iSCSI Gateway及其使用参考文档
    本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档,包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接,详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • Gitlab接入公司内部单点登录的安装和配置教程
    本文介绍了如何将公司内部的Gitlab系统接入单点登录服务,并提供了安装和配置的详细教程。通过使用oauth2协议,将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤,并解决了在迁移过程中可能遇到的问题。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • 本文介绍了一个适用于PHP应用快速接入TRX和TRC20数字资产的开发包,该开发包支持使用自有Tron区块链节点的应用场景,也支持基于Tron官方公共API服务的轻量级部署场景。提供的功能包括生成地址、验证地址、查询余额、交易转账、查询最新区块和查询交易信息等。详细信息可参考tron-php的Github地址:https://github.com/Fenguoz/tron-php。 ... [详细]
  • 如何在HTML中获取鼠标的当前位置
    本文介绍了在HTML中获取鼠标当前位置的三种方法,分别是相对于屏幕的位置、相对于窗口的位置以及考虑了页面滚动因素的位置。通过这些方法可以准确获取鼠标的坐标信息。 ... [详细]
  • 设计模式——模板方法模式的应用和优缺点
    本文介绍了设计模式中的模板方法模式,包括其定义、应用、优点、缺点和使用场景。模板方法模式是一种基于继承的代码复用技术,通过将复杂流程的实现步骤封装在基本方法中,并在抽象父类中定义模板方法的执行次序,子类可以覆盖某些步骤,实现相同的算法框架的不同功能。该模式在软件开发中具有广泛的应用价值。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
author-avatar
WJS0530_735
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有