热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

ETL数据整合与处理——实例

1.Excel输入1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如

1.Excel输入

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如图1所示:

 图1 创建转换

2.配置“Excel输入”控件

双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮,具体效果如图2所示;单击“工作表”选项卡,获取工作表,如图3所示;单击“字段”选项卡,添加字段,如图4所示:

 图2 配置“文件”选项卡

 图3 配置“工作表”选项卡

 图4 配置“字段”选项卡

 3.运行转换

单击转换工作区顶部的 按钮,运行创建的转换,如图5所示:

 图5 运行转换


2.生成记录

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“生成记录”控件,具体如图6所示:

 

图6 创建转换

 2.配置“生成记录”控件

双击“生成记录”控件,进入“生成记录”控件界面,添加字段,并预览数据,如图7所示:

 图7 配置“生成记录”控件和预览数据

3. 运行转换

单击转换工作区顶部的 按钮,运行创建的转换,如图8所示:

 图8 运行转换


3.生成随机数

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“生成随机数”控件,具体如图9所示:

图9 创建转换 

2.配置“生成随机数”控件

双击“生成随机数 ”控件,进入“生成随机数”控件界面,添加字段,如图10所示:

图10 配置“生成随机数”控件

3.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“生成记录”控件、“生成随机数”控件和“Excel输出”控件,具体如图11所示:

 

 图11 创建转换

4.配置“生成随机数”控件

双击“生成随机数 ”控件,进入“生成随机数”控件界面,添加字段,如图12所示:

 

图12 配置“生成随机数”控件

5.配置“Excel输出”控件

双击“Excel输出”控件,进入“Excel输出”配置界面,单击“字段”选项卡,添加字段,如图13所示:

 

图13 配置“Excel输出”控件

6. 运行转换

单击转换工作区顶部的 按钮,运行创建的转换,如图14所示:

 

 图14 运行转换


4.获取系统信息

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“获取系统信息”控件,具体如图15所示:

图15 创建转换

2.配置“获取系统信息”控件

双击“获取系统信息”控件,进入“获取系统信息”控件界面,添加字段,并预览数据,如图16所示:

 图16 配置“获取系统信息”控件和预览数据

 3.运行转换

单击转换工作区顶部的 按钮,运行创建的转换,如图17所示:

 图17 运行转换


5.排序记录

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“Excel输入”控件和“排序记录”控件,具体如图18所示:

图18 创建转换

2.配置“Excel输入”控件

双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择2019年11月月考数学成绩.xls;单击“增加”按钮,具体效果如图19所示;单击“工作表”选项卡,获取工作表,如图20所示;单击“字段”选项卡,添加字段,如图21所示:

 图19 配置“文件”选项卡 

 图20 配置“工作表”选项卡

 图21 配置“字段”选项卡和预览记录

 3.配置“排序记录”控件

双击“排序记录”控件,进入“排序记录”控件界面,添加字段,如图22 所示:

 图22 配置“排序记录”控件

4. 运行转换

单击转换工作区顶部的 按钮,运行创建的转换,执行结果,如图23所示:

 图23 运行转换


6.去除重复记录

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“Excel输入”控件、“排序记录”控件和“去除重复记录”控件,具体如图24所示:

 图24 创建转换

2.配置“Excel输入”控件

双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择2018年上学期考试成绩.xls;单击“增加”按钮,具体效果如图25所示;单击“工作表”选项卡,获取工作表,如图26所示;单击“字段”选项卡,添加字段,如图27所示:

 图25 配置“文件”选项卡

 图26 配置“工作表”选项卡

图27 配置“字段”选项卡和预览记录 

 3.配置“排序记录”控件

双击“排序记录”控件,进入“排序记录”控件界面,添加字段,如图28所示:

 图28 配置“排序记录”控件

4.配置“去除重复记录”控件

双击“去除重复记录”控件,进入“去除重复记录”控件界面,添加字段,如图29示:

 

图29  配置“去除重复记录”控件

5. 运行转换

单击转换工作区顶部的 按钮,运行创建的转换,执行结果中以去除序号2,具体如图30所示:

图30 运行转换 


7.替换NULL值

1.打开Kettle工具,创建转换

使用Kettle工具,创建一个转换,并添加“Excel输入”控件和“替换NULL值”控件,具体如图31所示:

图31 创建转换

2.配置“Excel输入”控件

双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择2019年11月月考英语成绩.xls;单击“增加”按钮,具体效果如图32所示;单击“工作表”选项卡,获取工作表,如图33所示;单击“字段”选项卡,添加字段,如图34所示:

 图 32 配置“文件”选项卡

 图33 配置“工作表”选项卡

图34 配置“字段”选项卡和预览数据 

3.配置“替换NULL值”控件

双击“替换NULL值”控件,进入“替换NULL值”控件界面,添加字段,如图35示:

图35 配置“替换NULL值”控件 

4. 运行转换

单击转换工作区顶部的 按钮,运行创建的转换,执行结果中序号7的英语成绩替换成了0.0,具体如图36所示:

 图36 运行转换 


推荐阅读
  • 夸克网盘电脑版上线,实现三端同步备份与高效编辑播放功能 ... [详细]
  • 如何在CAD阅图软件中将PDF文件高效转换为CAD格式?
    如何在CAD阅图软件中将PDF文件高效转换为CAD格式? ... [详细]
  • Adobe Acrobat Reader DC 2020 下载:专业文档阅读与管理软件
    Adobe Acrobat Reader DC 2020 下载:专业文档阅读与管理软件 ... [详细]
  • 通过在项目中引用 NuGet 包 `ExcelDataReader`,可以实现高效地读取和导入 Excel 文件中的数据。具体方法是在项目中执行 `Install-Package ExcelDataReader` 命令,然后通过定义一个 `LeadingIn` 方法并传入上传文件的路径来完成数据导入。该方法不仅简化了代码逻辑,还显著提升了数据处理的效率和可靠性。 ... [详细]
  • 如何在微信文章中插入附件文档:详细教程与技巧分享
    对于众多企业和教育机构的微信公众号而言,在发布信息时常常需要在文章中嵌入各类文档附件,例如应聘申请表、健康声明书、数据记录表、疫情防控登记表、项目申报评分表及各类公告通知等。本文将详细介绍如何在微信文章中高效地插入不同类型的文档附件,并分享一些实用技巧,帮助用户提升内容发布的专业性和便捷性。 ... [详细]
  • 本项目在Java Maven框架下,利用POI库实现了Excel数据的高效导入与导出功能。通过优化数据处理流程,提升了数据操作的性能和稳定性。项目已发布至GitHub,当前最新版本为0.0.5。该项目不仅适用于小型应用,也可扩展用于大型企业级系统,提供了灵活的数据管理解决方案。GitHub地址:https://github.com/83945105/holygrail,Maven坐标:`com.github.83945105:holygrail:0.0.5`。 ... [详细]
  • 智能制造数据综合分析与应用解决方案
    在智能制造领域,生产数据通过先进的采集设备收集,并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后,通过可视化数据大屏呈现,为生产车间、生产控制中心以及管理层提供实时、精准的信息支持,助力不同应用场景下的决策优化和效率提升。 ... [详细]
  • ylbtech-进销存管理解决方案:进销存管理,即购销链管理,涵盖企业从采购(进)、库存(存)到销售(销)的全流程动态管控。其中,“进”涉及从市场询价、供应商选择、采购执行直至货物入库及支付流程;“销”则包括产品定价、客户报价、订单处理及销售出库等环节。该解决方案旨在通过信息化手段,提升企业运营效率,优化库存结构,增强市场响应速度。 ... [详细]
  • 使用 XlsxWriter 模块在 Python 中实现 Excel 单元格内多种格式文本的高效写入
    XlsxWriter 是一个强大的 Python 库,专门用于生成 `.xlsx` 格式的 Excel 文件。该模块不仅支持基本的数据写入,还提供了丰富的格式化选项,能够实现单元格内多种文本样式的高效处理。无论是字体、颜色、对齐方式还是边框,XlsxWriter 都能轻松应对,满足用户在 Excel 视图中的各种需求。 ... [详细]
  • 深入学习 Python 中的 xlrd 模块:掌握 Excel 文件读取技巧
    本文深入探讨了 Python 中的 xlrd 模块,重点介绍了如何高效读取 Excel 文件(包括 xlsx 和 xls 格式)。同时,文章还详细讲解了 xlwt 模块在 Excel 文件写操作中的应用。此外,文中列举了常见单元格数据类型及其处理方法,为读者提供了全面的实践指导。 ... [详细]
  • 在Java项目中,当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中,该文件位于 `cn.javass.bookmgr` 包下,并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行,请求提供专业的解决方案,以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手,进行全面排查和调试。 ... [详细]
  • Windows 7 忘记登录密码?详细教程教你如何安全重置密码 ... [详细]
  • Vue CLI 初始化 Webpack 项目时,main.js 文件是如何被调用的? ... [详细]
  • 如何在您的计算机上配置Python和PyCharm开发环境
    本文详细介绍了在Windows 10系统上配置Python和PyCharm开发环境的步骤。内容包括Python的安装与卸载、PyCharm的安装与卸载,以及如何在Windows 10中通过双击安装文件“python-3.7.2-amd64.exe”来完成Python的安装。此外,还提供了关于环境变量配置和基本设置的实用建议,帮助用户快速搭建高效的开发环境。 ... [详细]
  • 本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式,并且服务器端已经集成了多线程处理,能够支持任意大小的文件传输,无需担心数据包大小的限制。与传统的 ClientSocket 相比,Indy 控件提供了更为简洁和可靠的解决方案,特别适用于开发高性能的网络文件传输应用程序。 ... [详细]
author-avatar
mobiledu2502858945
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有