每个企业里的每个部门、每个团队都拥有潜在的高价值数据宝库,但很可惜其中的73%未被使用到,因为缺乏相应的数据整合工具,所以ETL是解决这个问题的很好办法。然而,最初的ETL流程是为十年前的业务需求而构建的,现在的时代已经变了。
当今的企业拥有的数据源数量正在以非常高的速度增长着,有研究表明,现代企业可以在其的环境中拥有多达400个企业应用程序,以及产生大量数据的社交媒体平台和移动技术。为了整合这一切,管理数据的领导者需要以新的方法来整合这些历史数据,以利用这些数据来进行战略业务规划。
过去的ETL
在过去,少数数据源的ETL流程可以由简单的工具处理完成。然而,随着数据量和的增加,系统和流程出现故障的概率也在不断增加,因为传统的ETL工具带有一连串的缺点。
对于初学者来说,许多ETL功能历来都是手动编码的,这是一个漫长且复杂的过程,手工编码的过程非常具有挑战性:一个开发人员难以学习另一个开发人员的代码,导致许多开发人员必须从头开始重写代码,增加了操作的时间和费用。更糟糕的是,每当团队成员离开或代码(或配置)未记录在案时,公司就会面临很大的风险。就日常运营和对业务用户的影响而言,本地ETL系统在为企业做出明智决策所需的洞察力方面一直很慢。
这些系统通常用于批处理,通常会迫使企业在非工作时间(例如夜间)里使用计算资源来运行ETL进行作业,最终会导致更高的成本、功耗、硬件和人员开销,以及更高的停机或服务中断的风险。
现代基于云的ETL
传统的ETL流程特征是批量提取数据,在暂存区对其进行转换,然后将其加载到数据仓库或其他地方,但是该模型不符合现代业务需求。
在当今的业务环境中,数据提取必须实时工作,并为用户提供自助服务功能,以便随时运行查询并查看当前情况。而且,随着公司越来越多地将更多的应用程序和工作负载迁移到云端了,他们将面临成倍增长的数据集以及来自众多渠道的数据源,所以ETL工具必须可以毫不费力地处理这些大量的数据。
现代ETL工具应该能够在任何云产品上运行良好,并且应该能够随着公司更换云的提供商而轻松迁移,还必须具有良好的容错性、安全性、可扩展性和端到端的准确性,尤其是在为新的机器学习 (ML) 或人工智能 (AI) 模型提供关键信息时,可以做出准确且更具前瞻性的判断。
比较表
现在是实现ETL现代化的时候了
关于云ETL的工具挺多的,这里重点介绍一个Smartbi智分析的云ETL工具,功能非常强大,处理过程非常智能,通过鼠标简单的拖拽便可以进行复杂的ETL程序。最具有价值的地方是它的云属性,只要有网络便可以随时随地进行工作,不受限于时间与空间。