任何企业几乎没有一天不在谈论自动化和大数据。如今,市场了解需要数据:这是获取商业情报的实际途径。数据科学和机器学习是预测分析的辅助工具,这意味着您需要数据,而且是大量数据。
但是,数据必须以能够进行数据分析的格式进行清理和准备。这个称为数据摄取的过程应该实现自动化。
什么是数据摄取?
数据摄取指获取和导入数据的过程,无论立即使用还是存入数据库。导入数据还包括为分析准备数据的过程。就广义而言,数据摄取可理解为两个或多个系统之间的定向数据流,形成平顺独立的运行状态 (定义已经暗示了某种独立性或自动化)。
当数据在设定的时间段输入特定区块时,可在数据生成时实时摄取,也可以分批摄取。通常,数据摄取过程分为三个步骤:
1
数据抽取-从来源检索数据
2
数据转换-验证、清理并规范数据,确保准确性和可靠性
3
数据加载–数据传送或放入正确筒仓或数据库用于分析
当然,随着数据的增长,这个三步流程会变得更大,需要更多时间。一直以来,数据摄取都是手动操作,手动收集数据,手动导入定制电子表格或数据库。
这个过程中,可以更正不准确的数据确保数据相似,但人为错误无法确保数据100%干净或可靠。
今天,步入大数据时代,手动数据摄取几乎是不可能的。企业有大量数据源,通常总数达到几百个,数据一天24小时不间断生成。
真正的含义是什么? 数据以各种格式输入,因此企业需要将数据转换成相似的格式。越来越多的企业开始采用自动化技术摄取数据进行有效数据分析。
自动数据摄取理由
自动化的理由数不胜数,而且因公司而异。尽管如此,数据自动摄取出色的效果是显而易见的。
1
自动数据摄取加快产品上市速度
2016年,55%的B2B公司表示,无法及时合并各种来源的数据实际上阻碍了他们实现这些目标。这是不言而喻的,分析项目往往要比人们预期的时间长三倍。
通常,企业花时间做分析准备,但如果不能足以顺利或高效地完成数据摄取和数据准备,就没有用来分析的数据,从而延迟最初的目标。如果产品不能及时投放市场,企业会失去竞争优势。
2
自动数据摄取提高扩展能力
步入自动数据摄取领域可能令人感到无所适从,特别是准备采用数据科学和机器学习方法。好消息是,从小处着手很容易推进自动化过程–选择一两个数据源,依靠行业最佳实践找出实现自动化的最佳方式。
随着时间的推移,当逐渐运用自如并节省出时间之后,可进一步扩展自动摄取更多数据。
随着自动化范围的扩大,自动化变得更加容易,尤其是采用自助服务工具的情况下。当确定新的数据源时,如果有可以用来帮助建立数据源的自助式自动化工具,中心IT部门不必为数据源配置实施每一个请求。
当部分基础架构或服务请求发生变化时–这是不可避免的,这种扩展性尤其有利。
虽然自动摄取过程可能需要一些手动调整,但不必浪费宝贵的时间和资金重新培训团队改变摄取方法。相反, 可以顺利执行操作,显著减少中断。
3
自动数据摄取将重点转移到必要的工作
准备是任何项目的关键,但想象一下,取得结果之前,4/5的时间花在繁琐的任务上。数据科学家反复指出,他们工作中最不感兴趣、最不想做、或最具挑战性的是数据准备–数据摄取的一部分,为分析准备数据。
统计结果显示,分析项目80%的时间用于这项任务,而不是更具广泛挑战性的应用或开发特定算法分析结果。
相反,专家数据团队忙于处理繁琐的任务,例如,从各种应用程序中抽取数据,用自定义代码转换格式,以及将数据加载到各种孤立的系统中。
通过系统自动化,数据科学家可以解放出来执行自己和公司希望他们做的工作:分析,从而引领市场变革和改进。
4
自动数据摄取降低风险
我们理解数据是商业智能和策略的关键。今天,没有它,您将很快被更具竞争力的企业排挤到一边。这种风险是企业承受不起的。
自动数据摄取还可以减轻其他风险:抽取、转换和加载数据时出现人为错误。无法及时收集数据造成落后。(这可能导致一种极端情况,要想追赶只有一种方法收集数据–浪费大量资源。) 企业可能达不到预想目标。
对于所有这种情况来说,自动数据摄取可以提高效率,从而节省时间和资金。扩展能力越强,越容易加入更多数据,而不会危及产品上市速度的目标。自动数据摄取有助于提高扩展能力和效率。
还需要数据摄取的理由吗? 数据部门将对您更满意! 通过减少繁琐的任务,员工可以专注于他们喜欢的工作–数据带来的挑战和提取数据中的信息。
这些贴子仅是我的个人观点,不一定代表BMC的立场、策略或意见。
手机扫描二维码或通过微信搜索公众帐号,即可第一时间了解BMC的最新资讯。
长按扫码可关注
Wikibon: 大数据管道自动化
了解行业数据管理专家如何改变大数据基础架构,实现业务收益最大化。
点击阅读全文下载