热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

此时此刻此景,“零”就代表着赢

编辑|阿冒设计|沐由2022卡塔尔世界杯,终于步入到最强、最美和最终的华章,阿根廷与法兰西共同上演了世界杯决赛史上的一幕奇迹,意想不到的转

30d9a6a1fcafef4cf5fa738d7c81f855.gif

编辑 | 阿冒    设计 | 沐由

2022卡塔尔世界杯,终于步入到最强、最美和最终的华章,阿根廷与法兰西共同上演了世界杯决赛史上的一幕奇迹,意想不到的转折和蹉跎而至的结局,让人不得不感慨全球第一运动的巨大魅力。

在这种世界顶级水准的足球竞技中,自然少不了强硬的身体对抗,因此队员的偶尔受伤也无法完全避免。某种程度上,伤痛本身就是体育竞技的一部分。

不过,正如那句老话所说的那样:轻伤不能下火线。我们经常看到,队医拿着一个瓶子对队员的受伤部位喷洒之后,之前动弹不得的球员立马变得生龙活虎,迅疾返场参加比赛了。

懂行的人知道,这是一种快速喷雾止疼剂,其主要成份是氯乙烷(C2H5Cl),机理是迅速降低受伤部位的温度,在神经被冷冻麻痹之后,疼痛也就迅速缓解了,属于是短期的应急之举。

有没有发现,这一幕与数据领域ETL(extract-提取, transform-转换, load-加载)所面临的普遍“伤情”格外相似?

自从传统数据仓库理论形成至今,提取、转换和加载始终是钳制数据应用的主要痼疾,企业也顶多通过找到一些类似氯乙烷效用的ETL辅助工具加以过渡,从来没有办法做到治标治本。

然而,在大数据应用越来越普及的当下,诸如以上的ETL工具们依然停留在初级阶段,这也就使得企业遭受的痛楚比以往的任何时候都更加强烈,愈发地难以承受。

吃力不讨好的工作

日前盛大举行的亚马逊云科技re:Invent 2022上,传来了令人振奋的好消息。雄心勃勃的亚马逊云科技发布了几项将数据管理推向未来的新服务,企业不再需要考虑ETL的问题。

正如亚马逊云科技首席执行官 Adam Selipsky所说的那样,“我们已经为此做了多年的准备,在各种服务之间构建集成,以便更轻松地利用数据进行分析和机器学习。”

04e93915a3aa8d2939b4e3fd4436fd10.jpeg

数据已成为全新的资产。通过挖掘出其中蕴藏的有价值信息,发现数据的规律,让它们“开口说话”,管理者就能够迅速做出理性和科学的决策,从而在激烈的市场竞争中占得先机。

在现代化应用的推动下,数据的价值正在被不断放大。就像是堆乐高积木一样,新的应用被迅速建立,需要注入来源不同的各种数据,假如继续沿用之前的理念,就势必少不了ETL的过程。

没有人能够否认,ETL是一份极其吃力不讨好的工作。

我们知道,现代化应用的特征之一,就是数据的不断复用。为此,企业和组织需要经常搬运与传输数据,以便在不同的模型和应用中加载,从而释放数据的多重价值。

当数据量并不是很大时,企业尚能勉强接受以上的繁复流程。然而,当数据量达到一定程度之后,这一过程就变得困难无比,而且需要消耗大量的资源和成本。

通常情况下,构建ETL会占用整个项目至少三分之一的时间,而对ETL的维护也同样不是一件轻省的工作,某些时候构建和维护ETL会占用到数据工程师70%的工作量。

是不是很惊人?更不要说,为了ETL的过程更加顺利,企业还需要考察和测试相应的ETL辅助工具,而这同样会占用企业的大量人力物力资源,以及不菲的预算。

1ec4c0440aff04b529cbb5ecb24081a0.png

显然,如果能有一种新的产品方案或者理念,极大地加速甚至是跳过ETL的过程,让数据就像水一样自由流动起来,那显然是所有数据驱动型企业的“福音”。

Zero ETL的未来

亚马逊云科技正在做的,就是这样的工作。实际上,早在几年前,亚马逊云科技就开始进行投入,并以Zero ETL的理念引导产品方案的研发与构建。

此前,其实也有公司试图进行类似的努力,譬如通过在云数据湖、数据仓库或数据湖里,来进行相应的提取、转换和加载动作,但是也和之前的辅助工具一样,并没有在本质上带来改变与提升。

通过持续不断的努力,亚马逊云科技希望真正引导客户迈向一个“Zero ETL的未来”,借助相关的Zero ETL方案,减少在不同服务之间手动迁移或转换数据的工作。

罗马不是一天建成的,“Zero ETL的未来”也同样不可能一蹴而就。不过,只要技术的理念和方向是正确的,那么无论道路是如何崎岖,跬步也终会千里。

本次re:Invent 2022的全球大会上,亚马逊云科技就迈出了Zero ETL的重要一步:通过两项全新的集成功能,客户可以连接和分析多地存储的数据,无需在不同服务间进行数据迁移。

0522b90eb98c448f96df684dce8e8abe.jpeg

首先是Amazon Aurora Zero-ETL与Amazon Redshift的集成,客户无需自定义数据通道,即可分析PB级的数据;然后是Amazon Redshift与Apache Spark的集成,让客户更加轻松地通过Apache Spark访问Amazon Redshift上的实时数据。

数据流通的最大敌人就是“孤岛”——无论是否有意为之。亚马逊云科技提供的新技术和新方案,使得平台之间的数据交换被极大简化,而且无需事先提取、转换与加载。

亚马逊云科技数据和机器学习副总裁Swami Sivasubramanian表示,“无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”

5f4606dfcbe4ad620e28b6ebcced4d41.png

全球领先软件公司Adobe和方案商Infor,已经是亚马逊云科技Zero ETL产品方案的受益者:借由亚马逊云服务提供的新服务与新功能,业务团队无需自己进行日常维护,就能够通过动态数据得到更好的分析。

一小步和一大步

其实在数据的集成,也就是数据一体化方面,亚马逊云科技此前已经有一系列的集成工具,譬如Data Exchange、Athena联邦查询等,它们均有Zero ETL的理念在其中,可以直接查询Aurora的数据。

不过从存储架构上来说,这些均属于是异构的访问,因此在性能上就不可避免地会受到一定的影响。属于无服务器服务的Amazon Athena也是同理,它使用标准SQL分析Amazon S3的数据同样属于异构的访问——好处是客户不需要搬迁数据了。

ba3f12457fde4dcbd672098c57d26b75.png

正如我们在前文所说的,亚马逊云科技在Zero ETL方面的探索由来已久,譬如2017年发布的Amazon Redshift Spectrum与联邦查询即是一个经典的特性,无需数据移动,用户即可使用Spectrum来访问数据湖Amazon S3中的数据。

在最新的Zero ETL演进中,亚马逊云科技所做的主要工作之一,就是TP(事务处理)与AP(分析处理)的融合——这也是目前被公认的趋势与方向,即让TP与AP有很好的负载资源隔离,相互之间也不受彼此影响,应该说这种做法有着巨大的现实和经济意义。

我们知道,TP与AP的存储方式是不一样的。如果进行高频的交易,行存会优先于列存,因为行存可以去用索引的方式快速对某一行的数据进行修改;在进行批量数据分析的时候,列存又会优先于行存……

于是,部分厂商的做法就带有了几分“取巧”的意味在里面,他们采用了两套存储系统完成HTAP(混合事务/分析处理)。从性能上来看,这种做法没有问题,但是客户却需要为之付出两套存储的成本,而且这也完全背离了Zero ETL的初衷。

亚马逊云科技则坚定认为,一个产品不可能满足所有的需求,因此在迈向Zero ETL时,亚马逊云科技采用的是更多相关产品服务之间的“联动”。

譬如在本次大会发布的Amazon Aurora Zero ETL to Amazon Redshift中,亚马逊云科技支持将交易数据在写入 Amazon Aurora 后的几秒钟内就可以自动连续复制,使其在Amazon Redshift中即时可用,客户可以立即开始分析数据,并利用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。

e22e68859065abddfc4a7e917ae72ef0.png

这只是亚马逊云科技的一小步,却是Zero ETL领域的一大步。相信在接下来的时间里,我们会见证更多的产品方案发布,收获Zero ETL的美好未来。

欲了解关于更多Zero ETL的技术细节与内容,请点击左下阅读原文,即刻注册2022亚马逊云科技INNOVATE在线大会,深度解读re:Invent 2022。

0631256dc8ee9b119f8c617a83194267.jpeg



推荐阅读
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 用友深耕烟草行业25年,提出数字化转型建议
    本文介绍了用友在烟草行业深耕25年的经验,提出了数字化转型的建议,包括总体要求、主要任务、发展阶段和六位一体推进举措。通过数字化转型,烟草行业将注入新动能,实现高质量发展。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 开发笔记:计网局域网:NAT 是如何工作的?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了计网-局域网:NAT是如何工作的?相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到,他将msbuild设置为详细模式,但转换却忽略了带有替换转换的自定义部分的存在。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 本文介绍了一个免费的asp.net控件,该控件具备数据显示、录入、更新、删除等功能。它比datagrid更易用、更实用,同时具备多种功能,例如属性设置、数据排序、字段类型格式化显示、密码字段支持、图像字段上传和生成缩略图等。此外,它还提供了数据验证、日期选择器、数字选择器等功能,以及防止注入攻击、非本页提交和自动分页技术等安全性和性能优化功能。最后,该控件还支持字段值合计和数据导出功能。总之,该控件功能强大且免费,适用于asp.net开发。 ... [详细]
  • 本文介绍了互联网思维中的三个段子,涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例,探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验,三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]
author-avatar
L-SUNMER
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有