热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

DataOps:不仅仅是数据的DevOps|内附下载地址

“DataOps”这个名字有一个积极的属性,它传达了这样一个信息,即数据分析可以实现通过DevOps而进行的软件开发。也就是说,当数据团队

“DataOps”这个名字有一个积极的属性,它传达了这样一个信息,即数据分析可以实现通过DevOps而进行的软件开发。也就是说,当数据团队使用新的工具和方法时,DataOps可以在质量和周期时间上产生一个数量级的改进。DataOps实现这些收益的具体方式反映了数据团队(相对于使用DevOps的软件开发团队)的独特人员、流程和工具特征。这是我们对DataOps和DevOps之间明显的和细微差异的深入探讨。

DataOps 中测试的双重性

DataOps 中的测试在价值和创新管道中都有作用。在 价值管道中,测试监视流经数据工厂的数据值以捕获异常数据或标记超出统计规范的数据值。在创新管道中,在部署新分析之前进行测试验证。

在DataOps 中,测试针对数据或代码。在最近的一篇博客中,我们使用图 9 讨论了这个概念。流经价值管道的数据是可变的,并受制于统计过程控制和监控。测试特别针对不断变化的数据。另一方面,价值管道中的分析(仪)是固定的,只能使用正式的发布流程进行更改。在价值管道中,分析(仪)被固定和控制,目标是尽量减少任何可能影响数据工厂的服务中断。

在创新管道中,代码是可变的,数据是固定的。分析被修改和更新直到完成。一旦设置了沙箱,数据通常不会改变。在创新管道中,测试针对的是代码(分析),而不是数据。在将新代码提升(合并)到生产中之前,所有测试都必须通过。一个好的测试套件可以作为自动化形式的影响分析,在部署之前对任何和每个代码更改进行运行。

一些测试同时针对数据和代码。例如,确保数据库具有正确行数的测试有助于您的数据和代码协同工作。最终,数据测试和代码测试需要在一个集成管道中结合在一起,如图 5 所示。DataOps 使代码和数据测试能够协同工作,从而保持高品质。 

5074689d73805260beed378a8a0c6365.png

图 9:在数据运维DataOps 中,分析(仪)质量是数据和代码测试的函数

DataOps 的复杂性 — 沙盒管理

当工程师加入软件开发团队时,他们的第一步就是创建一个“沙箱”。沙箱是一个隔离的开发环境,工程师可以在其中编写和测试新的应用程序功能,而不会影响正在并行开发其他功能的团队成员。软件开发中的沙箱创建通常很简单——工程师通常会从队友那里收到一堆脚本,并且可以在一两天内配置一个沙箱。这是使用DevOps 团队的典型心态。

从工具和数据的角度来看,数据分析中的沙箱通常更具挑战性。首先,与典型的软件开发团队相比,数据团队总体上倾向于使用更多的工具。数据工程、数据科学、商业智能BI、数据可视化和治理数以千计的工具、语言和供应商。如果没有大多数软件开发团队所特有的集中化,数据团队自然而然地会因分散在整个企业中的不同工具和数据岛而产生分歧。

0a7b8442018b9377a023f5188773ffbb.png

图 10:“沙箱”是一个孤立的开发环境,数据专业人员可以在其中编写和测试新的分析(仪),而不会影响团队成员。

DataOps的复杂性——测试数据管理

为了创建用于分析的开发环境,您必须创建数据工厂的副本。这需要数据专业人员复制可能具有安全性、治理或许可限制的数据。复制整个数据集可能不切实际或成本高昂,因此需要一些思考和审慎措施来构建具有代表性的数据集。一旦采样或过滤了太多字节的数据集,就可能需要对其进行清理或编辑(删除敏感信息)。数据还需要基础设施,由于技术障碍或许可限制,这些基础设施可能不容易复制。

b5d293c19b1237e0bb75e59f19916d55.png

图 11:测试数据管理的概念是 DataOps 中的首要(或一级)问题。

测试数据管理的概念是DataOps 中的首要问题,而在大多数DevOps 环境中,它是事后的想法。为了加速分析(仪)开发,DataOps 必须使用所需的数据、软件、硬件和库自动创建开发环境,以便创新与敏捷迭代保持同步。

DataOps 以两种方式连接到组织机构

DevOps 致力于帮助开发和运营(信息技术)团队以集成方式协同工作。在DataOps 中,这个概念如图 12 所示。开发团队是分析师、科学家、工程师、架构师和其他创建数据仓库和分析的人员。

在数据分析中,运营团队支持和监控数据管道。这可以是 IT,但也包括客户——创建和使用分析(仪)的用户。DataOps 将这些团队聚集在一起,以便他们可以更紧密地合作。

9318673fb4e29d962efd123f6e49faf4.png

图 12:数据运维DataOps 结合了数据分析开发和数据运营。

自由与中心化

DataOps 还将组织机构从另一个维度整合在一起。大量数据分析开发发生在企业的偏远角落,靠近业务部门,使用 Tableau、Alteryx 或 Excel 等自助服务工具。这些从事去中心化、分布式分析创建的本地团队在向用户提供创新方面发挥着至关重要的作用。给这些具备创造力的小组赋能可以保持企业的竞争力,但坦率地说,缺乏自上而下的控制会导致无法管理的混乱。

在一组人(例如 IT)的控制下集中分析开发,将给组织赋能,使组织能够标准化指标、控制数据质量、实施安全和治理并消除数据孤岛。问题是过于集中会扼杀创造力。

8988daac72fe27fc36ea653d1344bc19.png

图 13:数据运维DataOps 将集中式和分布式开发结合在一起

DataOps的一项重要优势是它能够协调在数据分析的分散和集中开发之间往返穿梭--集权和自由之间的紧张关系。在DataOps 企业中,新的分析源自本地创新领域并进行改进。当一个想法被证明有用或值得更广泛地传播时,它会被提升到一个集中的开发团队,该团队可以更高效、更稳健地大规模实施它。

DataOps 将局部(本地化)开发和集中式开发结合在一起,使组织能够在保持本地化(局部)开发的同时获得集中化的效率——即创新之矛的尖端。DataOps 将企业整合到两个维度中,如图 14 所示——开发/运营以及分布式/集中式开发。

90f752027a817697d4730cb6f28eb925.png

图 14:数据运维DataOps 将团队聚集在两个维度 - 开发/运营以及分布式/集中式开发。

DataOps 为组织中的核心团队带来了三个创新周期:集中的生产团队、集中的数据工程/分析/科学/治理开发团队,以及使用自助服务工具的团队及分布到离客户最近的业务线。图 15 显示了创新的连锁周期。图 15:DataOps 在生产、中央数据和自助服务团队之间带来三个创新循环。

672762f04b9dc710f0cbffb69e33830b.png

图 15:DataOps 带来了生产、中央数据和自助服务团队之间的三个创新循环

企业示例——数据分析生命周期的复杂性

在高层次上检查了 DataOps 开发过程后,让我们看看企业环境中的开发生命周期。图 15 说明了从开始到生产的分析进程的复杂性。分析首先由个人创建和开发,然后合并到团队项目中。完成单元验收测试 (UAT) 后,分析(仪)进入生产。DataOps 的目标是在个人开发环境中创建分析(仪),并进入生产环境,接收用户的反馈,然后通过进一步的迭代不断改进。由于人员、工具、代码、版本、手工规程流程/自动化、硬件、操作系统/库和目标数据的差异,这可能具有挑战性。图 15 中的列显示了这四种环境中每一种的不同特征。

如果没有DataOps,在这四种完全不同的环境中将分析(仪)推向生产是挑战艰巨的。它需要手工操作和脚本的拼凑,而这些脚本本身就很难管理。人工过程容易出错,因此数据专业人员通过长时间工作来弥补,错误地依靠一厢情愿和英雄主义来取得成功。所有这些都会导致不必要的复杂性、混乱并且浪费了大量的时间和精力。图 15 中显示的生命周期进展缓慢,加上进入生产环境的严重错误,数据分析团队几乎没有时间进行创新。

96e2cb9bf44f6f77a6a25b6fa0cf47d5.png

数据分析(仪)开发生命周期的复杂性

DataOps的实施

DataOps简化了数据分析(仪)创建和操作的复杂性。它使数据分析(仪)开发与用户优先事项保持一致。它简化并自动化了分析(仪)开发生命周期——从沙箱的创建到部署。DataOps 控制和监控数据工厂,因此数据质量保持高水平,使数据团队专注于增加价值。

您可以通过实施这七个步骤开始使用DataOps。您还可以采用DataOps 平台,该平台将在您现有工具和基础架构的环境中支持DataOps 方法。

DataOps 平台可自动执行构成DataOps的步骤和流程:沙箱管理、编排、监控、测试、部署、数据工厂、仪表盘、敏捷性方法学等。DataOps平台专为数据专业人员构建,其目标是将他们所需的所有工具、步骤和流程简化为易于使用、可配置的端到端系统。这种高度自动化消除了大量手动工作,让团队腾出时间来创建新的创新分析(仪),从而最大限度地提高组织数据的价值。

(篇幅有限,仅展示部分内容)

扫描下方二维码,获取全文阅读

93573d93522c97b587d6a6f08954aadb.png

 - FIN -

9e149a36d9eb0d1786d8a022752cac65.png

更多精彩推

  • DataOps:不仅仅是数据的DevOps | 收藏

  • 一文读懂 | 数据中台如何为企业赋能?

  • 对话智领云CTO宋文欣:读懂云原生时代的数据中台

  • “云原生数据中台”正在成为智领云的一个重要标签

  • 为什么说数据管理的下一步是DataOps | 内附视频回放

👇获取全文内容,点击“阅读原文


推荐阅读
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 本文探讨了现代分布式架构的多样性,包括高并发、多活数据中心、容器化、微服务、高可用性和弹性架构等,并介绍了与这些架构相关的重要管理技术,如DevOps、应用监控和自动化运维。文章还深入分析了分布式系统的核心概念、主要用途及类型,同时对比了单体应用与分布式服务化的优缺点。 ... [详细]
  • Spring Cloud因其强大的功能和灵活性,被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现,还被广泛应用于企业级生产环境中。本书内容详实,覆盖了从微服务基础到Spring Cloud的高级应用,适合各层次的开发者。 ... [详细]
  • 热璞数据库与云宏达成兼容性互认证,共筑数据安全屏障
    热璞数据库与云宏信息技术有限公司近期宣布完成产品兼容性互认证,旨在提升数据安全性与稳定性,支持企业数字化转型。 ... [详细]
  • 自SQL Server 2005以来,微软的这款数据库产品逐渐崭露头角,成为企业级应用中的佼佼者。本文将探讨SQL Server 2008的革新之处及其对企业级数据库市场的影响。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • Spring Cloud学习指南:深入理解微服务架构
    本文介绍了微服务架构的基本概念及其在Spring Cloud中的实现。讨论了微服务架构的主要优势,如简化开发和维护、快速启动、灵活的技术栈选择以及按需扩展的能力。同时,也探讨了微服务架构面临的挑战,包括较高的运维要求、分布式系统的复杂性、接口调整的成本等问题。最后,文章提出了实施微服务时应遵循的设计原则。 ... [详细]
  • 本文介绍了Java语言开发的远程教学系统,包括源代码、MySQL数据库配置以及相关文档,适用于计算机专业的毕业设计。系统支持远程调试,采用B/S架构,适合现代教育需求。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 解读 DevOps:开发与运维的融合之道
    近年来,随着信息技术的快速发展,DevOps作为一种新的IT管理理念逐渐受到重视。本文将探讨DevOps的核心概念及其对现代企业的重要意义。 ... [详细]
  • 本文详细探讨了虚拟化的基本概念,包括服务器虚拟化、网络虚拟化及其在云计算环境中的应用。特别强调了SDN技术在网络虚拟化和云计算中的关键作用,以及网络虚拟化技术如何提升资源利用效率和管理灵活性。 ... [详细]
  • 作为一门广受赞誉的编程语言,Python因其简洁性和强大的功能,在Web开发、游戏设计、人工智能、云计算、大数据处理、数据科学、网络爬虫及自动化测试等多个领域得到广泛应用。本文将介绍2018年最受欢迎的五款Python框架,帮助开发者更好地选择合适的工具。 ... [详细]
author-avatar
情若自已_650
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有