热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DEEPNOVA技术荟系列公开课回顾:释放海量数据价值,尽显数据智能之美

(扫描图片二维码,回看公开课精彩视频)数字化浪潮席卷全球。在这个一切皆可智能化的时代,数据正在成为产业发展基本业务单元和重要

(扫描图片二维码,回看公开课精彩视频)

数字化浪潮席卷全球。在这个一切皆可智能化的时代,数据正在成为产业发展基本业务单元和重要资产,数据经营能力也成为了企业发展的关键能力。

数据智能通过分析数据获得价值,将原始数据加工为信息和知识,进而转化为决策或行动,已成为推动数字化转型不可或缺的关键技术。如何利用数据来满足未来更加多维的业务场景需求,成为企业业务能否推进所必须解决的问题。

面对此问题,近日滴普科技FastData产品线总裁杨磊开启了《数据智能技术前沿与挑战——以开放心态迎接高密度数据场景新挑战》演讲,我们或许能从中探寻一二。


数据平台工程化成为企业发展关键

伴随5G、大数据、AI、IoT的发展,数据呈现大规模、多样性的极速增长态势。为了应对多变的业务诉求,高密度数据应用场景对于数据平台提出了新的要求。

在数据类型方面,新兴业务场景不断涌现,非结构化、半结构化的数据逐渐增多,单一的数据库已难以匹配日益增长的数据复杂度需求。而且,现在整个数据密度的发展非常快,很多企业中已经从几百GB数据变成PB级别的数据处理场景。数据趋势方面,从来源的多样化、数据量和数据类型增多,向云化方式提供的数据服务趋势演进。

除了以上几种情况,在数据处理方面也面临着变化。传统的大数据架构技术复杂。例如:在实际应用过程中,多种数据类型扩展方面非常困难;流式处理实时性差;难以适应多云、混合云等不同的基础设施;集群升级和运维困难,为企业业务带来了IT架构扩展难的问题。

“随着技术及应用的发展,现代数据架构正在往流批一体、湖仓一体方向演进。”杨磊讲到,主要体现在四点:第一,数据类型可扩展,多模态,需要结合存算分离模式使得计算从数据中“解放”出来。第二,端到端的流式处理能力,也逐渐成为企业在生产和运营过程中所需要的能力之一。第三,基于云原生容器化技术的应用,需要做到的是如何通过云原生的方式能够简化部署,实现跨云服务能力。最后就是数据的完整性问题,治理体系能力的建设是否完整。

正是基于这些要求,在数据架构方面,企业需要建立许多不同的架构平台,如数据仓库、数据工程、流处理,和数据科学/ML来处理不同的数据工作,由于它们是不同的技术,通常不能良好地协同工作。

在企业业务发展的过程中,IT架构也在不断增大及复杂化。在这个过程中,业务方面需要某一个数据时,就需要多种角色的技术人员来处理,而这些角色也可能面临着相互重叠的可能性。一系列的问题就导致,企业在使用数据的过程中,变得非常低效和困难。

面对数据类型多,平台能力多及基础设施多的三大挑战下,针对数据平台工程化方面创新发展上的要求,杨磊分别从数据特点、技术债务、平台能力、扩展和演进四个方面做了阐述。

以数据特点为例,数据的时效性正逐渐从T+1到T+0的方向发展,在数据类型方面,半结构和非结构正成为主流。正如前文所提到的,现在的数据存量和数据增量成指数级增长。


湖仓一体是核心,分层能力是关键

课程中,杨磊通过几个典型企业数据平台为我们介绍了业内不同类型的数据平台形态。首先就是Snowflake 。Snowflake 是从先建数据仓库,之后再向数据湖延伸。从原先解决结构化数据能力向半结构化数据能力演进。把ML能力集成到数仓中,来解决一些ML相关联的一些操作。

Databricks作为数仓一体的代表,它是基于Databricks引擎统一的数据湖,基于数据湖构建数据仓库。因数据湖具有分析能力,就能轻松解决结构化、半结构化和非结构化的数据的一些问题。同时加入多种引擎,可以实现统一SQL、Spark Dataframe和Keales。

FastData 是滴普科技推出的云原生数据智能平台,它和Snowflake Cloud Data Platform是同一种方式。先建立数据湖能力,通过在数据湖上面建立数据仓库,底层是利用Iceberg进行一个能力提升,中间层是应用Flink和Trino能力。而且,FastData 是全面拥抱开源的。

杨磊讲到,从三个数据平台形态可以看出,最终都是归为数仓一体。不仅如此,不同的数据平台产品,从存储引擎、多样性计算引擎,到最后的查询接口,也都体现出一个分层能力。


FastData:一站式云原生数据智能平台

FastData,主要是服务于企业建立流批一体和湖仓一体的数据存储计算平台和数据科学分析平台。

FastData采用了分层架构,主要由实时PB级数据引擎DLink、数据智能开发平台DataFacts、数据科学分析平台DataSense,以及数据资产管理和运营平台DXP组成。整个架构的目标就是有效保障稳态业务规模化数据分析场景和敏捷业务的创新数据分析场景。

杨磊介绍到,作为FastData的核心数据引擎DLink,它基于 Iceberg、Flink 和Trino 技术栈,提供多种数据类型的统一存储能力,支持高质量的流批一体数据整合,包括海量数据存储处理、多样数据格式与来源、新数据高速产出、数据解释可变性高、数据遵循流畅一致性强、可供消费数据波动性高等特点。

DLink融合了实时数仓和数据湖服务,采用存算分离架构,弹性扩容、高并发、低延时,支持PB级多模数据存储与处理,无缝连接大数据生态,提供一站式的数据探索、实时开发、数据分析和数据科学/ML,满足BI、实时看板等应用需求。


从开源中来,到开源中去

我们知道,开源虽然解决了功能性问题,但工程性问题并没有得到解决。杨磊表示,滴普在进行专业的数据工程化创新的同时,也在拥抱开源生态,致力于打造 DEEPNOVA 开发者社区。

DEEPNOVA 开发者社区是面向技术开发者的交流学习、生态共创平台,目的是促进圈层交流,学习互助,开拓技术视野;建立技术生态,合作共赢。DEEPNOVA 是由 DEEPEXI+SUPERNOVA 组合而成,包含了滴普科技的“建社心愿”—— 滴普科技为技术开发者打造的一颗超新星。

杨磊讲到,DEEPNOVA希望打造的湖仓一体平台能够开放给DEEPNOVA 社区,大家能够有更多的发挥空间,能够利用DEEPNOVA的开源产品解决实际的场景落地问题。目前DEEPNOVA已经将Iceberg、Flink和Trino等内部已实现的优势能力提供出来,帮助社区用户解决社区版本在面向商业应用的过程中所遇到的痛点问题。

正是基于开源的底层逻辑,DEEPNOVA提出了open data stack概念。杨磊解释道,DEEPNOVA认为数据能力是要全面开放的,包括数据集成能力、数据存储、数据运维等。全面开放的好处就是能够让更多的社区用户一起协作发现问题、解决问题,并且帮助社区用户在他们的商业项目和研究中发挥作用。“这也是open data stack的初衷!”杨磊说道。

我们不难发现,在“数据 + 算力 + 算法”定义的新时代,数据已成为企业核心价值的新定义。谁拥有了数据,谁就拥有了未来!企业只有当数据和应用能够灵活运用时,才能实现真正的商业价值。


推荐阅读
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • 从用户转型为开发者:一场思维升级的旅程 | 专访 StarRocks Committer 周威
    从用户转变为开发者,不仅是一次角色的转换,更是一场深刻的思维升级之旅。本次专访中,StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式,为开源社区贡献自己的力量。 ... [详细]
  • 在《Cocos2d-x学习笔记:基础概念解析与内存管理机制深入探讨》中,详细介绍了Cocos2d-x的基础概念,并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解,例如在处理鱼的运动过程中,可以通过编写自定义函数来动态计算角度变化,利用CallFunc回调机制实现高效的游戏逻辑控制。此外,文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
  • 深入解析CAS机制:全面替代传统锁的底层原理与应用
    本文深入探讨了CAS(Compare-and-Swap)机制,分析了其作为传统锁的替代方案在并发控制中的优势与原理。CAS通过原子操作确保数据的一致性,避免了传统锁带来的性能瓶颈和死锁问题。文章详细解析了CAS的工作机制,并结合实际应用场景,展示了其在高并发环境下的高效性和可靠性。 ... [详细]
  • 低代码平台破解“最后一公里”交付难题
    IDC预计,未来所有企业都将转型为数据驱动型组织,这意味着企业的运营、管理和决策将全面依赖数据。然而,当前超过90%的数据是非结构化数据,这给内容协作和数据处理带来了巨大挑战。低代码平台通过简化开发流程,有效解决了这一“最后一公里”的交付难题,帮助企业更高效地实现数据驱动的转型。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • (1)前期知识:1. 单机架构:单一服务器计算机——其处理能力和存储容量有限。2. 集群架构(负载均衡器与多节点服务器)——通过增加节点数量来提升系统性能和可靠性,实现高效的任务分配和资源利用。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • MemFireDB 在实时高并发的在线事务处理(OLTP)系统中表现出色。随着移动互联网、电商和社交应用等领域的迅猛发展,传统单机关系型数据库(如MySQL)或分库分表架构已难以满足日益增长的性能需求。MemFireDB 通过其高效的内存计算能力和灵活的分布式架构,能够显著提升系统的响应速度和处理能力,确保在高负载情况下依然保持稳定性和可靠性。此外,MemFireDB 还支持复杂的查询操作和事务管理,适用于需要高性能和低延迟的应用场景。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
author-avatar
拍友2702938227
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有