热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

送5本书|企业级数据中台的建设方法、架构和技术栈

多数企业都意识到数据的重要性,都希望利用数据来驱动业务发展。但经常会听到这样一句话:“我们企业现在业务都还没做起来,连数据都没有ÿ

多数企业都意识到数据的重要性,都希望利用数据来驱动业务发展。但经常会听到这样一句话:“我们企业现在业务都还没做起来,连数据都没有,还不到考虑数据利用的时候。”

这句话在某种程度上代表了一部分企业对于数据利用的认知,即数据利用从先有数据开始。

而数据是在应用建设后存到数据库里的,所以先建设应用,然后等数据库里有了数据后,再考虑如何利用数据。

听上去,这个逻辑完全正确。但其实这就是很多企业对于数据利用的误解,即先建设应用,再考虑数据利用。

如果用这样的思路建设,过了一年以后,这个企业就会立刻提出新的问题:“多个应用系统之间的数据打不通,对不齐,不一致,数据用不起来。”这种误解,从根本上说是没有充分理解数据利用的两个本质。

PART ONE

建设方法论

第一,数据是客观存在的,不取决于企业建不建设应用。

一个企业,只要业务在运行,哪怕没有建设任何系统,数据都在实时产生,只是没有把它采集起来而已。

数据是业务在数字化世界里的原子,业务流程和行为会时刻产生各种数据,而不是必须要建设应用数据才产生。

举一个例子,当快递员接到一个快递订单的时候,发件人、收件人、货物类别、发货地、运输工具类型、距离等数据就已经产生。

信息化系统的支持只是改变了这些数据的记录和传递的手段,是一张纸还是一个网络而已。这些数据是客观存在的,不会因为信息化系统本身而改变。

企业要从本质上认知到,数据是业务在数字化世界里的投影模型,它是业务的镜像,是客观存在的。只要有业务,那么就存在对应的数据。应用只是把数据通过软件采集到存储设备里而已。

第二,数据利用的规划要早于应用和流程的建设。

在建房子之前,要做整体设计,规划各种利用场景,只有这样才能设计出一个符合预期的房子。

现在,每个企业都意识到,数据是企业的核心资产,应用是采集和利用这些资产的工具。

为了数据在采集后得到充分的利用,每个企业必须在规划应用和流程之前,完成数据利用的规划。

这就包括企业的数据资产目录的规划,数据利用场景的规划,数据存储的规划,处理分析数据的技术平台的规划等。

企业构建数据驱动的架构体系,既是一个技术工作,也是对企业组织和文化的升华。

企业进行顶层设计,需要从一把手的视角进行规划,看到整个企业的痛点,打通企业运营的七经八脉。建议企业在组织上配套建立平行于IT的数据管理组织,赋予组织更多的预算和决策权力。

数据管理组织不仅要承担企业数据驱动的技术和业务落地,同时也要推动企业数据驱动的文化建设,帮助业务部门在决策上基于数据“说话”。

在规划、组织、文化上的思路统一后,一般来说企业数据驱动的转型和执行就不会有大的偏差。在实施上选择更靠谱的供应商,更先进和更开放的技术,可以帮助企业少走弯路,直奔目标。

在做数据项目之前,企业首先要找到一套符合自身特性的建设方法论,才能不走弯路,不掉入中台项目实施的“陷阱”。

用友集合了多年信息化发展经验,总结了一套适合大中型企业的数据中台规划方法论。

结合数据中台项目的核心内容,企业可以制定合理的建设方案。

(1)数据资产管理。盘点数据资源、规划数据资源、获取数据资源,并将所有资源进行完整呈现。企业可根据数据资源规划报告指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。

(2)数据管理分析平台的搭建。按照数据资产梳理结果,落地搭建企业级的大数据平台,获取相关的数据,并搭建相应的技术平台。

(3)数据指标体系的建立。对用户、产品、客商、营销等各主题域进行标签提取,将其特征数字化,为后续进行精准营销和客户画像提供必要条件。搭建企业标签体系,着重分析当前需要但是无法获取的指标,描述使用不便的指标,分析问题原因,绘制数据供应链条。

(4)数据治理。从基础数据、业务数据、大数据视角综合分析当前的数据质量问题,建立相应的组织、设定相应的流程,对数据资产进行管理。

(5)数据可视化应用。基于当前外部数据、IoT数据、非结构和半结构化数据进行大数据应用的规划,并论证实现过程和成本评估。数据可视化应用一旦评估通过可以帮助企业进行大数据应用的完整开发和落地。数据可视化应用可以描述数据背后的价值,在最短的时间内用最具冲击力的视觉语言,将企业最重要的数据/信息传递给最重要的人。

PART TWO

技术架构

数据中台应该采用什么样的技术架构?

首先,要充分意识到数据中台是一个企业加工生产数据的业务系统,不是一个传统意义的技术平台,而是一个生产系统。

它的生产资料是数据,它的产品是对业务产生洞察和价值的服务。这跟企业的业务目标、行业领域、文化结构、流程体系等因素紧密相关。

所以数据中台一定不是一个可以一次性购买部署的套装软件,它是一个为企业的业务目标服务量身定制的系统。

其次,它紧密跟随着企业的业务战略,所以它是一个演进式架构,在不同的阶段、不同的领域,会采用不同的技术选型。

从用友的实践来看,企业的数据系统,正从原来数据仓库的封闭架构走向开放架构。

企业的数据中台是开放平台,是一个建立在演进式架构之上的开放平台。传统数据仓库架构已不能满足企业数智化转型的需求。

企业在数据应用上呈现“五大转变”,从统计分析向预测分析转变、从单领域分析向跨领域分析转变、从被动分析向主动分析转变、从非实时分析向实时分析转变、从结构化数据向多元化数据转变。

并且企业对统一的数据中台有强烈诉求,对数据中台的运算能力、核心算法及数据全面性提出了更高的要求。

数据中台的技术架构在发生变化。

一是以Hadoop、Spark等分布式技术和组件为核心的“计算和存储混搭”的数据处理架构在成熟,它们能够支持批量和实时的数据加载及灵活的业务需求。

二是数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。

而大数据背景下的架构体系是ELT结构,可以根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。用友数据中台技术架构如图所示。

数据中台在整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,通过多租户技术进行资源打包整合和开放,并通过微服务的方式为用户提供“一站式”数据服务。

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合。

企业基于自身的信息化建设基础、数据基础及业务特点对数据中台的能力进行定义,最后基于能力的定义并利用数据组件来搭建自己的数据中台。

PART THREE

技术栈

了解数据中台技术架构每个部分的位置、功能和含义能让企业更好地了解数据产品的范围和边界,技术实现的效果和更好的实现方式。

另外,很多技术的设计理念对认知世界、了解复杂系统也有所裨益。

一般来说,从数据中台的角度,我们将数据整个链条区分为四个环节:数据采集&传输、数据存储、数据计算&查询、数据可视化及分析。

数据中台技术堆栈框架如图所示。

本文摘自《数字化中台》一书,更多关于企业级数据中台的建设问题请阅读此书哦!

限时五折专享

快快扫码抢购吧!

抽奖!!!


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • 本文详细介绍了Java代码分层的基本概念和常见分层模式,特别是MVC模式。同时探讨了不同项目需求下的分层策略,帮助读者更好地理解和应用Java分层思想。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • REST与RPC:选择哪种API架构风格?
    在探讨REST与RPC这两种API架构风格的选择时,本文首先介绍了RPC(远程过程调用)的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法,从而实现分布式系统的功能调用。相比之下,REST(Representational State Transfer)则基于资源的交互模型,通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点,帮助开发者根据具体需求做出合适的选择。 ... [详细]
  • 老杨谈IT运维 | 快速实现日志异常检测与根源分析
    在智能运维领域,指标和日志是最常用的数据来源,能够有效反映系统的运行状况和健康状态。通过对这些数据的深入分析,可以为监控和告警系统提供关键信息,帮助快速实现日志异常检测与根源分析,提升整体运维效率。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • DAO(Data Access Object)模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法,它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
author-avatar
狂风
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有