热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

送5本书|企业级数据中台的建设方法、架构和技术栈

多数企业都意识到数据的重要性,都希望利用数据来驱动业务发展。但经常会听到这样一句话:“我们企业现在业务都还没做起来,连数据都没有ÿ

多数企业都意识到数据的重要性,都希望利用数据来驱动业务发展。但经常会听到这样一句话:“我们企业现在业务都还没做起来,连数据都没有,还不到考虑数据利用的时候。”

这句话在某种程度上代表了一部分企业对于数据利用的认知,即数据利用从先有数据开始。

而数据是在应用建设后存到数据库里的,所以先建设应用,然后等数据库里有了数据后,再考虑如何利用数据。

听上去,这个逻辑完全正确。但其实这就是很多企业对于数据利用的误解,即先建设应用,再考虑数据利用。

如果用这样的思路建设,过了一年以后,这个企业就会立刻提出新的问题:“多个应用系统之间的数据打不通,对不齐,不一致,数据用不起来。”这种误解,从根本上说是没有充分理解数据利用的两个本质。

PART ONE

建设方法论

第一,数据是客观存在的,不取决于企业建不建设应用。

一个企业,只要业务在运行,哪怕没有建设任何系统,数据都在实时产生,只是没有把它采集起来而已。

数据是业务在数字化世界里的原子,业务流程和行为会时刻产生各种数据,而不是必须要建设应用数据才产生。

举一个例子,当快递员接到一个快递订单的时候,发件人、收件人、货物类别、发货地、运输工具类型、距离等数据就已经产生。

信息化系统的支持只是改变了这些数据的记录和传递的手段,是一张纸还是一个网络而已。这些数据是客观存在的,不会因为信息化系统本身而改变。

企业要从本质上认知到,数据是业务在数字化世界里的投影模型,它是业务的镜像,是客观存在的。只要有业务,那么就存在对应的数据。应用只是把数据通过软件采集到存储设备里而已。

第二,数据利用的规划要早于应用和流程的建设。

在建房子之前,要做整体设计,规划各种利用场景,只有这样才能设计出一个符合预期的房子。

现在,每个企业都意识到,数据是企业的核心资产,应用是采集和利用这些资产的工具。

为了数据在采集后得到充分的利用,每个企业必须在规划应用和流程之前,完成数据利用的规划。

这就包括企业的数据资产目录的规划,数据利用场景的规划,数据存储的规划,处理分析数据的技术平台的规划等。

企业构建数据驱动的架构体系,既是一个技术工作,也是对企业组织和文化的升华。

企业进行顶层设计,需要从一把手的视角进行规划,看到整个企业的痛点,打通企业运营的七经八脉。建议企业在组织上配套建立平行于IT的数据管理组织,赋予组织更多的预算和决策权力。

数据管理组织不仅要承担企业数据驱动的技术和业务落地,同时也要推动企业数据驱动的文化建设,帮助业务部门在决策上基于数据“说话”。

在规划、组织、文化上的思路统一后,一般来说企业数据驱动的转型和执行就不会有大的偏差。在实施上选择更靠谱的供应商,更先进和更开放的技术,可以帮助企业少走弯路,直奔目标。

在做数据项目之前,企业首先要找到一套符合自身特性的建设方法论,才能不走弯路,不掉入中台项目实施的“陷阱”。

用友集合了多年信息化发展经验,总结了一套适合大中型企业的数据中台规划方法论。

结合数据中台项目的核心内容,企业可以制定合理的建设方案。

(1)数据资产管理。盘点数据资源、规划数据资源、获取数据资源,并将所有资源进行完整呈现。企业可根据数据资源规划报告指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。

(2)数据管理分析平台的搭建。按照数据资产梳理结果,落地搭建企业级的大数据平台,获取相关的数据,并搭建相应的技术平台。

(3)数据指标体系的建立。对用户、产品、客商、营销等各主题域进行标签提取,将其特征数字化,为后续进行精准营销和客户画像提供必要条件。搭建企业标签体系,着重分析当前需要但是无法获取的指标,描述使用不便的指标,分析问题原因,绘制数据供应链条。

(4)数据治理。从基础数据、业务数据、大数据视角综合分析当前的数据质量问题,建立相应的组织、设定相应的流程,对数据资产进行管理。

(5)数据可视化应用。基于当前外部数据、IoT数据、非结构和半结构化数据进行大数据应用的规划,并论证实现过程和成本评估。数据可视化应用一旦评估通过可以帮助企业进行大数据应用的完整开发和落地。数据可视化应用可以描述数据背后的价值,在最短的时间内用最具冲击力的视觉语言,将企业最重要的数据/信息传递给最重要的人。

PART TWO

技术架构

数据中台应该采用什么样的技术架构?

首先,要充分意识到数据中台是一个企业加工生产数据的业务系统,不是一个传统意义的技术平台,而是一个生产系统。

它的生产资料是数据,它的产品是对业务产生洞察和价值的服务。这跟企业的业务目标、行业领域、文化结构、流程体系等因素紧密相关。

所以数据中台一定不是一个可以一次性购买部署的套装软件,它是一个为企业的业务目标服务量身定制的系统。

其次,它紧密跟随着企业的业务战略,所以它是一个演进式架构,在不同的阶段、不同的领域,会采用不同的技术选型。

从用友的实践来看,企业的数据系统,正从原来数据仓库的封闭架构走向开放架构。

企业的数据中台是开放平台,是一个建立在演进式架构之上的开放平台。传统数据仓库架构已不能满足企业数智化转型的需求。

企业在数据应用上呈现“五大转变”,从统计分析向预测分析转变、从单领域分析向跨领域分析转变、从被动分析向主动分析转变、从非实时分析向实时分析转变、从结构化数据向多元化数据转变。

并且企业对统一的数据中台有强烈诉求,对数据中台的运算能力、核心算法及数据全面性提出了更高的要求。

数据中台的技术架构在发生变化。

一是以Hadoop、Spark等分布式技术和组件为核心的“计算和存储混搭”的数据处理架构在成熟,它们能够支持批量和实时的数据加载及灵活的业务需求。

二是数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。

而大数据背景下的架构体系是ELT结构,可以根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。用友数据中台技术架构如图所示。

数据中台在整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,通过多租户技术进行资源打包整合和开放,并通过微服务的方式为用户提供“一站式”数据服务。

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合。

企业基于自身的信息化建设基础、数据基础及业务特点对数据中台的能力进行定义,最后基于能力的定义并利用数据组件来搭建自己的数据中台。

PART THREE

技术栈

了解数据中台技术架构每个部分的位置、功能和含义能让企业更好地了解数据产品的范围和边界,技术实现的效果和更好的实现方式。

另外,很多技术的设计理念对认知世界、了解复杂系统也有所裨益。

一般来说,从数据中台的角度,我们将数据整个链条区分为四个环节:数据采集&传输、数据存储、数据计算&查询、数据可视化及分析。

数据中台技术堆栈框架如图所示。

本文摘自《数字化中台》一书,更多关于企业级数据中台的建设问题请阅读此书哦!

限时五折专享

快快扫码抢购吧!

抽奖!!!


推荐阅读
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 寻求更强大的身份和访问管理(IAM)平台的企业正在转向云,并接受身份即服务(IDaaS)的灵活性。要为IAM选择正确的场外解决方案,业务管理人员和IT专业人员必须在实施之前评估安全 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析
    Hdfs的数据模型在对读写流程进行分析之前,我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示,在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]
author-avatar
狂风
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有