热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

CIO:提升数据分析能力,助力企业数字化转型

来源:CIO发展中心十年前,全球市值最高的Top10公司大多来自石油、银行、汽车等传统行业。而十年后的今天,亚马逊、Facebook、阿里巴巴、腾讯等一跃超过了十年前排名第一的艾克

来源:CIO发展中心

十年前,全球市值最高的 Top10 公司大多来自石油、银行、汽车等传统行业。而十年后的今天,亚马逊、Facebook、阿里巴巴、腾讯等一跃超过了十年前排名第一的艾克森美孚。不难发现,数据是这些企业的核心资产。大数据可以帮助企业制定切实可行的战略规划,获取客户洞察,支持客户购买行为,并构建新的业务模式,进而赢得竞争优势。

 

成功的企业数字化案例显然有自己的共同点:重视数据质量、重视数据上下文、以及建立有效的数据管理***。而失败的企业则各有各的问题。


CIO:提升数据分析能力,助力企业数字化转型


一、只做数据集中,并没有对数据进行整合


数据整合是当今数据分析面临的最大挑战。实际上,许多公司只是简单地将数据堆积在一起,并未对不同来源的数据进行整合。就拿身份认定来说,比如一套系统下“路人A”的信息与另一套系统下“路人A”(甚至可能是重名)的信息之间,没有进行关联,这样的话,就无法对“路人A”的身份进行完整性描述。数据整合并不等于将数据集中到一起,对于研究对象,要将不同来源的数据相互关联,以便获取更准确的信息定位。并且数据科学家会通过数据来寻找并分析竞争优势,可能的企业新的突破点等等,因此,数据整合也变得越发重要。

 

二、忽视了不同业务对数据的需求差别


整合的集成数据技术对于一个成功的分析程序是至关重要的,必须要意识到不同业务部门对数据的需求是不同的,数据的形式不能千篇一律。相反,还需要考虑数据供给,IT部门需要将业务类型与数据形式相匹配。并不是所有的业务都需要整合过后的数据。以金融机构的众多需求为例,风控部门需要未经处理的原始数据,以从中发现异常。比如通过搜寻多组数据中某个人地址信息的,确定其是否申请了多笔贷款等。另一方面,诸如市场部等部门希望实现准确的用户信息定位,因此只需要其中正确的那组数据。

 

三、数据工程师可能比数据科学家更重要


数据科学家这个职业在过去几年中正迅速抢占硅谷、纽约、中关村、西二旗的各大互联网公司。一大批传统企业也开始设置这个职位,并且大批招募。


毕竟,每个公司都希望通过势头正盛的新兴技术使业务分析具有一定的预测性和分析说明,这需要专业团队和人员的支持。但通常,这些公司挂出的招募岗位只有数据科学家这一种。


这是远远不够的。数据科学家需要数据工程师来收集数据集,但是,数据工程师这一职位,在许多公司没有受到应有的重视。

 

四、缺乏对数据时效性和生命周期的管理


近十年来,随着数据存储成本不断降低,IT部门可以将大量数据存储起来,并保存很长的时间。对于不断增长的数据量和数据分析需求来说,这是个好消息。


公司都希望拥有大量数据,但许多企业都将数据留存的过久。这不仅仅是存储成本的问题,超过十年的数据基本没有时效性了。


数据要被赋予生命周期。数据留存期限要根据不同部门、不同组织来确定。例如,零售行业需要的是即时和相关的数据,而市场部门需要多年来的历史数据以探寻趋势。这需要IT部门根据不同部门的需求,制定一套明确的数据时效标准,从而确保数据的有效性。

 

CIO:提升数据分析能力,助力企业数字化转型


五、只关注数据量而忽视数据相关性


数据分析师总喜欢用最容易获得的数据进行建模与分析,而不是最相关的。这是目前公司或组织普遍存在的一个误区。或许,在寻找更多的数据集之前,应该先想想数据是否相关,而不是询问我们是否有正确的数据。


比如,许多公司会从大量数据中寻找异常。尽管充分性很重要,但优秀的公司同样兼顾数据的针对性。他们会关注来自于特定个体和机构的数据,并从中发现异常。比如医疗结构在分析病例时,会考虑到医生的轮班周期等。

 

六、忽略数据来源


数据分析存在一个普遍又显著的问题,是数据偏见。偏向性的数据会造成分析结果偏差,从而影响到正确的业务决策与结果。其中的偏见来源于整个分析过程涉及的许多个部门,包括IT部门处理数据方式,都会有一些偏见。因为IT部门在对数据来源的追踪上,做的并不完善。如果无法意识到这一点,就会影响到数据模型的的性能,而且,缺乏数据来源的可见性使得对偏见的控制更为困难。


IT有义务搞清楚数据的来源在哪里,以及来源的相关情况。在投资数据管理的同时,也要制定一套源数据管理解决方案。

 

七、缺乏面向用户的数据上下文


在企业内,应该有强大的源数据管理程序,它可以追踪数据的来源,以及它是如何在系统中运行的,它应该为用户提供一些历史信息,并为一些通过分析产生的结果提供背景信息。


近几年,由于分析方法越来越复杂,对数据和分析结果的解释变得越来越少。更新的深度学习模型为分析结果提供了一些注解,也为决策提供了一些可行的建议,但无法提供对最佳决策有帮助甚至至关重要的上下文,例如某件事情发生的可能性与确定性等信息。因此,需要能提供更好的用户界面以帮助用户进行决策。


其中的技术问题在于,要明确用户与数据模型的交互程度如何。UI/UX界面决定了系统对用户的透明度,而透明度取决于用户对分析结果的钻研深度,这些都是首席信息官(CIO)在建立分析系统前,应当考虑清楚的。


CIO:提升数据分析能力,助力企业数字化转型


八、认为小的或者少数的数据量缺陷无关紧要


有人认为,根据大数定律(Law of Large Numbers),独立的数据缺陷无关紧要,不会影响分析结果。与更小规模的数据集相比,独立的数据缺陷对整个数据集的影响的确要小很多,但目前,数据量不断增长,数据缺陷与以往相比也越来越多。


如果,低质量数据对整个数据集的整体影响仍保持不变,企业在大数据环境下使用的大部分数据来自外部数据源,其数据结构和来源未知。这意味着数据质量问题的风险比以往更高。因此,在大数据部署中,数据质量实际上更加重要。


设计出新的数据质量管理方式,并选择数据质量级别。严格遵守数据质量保障的核心原则。

 

九、在数据仓库中,高级分析有重大意义


有些人认为,高级分析功能可使用新的数据类型时,部署数据仓库则浪费时间。实际上,大多数高级分析项目在分析时都使用数据仓库。


新的数据类型还可能需要提炼,使其适于数据分析。此外,哪些是相关数据、怎样聚合数据以及必要的数据质量级别等都需要企业做出决策。


尽可能使用数据仓库存储经人工收集检查的数据集,用于高级分析功能。

 

如今,行业内不少人打着“数据统计和分析”的旗号来做大数据,让很多人陷入了误区:数据统计并非等于大数据。无论数据统计也好,大数据也罢,其实都是为了使我们的工作变得更为有效,让决策更为理性而准确。重视数据,本身就是一个企业成熟的标志。随着数据的进一步丰富和完善,随着不同渠道数据的打通和交叉利用,有关大数据的想象一定会更加广阔。

 

参考资料:你的数据化经营为何屡战屡败,118位CTO给出的7个管理经验,作者文摘菌 大数据文摘|BigDataDigest



推荐阅读
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • 本文介绍了如何将CIM_DateTime解析为.Net DateTime,并分享了解析过程中可能遇到的问题和解决方法。通过使用DateTime.ParseExact方法和适当的格式字符串,可以成功解析CIM_DateTime字符串。同时还提供了关于WMI和字符串格式的相关信息。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 数据分析的组成部分及其商业价值
    本文介绍了数据分析的组成部分,包括数据采集、数据挖掘和数据可视化,并强调了数据挖掘的商业价值和数据可视化的重要性。数据分析是通过挖掘数据中的规律来指导业务的过程,而数据可视化则可以直观地呈现数据分析的结果。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • BPM是什么软件?1、BPM是BusinessProcessManagement的简称,译为业务流程管理,它是一种以规范化的构造端到端的卓越业务流程为中心以持续的提高组织业务绩效为 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • React 小白初入门
    推荐学习:React官方文档:https:react.docschina.orgReact菜鸟教程:https:www.runoob.c ... [详细]
  • Imdevelopinganappwhichneedstogetmusicfilebystreamingforplayinglive.我正在开发一个应用程序,需要通过流 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有