热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据的产生和力量

大数据的产生人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历

大数据的产生

人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受 时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是由于数据产生的方式发生巨大变化,最终导致大数据的产生。

1、运营式系统阶段

数据库的出现使得数据管理的复杂度大大降低,实际情况中数据库大多被运营系统所采用,作为运营系统的数据管理子系统。比如超市的销售记录系统,银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库开始。这个阶段最主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,比如超市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生方式是被动的。

2、用户原创内容阶段

互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于 Web 2.0时代,而Web 2.0的最重要标志就是用户原创内容(UGC,User Generated Content)。这类数据近几年一直呈现爆炸性的增长,主要有如下两方面的原因。

首先是以博客、微博/微信为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。

3、感知式系统阶段

人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展, 人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。

简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据 共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。

 

正如Google的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏的是从中取 出知识的能力。数据收集的根本目的是根据需求从数据中取有用的知识,并将其应用到具体的领域之中。不同领域的大数据应用有不同的特点,表 1-1 列举了若干具有代表性的大数据应用及其特征。

正是由于大数据的广泛存在,才使得大数据问题的解决很具挑战性。而它的广泛应用, 则促使越来越多的人开始关注和研究大数据问题。

大数据的力量

大数据时代已经到来,认同这一判断的人越来越多。那么大数据意味着什么,他到底会 改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它 再大也没有意义。我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。

1、变革价值的力量

未来十年,决定中国是不是有大智慧的核心意义标准(那个"思想者"),就是国民幸福。

一体现在民生上,二体现在生态上,通过大数据让有意义的事变得明晰,看我们在人与人关系上,做得是否比以前更有意义。总之,让我们从前 10 年的意义混沌时代,进入未来 10 年意义明晰时代。

2、变革经济的力量

生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的, 就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据 帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

3、变革组织的力量

随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不 可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种 各样去中心化的 WEB2.0 应用,如 RSS、维基、博客等。 大数据之所以成为时代变革力量, 在于它通过追随意义而获得智慧。

大数据被称作21世纪的“钻石矿”,是国家发展重要的战略资源,正在深刻改变着我们的生活。瞄准全球产业发展机遇,近年来,贵州省把大数据作为弯道取直、后发赶超的重要战略,相继获批创建全国首个国家大数据综合试验区、大数据产业发展集聚区等金子招牌,大数据产业已是风生水起。作为贵州大数据产业发展的重要组成部分,贵安新区把大数据作为加速发展的“一号工程”,积极探索大数据全产业链、全治理链、全服务链“三链融合”的发展模式,用实践证明了大数据是转型升级的一片蓝海。那么,大数据是怎么产生的?其中蕴含哪些价值?大数据时代我们将面临什么样的挑战和机遇?

  大数据是怎样产生的?其实大数据就在我们身边,每个人都是大数据的生产者。从人类文明诞生的那一刻起,数据就伴随我们而生——人类交流信息所用的文字和语言,计量距离或数量使用的记号和图案,观察自然所积累和传承的经验等,都是数据构成的。这些数据在百万年的历史长河里,为人类文明的发展进化带来了难以估量的巨大价值,我们今天所享受的现代文明,都深深植根于数据技术。

  随着互联网时代的大发展,数据记录逐步脱离了纸和笔的限制,人类发明了廉价的硅晶半导体,把大量数据按0或1的二进制方式存储其中。由于存储能力巨大,成本低廉,大量曾被轻易忽略的数据都忠实保存了下来。比如我们每一下轻微的呼吸、每一次心脏的跳动,企业员工的每一次出勤、财务的每一笔账单都能一一被记录。

  一般来说,传统数据主要指用数字或文字描述的内容,通称为结构化数据;而大数据时代涌现出了大量新型数据的、非结构化的数据,比如人群之间看不见的社交关系,网络传播的图像、视频信号,可穿戴设备采集的健康数据等。同时,对这些数据的采集、挖掘和运用,将是现代大数据挖掘的重要研究课题。

  有专家认为,如果把数据比作是矿石的话,大数据挖掘技术就是从矿石中提炼黄金,形成各种精致制成品的过程。未来,大数据技术将冲击许多主要的行业,包括零售业、服务业、电子商务和金融领域等,也将彻底改变我们的日常生活。它既能够通过移动应用和云服务追踪来提升个人的生活品质,也能为现代企业带来更高效和稳健的管理方式。小到个人,大到企业和国家,大数据均是极度重要的议题,需要我们真正深入理解它。

2014年,全球大数据市场增长速度达53%,总体规模为285亿美元。到2017年,全球大数据市场收入将达500亿美元,这意味着从2011年起连续6年年复合增长率达38%。中国市场情报中心有关统计显示,2012年中国大数据市场规模为4.5亿元,同比增长40.6%,到2018年,中国大数据市场规模将达到463.4亿元。  

1、联合国2012年5月对外发布了《大数据促发展:挑战与机遇》白皮书

报告显示,2014年,全球大数据市场增长速度达53%,总体规模为285亿美元。到2017年,全球大数据市场收入将达500亿美元,这意味着从2011年起连续6年年复合增长率达38%。中国市场情报中心有关统计显示,2012年中国大数据市场规模为4.5亿元,同比增长40.6%,到2018年,中国大数据市场规模将达到463.4亿元。

2、易观智库:《中国大数据整体市场趋势预测报告2014-2017》

根据EnfoDesk易观智库发布的 《中国大数据整体市场趋势预测报告2014-2017》 数据显示,2014年进入大数据应用市场的快速增长期,增长速度将接近30%。预计2016年国内大数据市场规模总量将突破100亿人民币。其中线上市场主要包括互联网用户数据市场,以及以互联网金融为主的线上金融市场;线下市场主要包括IT企业的大数据应用及大数据平台业务市场,不包括大数据基础设施服务市场规模。

现在问题来了,学挖掘机到底哪家强?不对,我想说的是,这么多关于大数据市场规模的预测摆在面前,我们到底该相信谁?谁更准确些?

这两份报告里,如果真的要选出一份更客观的报告的话,我会选择易观智库发布的报告。联合国发布的报告一来是因为年份比较久远不太符合目前大数据市场的发展变化,二来它主要说的是全球大数据的市场规模。

其实大数据的市场规模是很难预测的,大数据行业和电子商务、网络游戏公司还不同,网络游戏公司喜欢晒流水,晒收入。虽然也有水分。而且上市公司也多,把几家巨头游戏公司的财报加在一起,大概就能预估出来,电子商务也一样。

大数据市场规模不好预估,一来是所有互联网企业其实都有大数据业务,那么它到底算不算在市场规模里?二是大数据除了新三板外,没有一家企业在创业板、港交所或纳斯达克上市,他们不发布财报,所以很难预估。还有就是,做大数据的这群人其实也还蛮鸡贼的,他们都不太愿意透露自己的收入情况,只喜欢说公司估值多少多少。他们自己做数据,但是却不愿意透露具体详细的数据情况。原因有二,现在真正实现盈利的大数据公司不多,真正实现了盈利的公司又喜欢闷头赚大钱。

所以,想要一份客观、中立,值得信任的大数据市场规模预估报告是非常难的。

没有市场规模和实际销售收入的数据,那么,我们就来说说大数据目前的盈利模式吧。参考下图。

大数据行业目前的四大盈利模式

1、解决方案

参考上图,我们顺时针的方向来说。

大数据的解决方案主要模式为:我为你架构一套大数据系统,然后每年每月为你维护、升级这套系统。

费用的收取方式为:构建和部署大数据系统的费用+每年的维护/升级服务费用。

哪些企业需要大数据行业的解决方案呢?

一是政府企事业单位。比如税务局、公安系统、卫生系统、防空系统,公共交通系统,反恐、经济、防灾、反腐、社保、环保等。

二是传统行业。衣、食、住、行、医疗、教育、 零售、通信,航空、工业、制造业、体育、娱乐、彩票、影视、餐饮、旅游、房地产等。

这些行业都有三个重要的特点,一来是因为他们没有大数据技术能力,二来是因为他们没有大数据人才,三是他们期望通过大数据来实现互联网+,通过大数据来改造行业目前的情况。对他们来说,积极响应国家号召,在大数据和云计算方面都有大量的预算。

这也是目前大数据行业油水最多,差事最“肥”的地方。IBM、Oracle、SAP这些巨头都在争抢这一块领地。新兴的大数据也各自都有针对细分领域的大数据解决方案。

2、基础设施

我把数据库、数据源、数据清洗、数据处理工具、数据API、Hadoop商业化版本、大数据引擎、大数据软件硬件结合一体机、CRM、BI等都归纳到基础设施里面了。因为他们的具体业务,其实都是围绕大数据产业链来展开了。

基础设施的主要模式为:我帮你解决大数据部署中间的部分问题。这个模式有点像台式机的“攒机”模式,CPU用这家的,内存用别家的,键盘鼠标自己搭配等等。这种模式是要求企业有大数据能力和人才的。你可以自由组合大数据的基础设施,从而构架出更适合自己业务的大数据系统。

费用收取方式:按照设施的不同进行收费,你可以买断,或者按需、按月、按年、按量来进行付费,比较方便灵活。

典型的企业有:数据堂、SequoiaDB、聚合数据、百分点等。

3、数据工具/产品化服务

我把移动统计分析工具、第三方数据服务、数据分析服务等归纳到这一模块中来。典型的模式如情报挖掘、舆情分析、销售追踪、精准营销、个性化推荐、可视化 、网站/APP分析工具等。

费用的收取方式:按需购买,部分功能服务免费,部分功能服务收费。有点像网络游戏中游戏免费下载免费玩,然后进行道具收费的感觉。

工具/产品化服务最典型的企业有阿里的数加平台、Talkingdata、DataEye等。

4、行业应用

这一模块可能和解决方案会有冲突,但是这里说的行业应用主要说的是传统行业加上大数据后产生的新的效应。大数据可以应用到医疗、教育、 零售、通信,航空、工业、制造业、体育、娱乐、彩票、影视、餐饮、旅游、房地产等传统行业,当大数据与这些行业碰撞,就会产生新的商业。

主要模式:利用大数据获得行业洞察,实现更多的收益。比如大数据+医疗就是智慧医疗系统,大数据+制造业就等于工业4.0,大数据+电影就等于票房预测等。

费用收取模式:没有直接的变现,而是通过大数据产生了更大的价值,节约了成本,优化了原有行业,衍生出新的商业模式。

行业应用比较典型的例子有:票房预测、商圈选址、高考预测、智慧城市、无人机、机器人、无人驾驶汽车等。

在此,我特别把金融大数据单独拎了出来,因为金融大数据的前景是最可观的,也是可持续发展的。金融行业会不断的产生数据,而且数据可以反复使用。

大数据在金融方面的应用主要体现在征信、小额信贷、P2P、电子信用卡 、量化投资、反欺诈、互联网金融等方面。银行、保险、证券等行业目前都依赖着大数据的洞察能力。金融行业是最需要数据、最能让大数据实现变现的。大数据在互联网金融方面应用得比较好的平台有京东白条、蚂蚁金服的小额贷款、支付宝的花呗、借呗等。

以上就是我总结出来的大数据变现的四大模式。夸完了大数据,下面就来说说这个行业目前的问题。

大数据行业不得不面对的行业问题

1、人才稀缺 、炒作过剩、实践少、 可借鉴经验少

人才问题我就不详细说了,现在大数据行业招人太困难了,要招到数据科学家就更难了。炒作过剩也不想再说,去年回家和老乡们说大数据,人家都当我是骗人了,泪奔ing。

实践少、 可借鉴经验少这个就很好理解了,成功的企业太少,你想抄,你想借鉴都没有可抄的公司。不像APP和手游,照着国外热门的换个皮也行啊,所以说,在大数据的践行路上,需要更多的是探索和勇气,没有一条成形的道路供你走,需要慢慢探索。

2、大数据的四高问题

技术门槛高, 创业门槛高, 入行门槛高, 部署成本高。

技术门槛,可参考下图。要成为数据科学家,你需要掌握的技能如下。

至于创业门槛。光项目启动资金就至少500万,一般人还真玩不转。这一条可参考我之前写过的大数据创业门槛。

部署成本高。传统行业、政府企事业单位要部署一套大数据系统,少则几百万,上则几个亿的都有。

事实上,技术能力是门槛,有经验的人才非常少是门槛,建设完真正为业务提供价值也是门槛。

3、数据源获取困难

①数据爬取越来越困难,防网站数据爬取将变成一种生意;

②网站更注重安全性,更多网站使用https协议;

③数据API或将取代爬虫。

4、数据归属和隐私悖论

数据本身就是企业的资产,那么数据的归属该如何划分?数据里包含的个人隐私该如何规避?

据我所知,现在还没有一套完善的法律法规体系来正面说数据归属权和隐私悖论。当然,也不能着急,这是一个行业逐渐发展中都会遇到的问题。法律法规会随着行业的发展来逐渐健全。

5、无直接商业模式,变现困难

虽然前面我说了大数据的四大盈利模式,但是细想回来,大数据其实并没有最直接的商业模式,直接贩卖数据是违法的。大数据只有和业务场景结合才能实现商业价值。据我们了解的情况来看,目前,部分企业仍然依靠政府扶持和融资来活着。还有就是大数据行业其实尚未形成完整的生态链。大数据对生活、工作、学习以及商业渗透力还是较弱。

小结

大数据行业的主要盈利模式,分别是解决方案部署、提供基础设施、数据工具与数据产品化服务,以及行业应用。其中,大数据在金融行业中应用是最能见到钱的。行业目前主要面临着人才稀缺 、炒作过剩、 实践少、 可借鉴经验少、门槛高、数据源获取困难、数据归属、隐私悖论以及变现困难等问题。

任何事情都有两面性,一如大数据有巨大的价值,同时行业也有这样那样的问题,对于前行未知的道路,风险越大也就意味着收益越大。相比较P2P、O2O这样行业,大数据还是一个比较稳健、厚积薄发的行业。没有3-5年的积累和发展是很难见到价值的。

在此,我们也号召大家冷静、理智的看待大数据行业,用实事求是的态度去做大数据。我们期待这个行业越来越好,同时也期待有更多的人加入到这个行业当中。只有整个行业大环境好起来,大数据才会更好。

我们期待中国大数据企业在纳斯达克敲钟的那一天。



推荐阅读
  • 本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统,涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等,旨在提供一个高效且功能丰富的开发平台。 ... [详细]
  • vivo Y5s配备了联发科Helio P65八核处理器,这款处理器采用12纳米工艺制造,具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外,它还集成了先进的图像处理单元和语音唤醒功能,为用户提供卓越的性能体验。 ... [详细]
  • 程序员如何优雅应对35岁职业转型?这里有深度解析
    本文探讨了程序员在职业生涯中如何通过不断学习和技能提升,优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势,并提供实用的学习路径。 ... [详细]
  • Hadoop发行版本选择指南:技术解析与应用实践
    本文详细介绍了Hadoop的不同发行版本及其特点,帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 本文介绍了数据库体系的基础知识,涵盖关系型数据库(如MySQL)和非关系型数据库(如MongoDB)的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署,帮助读者全面掌握数据库的使用和管理。 ... [详细]
  • 嵌入式开发环境搭建与文件传输指南
    本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境,并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • ElasticSearch 集群监控与优化
    本文详细介绍了如何有效地监控 ElasticSearch 集群,涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]
  • 本文探讨了在 SQL Server 中使用 JDBC 插入数据时遇到的问题。通过详细分析代码和数据库配置,提供了解决方案并解释了潜在的原因。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 云计算的优势与应用场景
    本文详细探讨了云计算为企业和个人带来的多种优势,包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点,并结合实际案例进行分析。 ... [详细]
  • 在创建新的Android项目时,您可能会遇到aapt错误,提示无法打开libstdc++.so.6共享对象文件。本文将探讨该问题的原因及解决方案。 ... [详细]
  • 中科院学位论文排版指南
    随着毕业季的到来,许多即将毕业的学生开始撰写学位论文。本文介绍了使用LaTeX排版学位论文的方法,特别是针对中国科学院大学研究生学位论文撰写规范指导意见的最新要求。LaTeX以其精确的控制和美观的排版效果成为许多学者的首选。 ... [详细]
  • 在安装Oracle 11g时,CentOS 6.5系统提示交换空间不足。本文详细介绍了如何通过两种方法增加交换空间,并提供了具体步骤和命令,帮助用户解决这一问题。 ... [详细]
author-avatar
手机用户2502912633
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有