热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

谈谈对大数据的八个观点分析

越来越多程序员也涌入大数据行业,但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(

越来越多程序员也涌入大数据行业,但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(Variety),价值(Value),但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。最核心的问题还不在数量和种类,而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格 ?它能够变现么?如何来变现却是大数据的核心问题。

做大数据的同学,外面看起来像是红楼梦的大观园一样,外表光鲜亮丽,身在其中的人,才知道各有各的无奈。大数据的处理通常分为,数据收集,数据清洗,数据加工。数据应用,数据可视化。数据收集同学总是抱怨数据源Garbage in, Garbage out的感觉,数据清洗的同学总有沙里淘金的感觉,数据加工的同学也经常受两头气,相比来说,做数据可视化的同学比较幸运,可以找到很多炫酷的感觉,但有不是大数据的主流技术。最难受的是做大数据应用/变现的同学,不得不靠着忽悠行走江湖。

【观点如下】

大数据的信息熵值低
大数据不是银弹是蚂蚁效应
大数据不解释因果,更关心相关性
数据资源公司最佳是被收购,最好应用是广告和泛征信
大数据是对用户隐私的汲取
用户数据无法用过定价来进行数据交易
搞清楚业务,再谈大数据也不晚
大数据的价值是真水无香
 

•观点一 :大数据的信息熵值低

1948年,香农提出信息熵的概念,可以用于表述信息的价值,信息熵高的言简意赅,信息熵低的冗余拖沓。目前,很多大数据的来源都是一些系统的Log,图片,视频等。特别是日志系统数据,数据越来越多,越来越大,其中大部分是固定模板的数据,区分度差,信息量并没有随着数据的增加而线性增加。另外举个例子,之前我们使用胶卷照片的,我们会选择重要的场景,珍惜每一个照片,设计好角度和光圈,现在有数据相机了,内存近乎无限大了,大家肆无忌惮的自拍,哪怕都是同一个角度,大家照的废片也是一把一把的。同一类型的数据多了,信息熵也就降低了。

•观点二:大数据不是银弹,而是蚂蚁效应

大数据应用常见,多见于推荐系统,业务流程优化,医疗,性能优化,预测,金融交易等,这些业务在传统的做法上,已经十分依赖于数据了,虽然以前不叫大数据,但是也都是数据驱动的业务。数据的规模和种类增多,处理方法的增多,会渐渐提高这些应用的精准性,这种提高一定是渐渐的,一点一滴的。也许一天两天感觉不错来的,但是经过多年的持续改进,这种效果是显而易见的。

举个例来说,语音识别起始于60年代,基于小型词汇库,在90年代,IBM推出的ViaVoice是语音识别的一个里程碑,基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟,数据也是基于大量的词汇库,语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库,效果有改进,但是还无法达到实用的程度。2009年以后,借助于互联网语料库的进一步丰富,数据料的增长,远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升,用户也不断使用语音识别反馈更多的数据。以至于,谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ,和他的同事在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题,例如自动驾驶,人工智能等。

•观点三:大数据不解释因果关系,只关心相关性

《大数据时代》中定义了大数据的第三个特征,“不是因果关系,而是相关关系”。沃尔玛通过数据挖掘,发现蛋挞和飓风产品有很多关联性,并且放在一起销售提高销售量。没有人清楚其中的因果关系,当然,也可能有人牵强的解释,美国人喜欢飓风时期躲在家里吃蛋挞,通过数据我们获得了相关性,但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击:很多时候我们在二维世界的相关性,是无法在二维世界进行解释因果的,也许只有在三维或者多维世界才能够解释因果关系,而这种因果关系无法直接理解,只能进行归纳成相关关系。

•观点四: 大数据资源公司最佳变现是被收购,最直接变现渠道是广告和泛征信

很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司),因为他们对于变现的能力和可持续性都有很多顾虑,他们也面临高风险的用户隐私挑战,因此很多大数据资源公司的PR工作,远远多于具体落地的数据服务工作。因此,各个专业大数据公司都忙于各种行业洞察报告和排行榜,数据可视化的工作一个比一个炫丽,一个比一个追热点。谈到大数据公司的变现,很多公司会提到“数据服务”,实际上数据服务的市场相对稳定,并没有因为大数据公司的发展而市场膨胀,因此“数据服务”实际上是一个明显的“僧多粥少”的状态,另外老牌的数据公司,例如Nielson等在客户方便还是有一定的优势。

收购成为大数据公司变现最佳方式,2014年Oracle收购BlueKai获得很多众互联网用户数据,BlueKai的数据来源于和很多小网站进行数据交换和购买,尼尔森公司收购了DMP公司eXelate,eXelate的数据来源各个合作伙伴的数据,它提供了数据共享和交换的平台,创建DMP支持广告优化投放。

既然数据服务不容易攒钱,那么有没有靠谱的变现途径呢?从目前来说,广告和泛征信是两个最有效的变现渠道,效果广告的精确投放,品牌广告主需要强烈的数据背书,这些都需要数据服务,因此在广告行业专业的DMP公司,对于程序化交易是必不可少的。另外,就是征信系统,金融的本质是一个套信用系统,这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存,主要依据就是风险控制,大数据是重要技术支持,因此很多P2P会采购大量数据资源,加强自己的征信系统。

•观点五:大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进,例如摄像头,手机,智能穿戴设别等。 其中,大量用户隐私数据被收集,例如用户地址,交易数据,搜索数据,用户的地理位置信息,用户的脉搏,联系人列表等等。这些都是用户的个人数据,各大数据公司都通过改善服务为借口,获得用户的授权,而进行隐私的汲取和偷窥。

也有一种声音,这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先,服务商提供更好的服务,并不代表可以收集用户的隐私数据;其次,很多公司不提供不收集用户隐私数据的服务的选项,这让很多用户无法选择禁止用户隐私数据收集,这是一种利用市场地位的垄断和霸王条款;而后,所有数据公司没有提供数据清理功能,删除用户所有的历史数据。这意味着,你的隐私数据一旦被收集,可以被无限次的无范围的滥用。

•观点六: 用户数据是无法通过定价而进行交换的

大数据采集公司,都有数据变现需求。对于数据采集公司来说,虽然能做一些数据分析和预测,但这些分析服务的费用较少(在成为顶级咨询公司之前),很难持续公司的正常运作,只能继续烧钱或者被收购。对于数据采集公司来说,很多人认为数据可以在公开公正公平的数据市场中变现,不少市面上的DMP都提供了一些数据交易平台,希望数据项商品一些安全,公平的交易.

原因有以下几个:

1. 大数据的价值无法用价格来衡量:

a)同一份数据对于不同客户价值不同,不同拷贝后价值也不同。
b)数据定价太低,卖方有注水动机;如果定价太高,买家也难以接受,而且数据报价都是暗拍的。

2.用户数据交易是玩火自焚:

在各种大数据的应用中,用户的个人数据在很多场景中是最有价值的,这些数据一旦流入到市场或者黑市,社会后果将不堪设想,而且数据泄露者还面临法律风险,因此数据交易无法在公开的数据交易市场进行。一些脱敏技术可以让数据难以反追查,但是脱敏技术的尺度把握却是在人的手上,它很容易引入各种法律风险。

•观点七:大数据的价值是真水无香

满大街唾沫横飞的大数据,让人觉得不懂大数据是一种羞耻。最近面试过好些候选人,做没做过数据都说想做大数据,而且是非大数据/机器学习不做,问他为什么要做大数据,所有回答都是这是趋势,不转型,宁等死,大数据可以挖掘出很多价值,帮助业务增长,这种感觉很好。

反过头来,看看工作中搞大数据技术的同学,每天通过脚本处理成千上万的数据,每天苦逼的处理各个数据格式,数据清洗,数据加工,数据分类/聚类,好不容易生成一些数据洞察结果,也需要用一大堆脚本和数据进行二次验证,包括精准率/召回率。这是一种苦逼,而且需要自己挖掘乐趣的工作。

确实,在一种新的数据洞察或大数据应用出来的时候,确实对于产品的提升很有帮助,为了保持保护这种提升,需要不断的对于数据进行清理,提高及时性,这种数据的维护工作慢慢会变成大数据工作者的很大一部分工作。这个过程有点像,一个系统的完善性维护工作,占了软件开发的很大一部分工作。 这部分数据价值对于产品竞争力的提升也会渐渐平淡,投入产出比越来越低。但是这些完善性维护工作,却不能停。一旦停止,对于业务会带来负增长,因此这种维护性的工作会变的越来辛苦。这个时候业务对于数据的以来就像人们对白开水的需求一样,平时觉得没有味道,但是缺少的马上就感到口渴,甚至渴死。

•观点八:搞清楚业务之后,再谈大数据也不晚

目前很多行业峰会都沾上“大数据”的光环了,以前的站长大会也变成”自媒体大数据峰会”了,以前的互联网运营大会也变成”大数据运营峰会”了,以前的软件研发大会也加入了一个“大数据”分会场了。这是一个大数据唾沫横飞的世界,一不小心你就参与其中了。

我参加过几个大数据会议,有很多人是慕名而来(我自己也是其中之一),努力将自己的工作和大数据挂上钩,搞数据分析的说自己分析的是大数据,搞技术的说自己运用了大数据技术,搞应用的说自己的大数据驱动的业务。最后,谁也不知道大数据是什么,好像和数据之间没有太多本质的区别,只是多了一个“大”字而已。

我认为,这不是什么坏事,无论是使用“信息化”,“大数据”,“数据时代”,“数据挖掘”,“认知计算”,“深度学习”等词语,只要能够解决业务的问题,推进社会更加美好,就是一份有意义的工作。无论大数据还是小数据,解决业务问题就是好数据。

推荐阅读文章

大数据工程师在阿里面试流程是什么?

学习大数据需要具备怎么样基础?

年薪30K的大数据开发工程师的工作经验总结?

 

《谈谈对大数据的八个观点分析》

 


推荐阅读
  • 大数据时代的机器学习:人工特征工程与线性模型的局限
    本文探讨了在大数据背景下,人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步,传统的特征工程方法面临挑战,文章提出了未来发展的可能方向。 ... [详细]
  • 强人工智能时代,区块链的角色与前景
    随着强人工智能的崛起,区块链技术在新的技术生态中扮演着怎样的角色?本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 本文探讨了亚马逊Go如何通过技术创新推动零售业的发展,以及面临的市场和隐私挑战。同时,介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]
  • 京东AI创新之路:周伯文解析京东AI战略的独特之处
    2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]
  • Google最新推出的嵌入AI技术的便携式相机Clips现已上架,旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻,帮助人们减少照片数量过多的问题。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • Waymo大规模采购FCA车型,软银巨资加码Cruise,无人驾驶商业化步伐加快
    近期,无人驾驶领域迎来两项重大进展:软银以22.5亿美元投资通用汽车旗下的Cruise Automation,同时Waymo宣布向菲亚特克莱斯勒采购62000辆厢式车。这些动向不仅提升了行业信心,也为无人驾驶技术的商业化铺平了道路。 ... [详细]
  • 吴恩达推出TensorFlow实践课程,Python基础即可入门,四个月掌握核心技能
    量子位报道,deeplearning.ai最新发布了TensorFlow实践课程,适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 本文详细记录了作者从7月份的提前批到9、10月份正式批的秋招经历,包括各公司的面试流程、技术问题及HR面的常见问题。通过这次秋招,作者深刻体会到了技术积累和面试准备的重要性。 ... [详细]
author-avatar
吴柏盈4477
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有