热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

到底什么是大数据,看这一篇就足够了!

        近几年,大数据这个词以烈火燎原之势,在互联网领域迅速的扎根生长。尤其是大数据时代的到来,刺激了各大行业发展,也增加了很多相关岗位。许多人了解情况之后,毅然决

        近几年,"大数据"这个词以烈火燎原之势,在互联网领域迅速的扎根生长。尤其是"大数据"时代的到来,刺激了各大行业发展,也增加了很多相关岗位。许多人了解情况之后,毅然决定学习大数据技术,进入相关行业,而有的人还在观望,不知道未来大数据前景怎么样?今日博主有幸在1024"程序员节"上,为大家(更多是有一定编程能力的大数据学者)科普一下与大数据相关的知识!

**



什么是大数据

**

          如果从字面上解释的话,大家很容易想到的可能就是大量的数据 ,海量的数据。这样的解释确实通俗易懂,但如果用专业知识来描述的话,就是指数据集的大小远远超过了现有普通数据库软件工具的处理能力的数据

**



大数据的特点

**

          海量化       

          这里指的数据量是从TBPB级别。在这里顺带给大家科普一下这是什么概念。

          MB,全称MByte,计算机中的一种储存单位,含义是“兆字节”。

         1MB可储存1024×1024=1048576字节(Byte)。

          字节(Byte)是存储容量基本单位,1字节(1Byte)由8个二进制位组成。

          位(bit)是计算机存储信息的最小单位,二进制的一个“0”或一个“1”叫一位。

          通俗来讲,1MB约等于一张网络通用图片(非高清)的大小。

          1GB=1024MB,约等于下载一部电影(非高清)的大小。

          1TB=1024GB,约等于一个固态硬盘的容量大小,能存放一个不间断的监控摄像头录像(200MB/个)长达半年左右。

          1PB=1024TB,容量相当大,应用于大数据存储设备,如服务器等。

          1EB=1024PB,目前还没有单个存储器达到这个容量。


          多样化       

          大数据含有的数据类型复杂,超过80%的数据是非结构化的。而数据类型又分成结构化数据,非结构化数据,半结构化数据。这里再对三种数据类型做一个分类科普。

          ①结构化数据

          结构化的数据是指可以使用关系型数据库(例如:MySQL,Oracle,DB2)表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

          但是,它的扩展性不好。比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段,但这样的话,时间一长很容易弄不清除字段和数据的对应状态,即哪个字段保存有哪些数据。

          ②半结构化数据

          半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有XML和JSON。

          ③非结构化数据

          非结构化数据是数据结构不规则不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

          快速化

          随着物联网、电子商务、社会化网络的快速发展,全球大数据储量迅猛增长,成为大数据产业发展的基础。根据国际数据公司(IDC)的监测数据显示,2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘),2014年和2015年全球大数据储量分别为6.6ZB和8.6ZB。近几年全球大数据储量的增速每年都保持在40%,2016年甚至达到了87.21%的增长率。2016年和2017年全球大数据储量分别为16.1ZB和21.6ZB,2018年全球大数据储量达到33.0ZB。预测未来几年,全球大数据储量规模也都会保持40%左右的增长率。在数据储量不断增长和应用驱动创新的推动下,大数据产业将会不断丰富商业模式,构建出多层多样的市场格局,具有广阔的发展空间。

          快速化

          大数据的核心价值,从业务角度出发,主要有如下的3点:

          ①a.数据辅助决策:为企业提供基础的数据统计报表分析服务。分析师能够轻易获取数据产出分析报告指导产品和运营,产品经理能够通过统计数据完善产品功能和改善用户体验,运营人员可以通过数据发现运营问题并确定运营的策略和方向,管理层可以通过数据掌握公司业务运营状况,从而进行一些战略决策;


          ②b.数据驱动业务:通过数据产品、数据挖掘模型实现企业产品和运营的智能化,从而极大的提高企业的整体效能产出。最常见的应用领域有基于个性化推荐技术的精准营销服务、广告服务、基于模型算法的风控反欺诈服务征信服务,等等

          ③b.数据对外变现:通过对数据进行精心的包装,对外提供数据服务,从而获得现金收入。市面上比较常见有各大数据公司利用自己掌握的大数据,提供风控查询、验证、反欺诈服务,提供导客、导流、精准营销服务,提供数据开放平台服务,等等

**



大数据能做什么?

**



1、海量数据快速查询(离线)

          能够在海量数据的基础上进行快速计算,这里的“快速”是与传统计算 方案对比。海量数据背景下,使用传统方案计算可能需要一星期时间。使用大数据 技术计算只需要30分钟。



2.海量数据实时计算(实时)

          在海量数据的背景下,对于实时生成的最新数据,需要立刻、马上传递到大数据环境,并立刻、马上进行相关业务指标的分析,并把分析完的结果立刻、马上展示给用户或者领导。




3.海量数据的存储(数据量大,单个大文件)

          大数据能够存储海量数据,大数据时代数据量巨大,1TB=1024*1G 约26万首歌(一首歌4M),1PB=1024 * 1024 * 1G约2.68亿首歌(一首歌4M)

          大数据能够存储单个大文件。目前市面上最大的单个硬盘大小约为10T左右。若有一个文件20T,将 无法存储。大数据可以存储单个20T文件,甚至更大。



4.数据挖掘(挖掘以前没有发现的有价值的数据)

          挖掘前所未有的新的价值点。原始企业内数据无法计算出的结果,使用大数据能够计算出。

           挖掘(算法)有价值的数据。在海量数据背景下,使用数据挖掘算法,挖掘有价值的指标(不使用这些算法无法算出)



大数据行业的应用?

          



1.常见领域




2.智慧城市



3.电信大数据




4.电商大数据



大数据行业前景(国家政策)?

          2014年7月23日,国务院常务会议审议通过《企业信息公示暂行条例(草案)》

          2015年6月19日,国家主席、总理同时就“大数据”发表意见:《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》

          2015年8月31日,国务院印发《促进大数据发展行动纲要》。国发〔2015〕50 号

          2016年12月18日,工业和信息化部关于印发《大数据产业发展规划》

          2018年1月23日。中间全面深化改革领导小组会议审议通过了《科学数据管理办法》

          2018年7月1日,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》

          2019年***工作报告中总理指出“深化大数据、人工智能等研发应用,培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群,壮大数字经济。”



总结

          我国著名的电商之父,阿里巴巴创始人马云先生曾说过,未来10年,乃至20年,将是人工智能的时代,大数据的时代。对于现在正在学习大数据的我们来说,未来对于我们更是充满了各种机遇与挑战。相信大家在细细品尝了博主分享的一些关于大数据的"精神粮食"之后多少有些意犹未尽。但时间不早了,今天就先给大家分享到这了()。放心吧,博主会经常更新的,如果觉得写的还不错的话,记得点赞加关注哦๑乛◡乛๑



推荐阅读
  • 本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先,通过PuTTY工具实现远程连接至服务器。接着,检查当前系统的磁盘空间使用情况,确保有足够的空间进行后续操作,可使用 `df` 命令进行查看。此外,文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤,以及常见问题的解决方法,帮助用户顺利完成LAMP环境的搭建。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 在Linux系统中避免安装MySQL的简易指南
    在Linux系统中避免安装MySQL的简易指南 ... [详细]
  • PHP开发人员薪资水平分析:工程师平均工资概况
    PHP开发人员薪资水平分析:工程师平均工资概况 ... [详细]
  • 中国学者实现 CNN 全程可视化,详尽展示每次卷积、ReLU 和池化过程 ... [详细]
  • 微信小程序详解:概念、功能与优势
    微信公众平台近期向200位开发者发送了小程序的内测邀请。许多人对微信小程序的概念还不是很清楚。本文将详细介绍微信小程序的定义、功能及其独特优势。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • 通过使用Sqoop导入工具,可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言,可以通过在导入命令中添加WHERE子句来指定所需的数据范围,从而在数据库服务器上执行相应的SQL查询,并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性,还确保了数据的准确性和完整性。 ... [详细]
  • MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术
    在关系型数据库中,表的设计与SQL语句的编写对性能的影响至关重要,甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧,通过实例分析和优化建议,帮助读者深入理解并掌握这一重要知识点。 ... [详细]
  • 在使用达梦数据库时,管理员可能会遇到连接频繁中断或特定SQL语句语法错误的问题。这些问题通常源于开发人员在创建对象时的不规范操作。为了解决这些问题,建议对数据库配置进行优化,并确保所有SQL语句符合达梦数据库的标准语法。此外,定期检查和维护数据库连接参数,以及对异常日志进行详细分析,也有助于及时发现并解决问题。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 在Android平台上,视频监控系统的优化与应用具有重要意义。尽管已有相关示例(如http:www.open-open.comlibviewopen1346400423609.html)展示了基本的监控功能实现,但若要提升系统的稳定性和性能,仍需进行深入研究和优化。本文探讨了如何通过改进算法、优化网络传输和增强用户界面来提高Android视频监控系统的整体效能,以满足更复杂的应用需求。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
author-avatar
童恩_658
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有