作者:时尚经典语录覀--- | 来源:互联网 | 2023-08-15 13:23
1.1 大数据时代 1.1 .1三次信息化浪潮
信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、惠普、联想等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、大数据、云计算 信息爆炸 亚马逊、谷歌、IBM、VMWare、阿里云等
注:答主个人认为第四次浪潮会是2025年前后的人工智能时代,每个物品既是信息的制造者也是信息的利用者
1.1.2 信息科技为大数据时代提供技术支撑 表现在:储蓄设备容量不断增加、CPU处理能力大幅提升、网络宽带不断增加。
1.1.3 数据产生方式的变革促成大数据时代的来临 数据产生方式的变革,是促使大数据时代来临的重要因素。 人类数据的产生方式大概经历三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。
1.1.4 大数据的发展历程
阶段 时间 内容 第一阶段:萌芽期 20世纪90年代至21世纪初 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理新系统等 第二阶段 21世纪前10年 Web2.0应用迅猛发展,非结构化数据大量产生,传统处理办法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和Map Reduce等大数据技术受到追捧,Hadoop平台大行其道 第三阶段 2010年以后 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高
1.2 大数据概述 4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)
单位 换算关系 Byte(字节) 1 Byte=8bit KB(Kilobyte,千字节) 1 KB= 1 024Byte MB (Megabyte,兆字节) 1 MB=1 024KB GB(Gigabyte,吉字节) 1 GB= 1 024MB TB(Trillionbyte,太字节) 1 TB=1 024GB PB(Petabyte,拍字节) 1 PB= 1 024PB EB(Exabyte,艾字节) 1 EB= 1 024PB ZB (Zettabyte,泽字节) 1 ZB=1 024EB
1.3 大数据关键技术 **大数据技术的不同层面及功能**
技术层面 功能 数据采集与预处理 利用ETL等工具将数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志参考工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析 数据储存和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 数据安全和隐私保护 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
1.4 大数据计算模式 大数据计算模式及其的代表产品
大数据计算模式 解决问题 代表产品 批量计算处理 针对大规模数据的批量处理 Map Reduce、Spark等 流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、银河流数据处理平台等 图计算 针对大规模图结构数据的处理 Pregel、Graph X、Giraph等 查询分析计算 大规模数据的储存管理和查询分析 Dremel、Hive、Cassandra、Impala等
1.5 大数据产业 大数据产业链的各个环节
产业链环节 包含内容 IT基础设施层 包括提供硬件、软件、网络等基础设施的企业,如IBM、惠普、戴尔、微软等 数据源层 大数据生态圈的数据提供者,如交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、电商(淘宝、天猫、京东等电商)大数据、社交网络(微博、微信、抖音等)大数据等各种数据的来源 数据管理层 包括数据抽取、转换、储存和管理等服务的各类企业和产品,如分布式系统(Hadoop的HDFS和谷歌的GFS)、ETL工具、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) 数据分析层 包括提供分布式计算、数据挖掘、统计分析等服务各类企业和产品,如分布式计算框架Map Reduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化软件Tableau等 数据平台层 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等 数据应用层 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等
1.6 大数据与云计算、物联网 1.1 云计算。 云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户 等。
关键技术 原理、目的 代表产品 虚拟化 指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个计算机可运行不同系统从而提高计算机的工作效率 如Hyper-V、VMware、KVM等 分布式存储 数据爆炸,集中式存储无法满足要求,分布式存储应运而生 如GFS、HBase 分布式计算 让程序同时运行在几百上千台机器上,在短时间内完成海量数据的计算。Map Reduce将并行计算抽象为两个函数——Map和Reduce,把一个大数据集切分成多个小的数据集,分布到不同的的机器上进行并行处理极大提高处理速度 如Map Reduce 多租户 目的在于使大量用户能够共享同一堆栈的软硬件资源,各取所需,互不影响。其技术核心在于数据隔离、客户化配置、架构扩展和性能定制。
1.2 物联网 。 物联网可分为四层:感知层(传感器、摄像头)、网络层(互联网、电网)、处理层(网络管理平台、信息处理平台)和应用层(智能交通、智能家居) 。
物联网关键技术: (1)、识别和感知技术 (2)、网络与通信技术 (3)、数据挖掘与融合技术
1.3 大数据与云计算、物联网的关系
总结: 在现在,大数据、云计算和物联网三者彼此渗透、相互融合,在很多场景都可以同时看到三者的身影。 在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。
参考文献: 《大数据技术原理与应用 》 林子雨 人民邮电出版社。 CSDN网。