热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

第一章:大数据概述

1.1大数据时代1.1.1三次信息化浪潮

1.1 大数据时代

1.1 .1三次信息化浪潮

信息化浪潮发生时间标志解决的问题代表企业
第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、惠普、联想等
第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮2010年前后物联网、大数据、云计算信息爆炸亚马逊、谷歌、IBM、VMWare、阿里云等

注:答主个人认为第四次浪潮会是2025年前后的人工智能时代,每个物品既是信息的制造者也是信息的利用者

1.1.2 信息科技为大数据时代提供技术支撑
表现在:储蓄设备容量不断增加、CPU处理能力大幅提升、网络宽带不断增加。

1.1.3 数据产生方式的变革促成大数据时代的来临
数据产生方式的变革,是促使大数据时代来临的重要因素。
人类数据的产生方式大概经历三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。

1.1.4 大数据的发展历程

阶段时间内容
第一阶段:萌芽期20世纪90年代至21世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理新系统等
第二阶段21世纪前10年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理办法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和Map Reduce等大数据技术受到追捧,Hadoop平台大行其道
第三阶段2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

1.2 大数据概述

4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)

单位换算关系
Byte(字节)1 Byte=8bit
KB(Kilobyte,千字节)1 KB= 1 024Byte
MB (Megabyte,兆字节)1 MB=1 024KB
GB(Gigabyte,吉字节)1 GB= 1 024MB
TB(Trillionbyte,太字节)1 TB=1 024GB
PB(Petabyte,拍字节)1 PB= 1 024PB
EB(Exabyte,艾字节)1 EB= 1 024PB
ZB (Zettabyte,泽字节)1 ZB=1 024EB

1.3 大数据关键技术

**大数据技术的不同层面及功能**

技术层面功能
数据采集与预处理利用ETL等工具将数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志参考工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据储存和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

1.4 大数据计算模式

大数据计算模式及其的代表产品

大数据计算模式解决问题代表产品
批量计算处理针对大规模数据的批量处理Map Reduce、Spark等
流计算针对流数据的实时计算Storm、S4、Flume、Streams、Puma、银河流数据处理平台等
图计算针对大规模图结构数据的处理Pregel、Graph X、Giraph等
查询分析计算大规模数据的储存管理和查询分析Dremel、Hive、Cassandra、Impala等

1.5 大数据产业

大数据产业链的各个环节

产业链环节包含内容
IT基础设施层包括提供硬件、软件、网络等基础设施的企业,如IBM、惠普、戴尔、微软等
数据源层大数据生态圈的数据提供者,如交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、电商(淘宝、天猫、京东等电商)大数据、社交网络(微博、微信、抖音等)大数据等各种数据的来源
数据管理层包括数据抽取、转换、储存和管理等服务的各类企业和产品,如分布式系统(Hadoop的HDFS和谷歌的GFS)、ETL工具、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
数据分析层包括提供分布式计算、数据挖掘、统计分析等服务各类企业和产品,如分布式计算框架Map Reduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化软件Tableau等
数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等
数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

1.6 大数据与云计算、物联网

1.1 云计算。
云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。

关键技术原理、目的代表产品
虚拟化指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个计算机可运行不同系统从而提高计算机的工作效率如Hyper-V、VMware、KVM等
分布式存储数据爆炸,集中式存储无法满足要求,分布式存储应运而生如GFS、HBase
分布式计算让程序同时运行在几百上千台机器上,在短时间内完成海量数据的计算。Map Reduce将并行计算抽象为两个函数——Map和Reduce,把一个大数据集切分成多个小的数据集,分布到不同的的机器上进行并行处理极大提高处理速度如Map Reduce
多租户目的在于使大量用户能够共享同一堆栈的软硬件资源,各取所需,互不影响。其技术核心在于数据隔离、客户化配置、架构扩展和性能定制。

1.2 物联网
物联网可分为四层:感知层(传感器、摄像头)、网络层(互联网、电网)、处理层(网络管理平台、信息处理平台)和应用层(智能交通、智能家居)

物联网关键技术:
(1)、识别和感知技术
(2)、网络与通信技术
(3)、数据挖掘与融合技术

1.3 大数据与云计算、物联网的关系
在这里插入图片描述

总结:
在现在,大数据、云计算和物联网三者彼此渗透、相互融合,在很多场景都可以同时看到三者的身影。
在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。

参考文献:
《大数据技术原理与应用 》 林子雨 人民邮电出版社。
CSDN网。


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • REST与RPC:选择哪种API架构风格?
    在探讨REST与RPC这两种API架构风格的选择时,本文首先介绍了RPC(远程过程调用)的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法,从而实现分布式系统的功能调用。相比之下,REST(Representational State Transfer)则基于资源的交互模型,通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点,帮助开发者根据具体需求做出合适的选择。 ... [详细]
  • 本文详细介绍了 Java 网站开发的相关资源和步骤,包括常用网站、开发环境和框架选择。 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • 本文详细介绍了Java代码分层的基本概念和常见分层模式,特别是MVC模式。同时探讨了不同项目需求下的分层策略,帮助读者更好地理解和应用Java分层思想。 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文总结了一些开发中常见的问题及其解决方案,包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • ### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例,介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节,揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性,如响应式设计和组件定制,为开发者提供全方位的技术支持。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • Cosmos生态系统为何迅速崛起,波卡作为跨链巨头应如何应对挑战?
    Cosmos生态系统为何迅速崛起,波卡作为跨链巨头应如何应对挑战? ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 如何使用mysql_nd:Python连接MySQL数据库的优雅指南
    无论是进行机器学习、Web开发还是爬虫项目,数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面: ... [详细]
author-avatar
时尚经典语录覀---
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有