当前位置: 开发笔记 > 编程语言 > 正文

十分钟走进大数据世界

作者：May蕊心 | 来源：互联网 | 2023-05-19 00:02

大数据的概念大数据（bigdata），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多

大数据的概念

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决：海量数据存储和海量数据的分析计算问题

大数据的特点

大数据特性，谨记四字箴言：「大、快、杂、疑」

1、Volume（大）

资料量非常大，以前人们「手动」在表格中记录、累积出数据;现在数据是由机器、网路、人与人之间的社群互动来生成。你现在正在点击的滑鼠、来电、简讯、网路搜寻、线上交易… 都正在生成累积成庞大的数据。截止目前人类生产的所有印刷材料是200PB(Peta Bytes，千兆位元组)，历史上人类总共说过的话数据量约5EB(Exabytes，百万兆位元组)。

2、Velocity（快）

响应的时效性至关重要，据IDC“数字宇宙”报告，预计到2020年，全球数据使用量将达到35.2ZB(Zetta Bytes,十万亿亿字节),如此海量数据，处理效率至关重要。

3、Variety（杂）

大数据的来源种类包罗万象，十分多样化，如果一定要把资料分类的话，最简单的方法是分两类，结构化与非结构化。早期的非结构化资料主要是文字，随着网路的发展，又扩展到电子邮件、网页、社交媒体、视讯，音乐、图片等等，这些非结构化的资料造成储存(storage)、探勘(mining)、分析(analyzing)上的困难。

4、Value（疑）

价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断的监控中，有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

大数据能干啥？

例1： o2o–百度大数据+平台，通过先进的线上线下打通技术和客流分析能力，助力商家精细化运营，提升销量。

例2: 美国折扣零售商能够通过用户购买商品的历史，判断出是否怀孕。
例3: 日本通过研究驾驶员的坐姿数据，用来作为汽车防盗系统中。

例4: 电子商务领域–购物行为与销量预测分析；商品关联分析；全网产品信息采集，产品素材获取；通过分析产品价格和销量，指导新品上架策略；云评论系统的搭建和维护；电子商务渠道分销。

例5: 金融领域–金融行业的主要业务应用包括企业内外部的风险管理、信用评估、借贷、保险、理财、证券分析等，都可以通过获取、关联和分析更多维度、更深层次的数据，并通过不断发展的大数据处理技术得以更好、更快、更准确的实现，从而使得原来不可担保的信贷可以担保，不可保险的风险可以保险，不可预测的证券行情可以预测。

例6: 电信领域–采集基站等硬件设备的数据，分析设备负荷状况，生成设备的扩容、优化、质量排查、扩建等建议，达到均衡网络流量的目的；分析用户的话单数据，界定用户属性，分析手机终端的特征，从而形成套餐推荐、终端推荐等决策；根据用户使用的app软件、访问的网页进行更为全面的用户行为分析、用户喜好分析；采集微博等社交网络数据，了解用户对运营商的评价和意见，舆情分析。

例7: 新闻媒体–快速准确地自动跟踪、采集数千家网络媒体信息，扩大新闻线索，提高采集速度；支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定；支持对所需内容的智能提取、审核；实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

例8: 政府机关–大数据必将成为宏观调控、国家治理、社会管理的信息基础。实时跟踪、采集与业务工作相关的信息；全面满足内部工作人员对互联网信息的全局观测需求；及时解决政务外网、政务内网的信息源问题，实现动态发布；快速解决政府主网站对各地级子网站的信息获取需求；全面整合信息，实现政府内部跨地区、跨部门的信息资源共享与有效沟通；节约信息采集的人力、物力、时间，提高办公效率。

例9: 企业制造–实时准确地监控、追踪竞争对手动态，是企业获取竞争情报的利器；及时获取竞争对手的公开信息以便研究同行业的发展与市场需求；为企业决策部门和管理层提供便捷、多途径的企业战略决策工具；大幅度地提高企业获取、利用情报的效率，节省情报信息收集、存储、挖掘的相关费用，是提高企业核心竞争力的关键；提高企业整体分析研究能力、市场快速反应能力，建立起以知识管理为核心的“竞争情报数据仓库”，提高核心竞争力。

大数据前景

1、国际数据公司IDC预测，到2020年，企业基于大数据计算分析平台的指出将突破5000亿美元。目前，我国大数据人才只有46万，未来3到5年人才缺口达到150万之多。

2、2017年北京大学，北京邮电大学等25所高校成功申请开设大数据课程。

3、大数据属于高新技术，大牛少，升职竞争小；

大数据技术生态体系

总共分为六层：数据来源层–>数据来源层–>数据存储层–>资源管理层–>数据计算层–>任务调度层
具体如下图：

下面我们来讲一下上面的架构图：
首先我们第一步当然是获取数据【数据来源层】，包括（结构化，半结构化，非架构话数据），然后我们需要去接收数据【数据来源层】。
不同的数据类型有不同的接收工具：

Sqoop(发音：skup)主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

接收过后，当然是存储起来，可以存储在HDFS上也可以存储在Hbase。Hbase是按列存储，检索起来特别快。Hadoop HDFS为HBase提供了高可靠性的底层存储支持。

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

数据存储完毕，到了我们YARN资源管理层，YARN资源管理层相当于我们电脑的操作系统，调度这些资源，HDFS相当于磁盘。

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

再往上到了我们数据计算层，

从图中可以看出左侧是处理离线的数据，右侧是处理实时数据。
离线又分为两类：
MapReduce是基于磁盘计算，Spark Core是基于内存计算。
MapReduce断电后数据还在，Spark Core断电后数据不存在。
Spark Core比MapReduce速度快。

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念”Map（映射）”和”Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

到最后一步就是调度层，说白了就是安排什么时间做什么事。

azkaban主要是应用于hadoop生态圈的任务调度的。我们在实际使用过程中，也主要是用来做hadoop相关任务的调度，其他任务的调度暂时还没有进行相关实践。
ozie是管理Hadoop作业的工作流调度系统，工作流是一系列的操作图。Oozie协调作业是通过时间（频率）以及有效数据触发当前的Oozie工作流程。Oozie是针对Hadoop开发的开源工作流引擎，专门针对大规模复杂工作流程和数据管道设计。

推荐系统项目框架

接下来来个实战框架：
例如我们在淘宝买了个键盘，那么你会发现当你买完键盘的时候，会给你推荐鼠标，显示器等相关商品，那么这个就是通过上面我们讲到的数据框架实现的。

购买完键盘通过Nginx来让Tomcat收集日志，然后通过我们的数据系统将日志存储到HDFS或Hbase，由于我们这个是实时的，所以我们走Storm实时计算。然后通过计算我们可以得出结论买过键盘的人同时还买过鼠标，显示器等物品。然后我们将分析得到的文件/数据库再给到Tomcat推荐业务服务器，将结果再推送给客户。

结束啦！！欢迎微信扫码二维码关注公众号，更多精彩干货。

推荐阅读

int
修复一个 Bug 竟耗时两天？真的有那么复杂吗？

修复一个 Bug 竟然耗费了两天时间？这背后究竟隐藏着怎样的复杂性？本文将深入探讨这个看似简单的 Bug 为何会如此棘手，从代码层面剖析问题根源，并分享解决过程中遇到的技术挑战和心得。 ... [详细]

蜡笔小新 2024-10-30 13:58:14
int
物联网、工业互联网大数据的特点

物联网、工业互联网大数据的特点-随着数据通讯成本的急剧下降，以及各种传感技术和智能设备的出现，从手环、共享出行、智能电表、环境监测设备到电梯、数控机床、挖掘机、工业生产线等都在源 ... [详细]

蜡笔小新 2023-10-16 22:17:23
int
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
int
不会搭建大数据平台，我被老板优化了...

不会,搭建,大数,据,平台,我 ... [详细]

蜡笔小新 2023-10-12 16:44:49
int
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
ip
魅族Flyme 7正式发布：全面解析与亮点介绍

在22日晚的发布会上，魅族不仅推出了m15、15和15 Plus三款新机型，还正式发布了全新的Flyme 7系统。Flyme 7在保持流畅体验的基础上，进一步增强了功能性和实用性，为用户带来更加丰富的使用体验。首批适配包已准备就绪，将逐步推送给现有设备。 ... [详细]

蜡笔小新 2024-10-29 10:53:56
hash
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
jsp
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42
jsp
Redis概念

Redis概念：redis是一款高性能的NOSQL系列的非关系型数据库什么是NOSQLNOSQL(NoSQLNotOnlySQL)，意即不仅仅是SQL，是一项全新的数据库理念， ... [详细]

蜡笔小新 2024-10-09 16:39:07
jsp
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
jsp
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
jsp
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
jsp
数据仓库中基本概念

一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合，用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]

蜡笔小新 2023-10-12 16:18:36
jsp
ftp和文件服务器,ftp和文件服务器的区别

ftp和文件服务器的区别内容精选换一换obsftp工具于2021年2月9日正式下线，下线后OBS不再对此工具提供维护和客户支持服务，给您带来不便敬请谅解 ... [详细]

蜡笔小新 2023-10-11 19:18:33

May蕊心

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章