作者:远处有个蘑菇丶 | 来源:互联网 | 2023-07-07 18:11
内容来自:大数据技术
视频
课程目标

课程模块

第一讲 大数据概念及计算简介
要求:对本课程教学目标、内容、方式做一个全面概要介绍
内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服务行业的应用情况。重点是大数据的概念和数据科学的发展史
第二讲 大数据计算体系与模式
要求:介绍大数据存储系统和数据处理平台
内容:让学生了解主要的大数据存储系统,包括数据的清洗、建模、分布式文件存储、NoSQL数据库、数据访问接口。向学生介绍目前数据工程界采用的主要数据处理平台,通过实例介绍各类数据分析算法的特点和功能,使学生初步了解计算处理模型和计算平台引擎。本章重点为大数据存储系统和数据处理平台。
大数据计算系统可归纳为3个基本层次:数据存储系统、数据处理系统、数据应用系统
大数据计算系统
数据存储系统

数据处理系统


数据应用系统

计算总体架构
数据建模

数据存储架构

逻辑存储结构

物理存储结构


大数据存储系统
分布式文件系统
提供大数据物理存储架构
主要技术:HDFS,GFS,…
- HDFS架构:Master/slave
- 组织:
一个主节点
一群从节点
数据文件倍分成固定大小的数据块
每份数据快可以存储再不同节点做备份(数据容错、恢复性) - 优点:开源、使用廉价设备、易用性好
- 缺点:数据读取慢、不擅长存储小文件、不擅长单个数据读取和更新
分布式数据库 NOSQL Database(not only SQL Database)
优点
- 不需要预先定义数据结构
- 扩展性好
- 数据划分
- 不需要做数据同步
NoSQL数据的四种类型

统一数据访问结构

传统数据块接口软件
ODBC

JDBC

数据读写接口

统一数据接口


大数据处理系统
各类算法实现、各类计算模型支撑、提供平台架构




理解计算模式

大数据计算架构


计算模型与计算架构



MapReduce计算模型


例子 计算词频

计算原理

- 按行拆分
- map、reduce程序不一定一一对应
- suffle结果存放在磁盘空间中(磁盘读写)
图并行计算模型

流计算模型

计算平台与计算引擎

数据应用系统


IBM

ORACLE

Mcrosoft

大数据应用系统
第三讲 数据采集方法
要求:讲授数据的采集方法和数据接口
内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。
系统日志数据采集

日志数据采集目的

系统日志数据采集

网络数据采集
搜索引擎局限性

网络爬虫工作原理
根据既定目标抓取数据,选择性抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源
技术框架:控制器、解析器、资源库。
控制器:为各个现成分配工作任务,并调度爬虫的线性资源。
解析器:批量下载网页,并对页面的格式和内容进行处理
资源库:存储下载到的网页资源,通常采用大型的数据库存储模型
爬虫体系结构


第四讲 数据清洗与规约方法
要求:介绍数据预处理技术、数据清洗技术、数据规约技术的基本原理和方法
内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。
第五讲数据分析算法
要求:讲授常用的数据分析算法的原理
教学内容:讲授内容包括常用的数据分析算法的原理,并比较不同数据分析算法之间的区别,让学生掌握各种数据分析方法的原理,并能够选择适当的方法解决数据科学中的问题。本章重点为常用的数据分析算法的原理。
第六讲 文本读写技术
要求:讲授文本读写技术的工作原理及方法
教学内容:让学生掌握文本读写技术的组成特点,了解常见的文本读写技术的特点,掌握读取文件、写入文件、连接数据库的方法等。本章重点为文本读写技术的工作原理。
第七讲 数据处理技术
教学要求:介绍数据处理技术的基本原理及主要方法
内容:让学生了解数据处理技术的概念和特点,了解其基本原理、主要功能特点等,让学生对数据处理技术有一个初步理解。本章重点为数据处理技术的基本原理。
第八讲 数据分析计算
要求:介绍数据分析技术的概念.算法及应用场景
内容:让学生了解数据分析技术的概念和特点,了解其原理、算法、应用场景等,让学生对数据分析算法体系有一个初步理解。本章重点为数据分析算法的基本原理。
第九讲 数据可视化技术
要求:讲解数据可视化技术的基本原理和主要功能
内容:讲授数据可视化技术的基本原理和主要功能,介绍数据可视化技术的应用场景。本章重点为数据可视化技术的基本原理。