热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

大数据技术学习笔记

内容来自:大数据技术视频课程目标课程模块第一讲大数据概念及计算简介要求:对本课程教学目标、内容、方式做一个全面概要介绍内容:了解数据

内容来自:大数据技术
视频


课程目标

在这里插入图片描述


课程模块

在这里插入图片描述


第一讲 大数据概念及计算简介

要求:对本课程教学目标、内容、方式做一个全面概要介绍

内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服务行业的应用情况。重点是大数据的概念和数据科学的发展史


第二讲 大数据计算体系与模式

要求:介绍大数据存储系统和数据处理平台

内容:让学生了解主要的大数据存储系统,包括数据的清洗、建模、分布式文件存储、NoSQL数据库、数据访问接口。向学生介绍目前数据工程界采用的主要数据处理平台,通过实例介绍各类数据分析算法的特点和功能,使学生初步了解计算处理模型和计算平台引擎。本章重点为大数据存储系统和数据处理平台。

大数据计算系统可归纳为3个基本层次:数据存储系统、数据处理系统、数据应用系统


大数据计算系统


数据存储系统

在这里插入图片描述


数据处理系统

在这里插入图片描述
在这里插入图片描述


数据应用系统

在这里插入图片描述


计算总体架构


数据建模

在这里插入图片描述


数据存储架构

在这里插入图片描述


逻辑存储结构

在这里插入图片描述


物理存储结构

在这里插入图片描述

在这里插入图片描述


大数据存储系统


分布式文件系统

提供大数据物理存储架构
主要技术:HDFS,GFS,…


  • HDFS架构:Master/slave
  • 组织:
    一个主节点
    一群从节点
    数据文件倍分成固定大小的数据块
    每份数据快可以存储再不同节点做备份(数据容错、恢复性)
  • 优点:开源、使用廉价设备、易用性好
  • 缺点:数据读取慢、不擅长存储小文件、不擅长单个数据读取和更新

分布式数据库 NOSQL Database(not only SQL Database)


优点


  • 不需要预先定义数据结构
  • 扩展性好
  • 数据划分
  • 不需要做数据同步

NoSQL数据的四种类型

在这里插入图片描述


统一数据访问结构

在这里插入图片描述
传统数据块接口软件

ODBC
在这里插入图片描述

JDBC
在这里插入图片描述
数据读写接口
在这里插入图片描述
统一数据接口
在这里插入图片描述
在这里插入图片描述


大数据处理系统

各类算法实现、各类计算模型支撑、提供平台架构
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
理解计算模式
在这里插入图片描述


大数据计算架构

在这里插入图片描述
在这里插入图片描述


计算模型与计算架构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述


MapReduce计算模型

在这里插入图片描述在这里插入图片描述


例子 计算词频

在这里插入图片描述
计算原理
在这里插入图片描述


  • 按行拆分
  • map、reduce程序不一定一一对应
  • suffle结果存放在磁盘空间中(磁盘读写)

图并行计算模型

在这里插入图片描述


流计算模型

在这里插入图片描述


计算平台与计算引擎

在这里插入图片描述


数据应用系统

在这里插入图片描述

在这里插入图片描述

IBM
在这里插入图片描述
ORACLE
在这里插入图片描述

Mcrosoft
在这里插入图片描述


大数据应用系统


第三讲 数据采集方法

要求:讲授数据的采集方法和数据接口

内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。


系统日志数据采集

在这里插入图片描述


日志数据采集目的

在这里插入图片描述


系统日志数据采集

在这里插入图片描述


网络数据采集


搜索引擎局限性

在这里插入图片描述


网络爬虫工作原理

根据既定目标抓取数据,选择性抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源

技术框架:控制器、解析器、资源库。
控制器:为各个现成分配工作任务,并调度爬虫的线性资源。
解析器:批量下载网页,并对页面的格式和内容进行处理
资源库:存储下载到的网页资源,通常采用大型的数据库存储模型

爬虫体系结构
在这里插入图片描述
在这里插入图片描述


第四讲 数据清洗与规约方法

要求:介绍数据预处理技术、数据清洗技术、数据规约技术的基本原理和方法

内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。


第五讲数据分析算法

要求:讲授常用的数据分析算法的原理

教学内容:讲授内容包括常用的数据分析算法的原理,并比较不同数据分析算法之间的区别,让学生掌握各种数据分析方法的原理,并能够选择适当的方法解决数据科学中的问题。本章重点为常用的数据分析算法的原理。


第六讲 文本读写技术

要求:讲授文本读写技术的工作原理及方法

教学内容:让学生掌握文本读写技术的组成特点,了解常见的文本读写技术的特点,掌握读取文件、写入文件、连接数据库的方法等。本章重点为文本读写技术的工作原理。


第七讲 数据处理技术

教学要求:介绍数据处理技术的基本原理及主要方法

内容:让学生了解数据处理技术的概念和特点,了解其基本原理、主要功能特点等,让学生对数据处理技术有一个初步理解。本章重点为数据处理技术的基本原理。


第八讲 数据分析计算

要求:介绍数据分析技术的概念.算法及应用场景

内容:让学生了解数据分析技术的概念和特点,了解其原理、算法、应用场景等,让学生对数据分析算法体系有一个初步理解。本章重点为数据分析算法的基本原理。


第九讲 数据可视化技术

要求:讲解数据可视化技术的基本原理和主要功能

内容:讲授数据可视化技术的基本原理和主要功能,介绍数据可视化技术的应用场景。本章重点为数据可视化技术的基本原理。


推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • Hadoop发行版本选择指南:技术解析与应用实践
    本文详细介绍了Hadoop的不同发行版本及其特点,帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]
  • 深入解析BookKeeper的设计与应用场景
    本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案,广泛应用于需要高性能和强数据持久性的场景。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • 本文探讨了Hive作业中Map任务数量的确定方式,主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数,可以有效控制Map任务的数量,进而优化Hive作业的性能。 ... [详细]
  • CentOS 7 磁盘与文件系统管理指南
    本文详细介绍了磁盘的基本结构、接口类型、分区管理以及文件系统格式化等内容,并提供了实际操作步骤,帮助读者更好地理解和掌握 CentOS 7 中的磁盘与文件系统管理。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • andr ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
  • 从码农到创业者:我的职业转型之路
    在观察了众多同行的职业发展后,我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师,并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]
  • 本文详细介绍如何使用 Apache Spark 执行基本任务,包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]
author-avatar
远处有个蘑菇丶
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有