当前位置: 开发笔记 > 编程语言 > 正文

暑假学习笔记01

作者：三毛 | 来源：互联网 | 2023-07-31 09:41

上一学期的云计算课上，也有spark的实验任务。对它有一个初步的了解，但是当时因为时间紧任务重，在完成实验任务后就没有再详细研究。趁着寒假重新开始学习spark，这次希望可以对它掌

上一学期的云计算课上，也有spark的实验任务。对它有一个初步的了解，但是当时因为时间紧任务重，在完成实验任务后就没有再详细研究。

趁着寒假重新开始学习spark，这次希望可以对它掌握的更加全面，首先从基本的概念入手。

包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点、Spark各种概念之间的相互关系

Hadoop 是基于磁盘的大数据计算框架

Spark是基于内存计算的大数据并行计算框架

这是hadoop与spark的基本概念

Spark特点

Scala特性

BDAS架构

MapReduce 软件适用于做复杂的批量数据处理（数十分钟到数小时）

Cloudera Impala 软件(类似于hive）基于历史数据的交互式查询（数十秒到数分钟）

Storm 软件基于实时数据流的数据处理（数百毫秒到数秒）

Spark可以同时满足企业各种应用需求（同时支持批处理交互式查询和流数据处理）

希望这种架构可以满足企业不同类型的需求

最底层（Mesos Hadoop Yarn ）是资源的虚拟化层

Spark基于内存计算功能依靠Spark Core实现

Spark SQL提供交互式查询分析

Spark Streaming 提供了流计算功能

MLlib 提供机器学习算法库的组件

Graphx提供图计算

Spark组件的应用场景

Spark基本概念

RDD （弹性分布式数据集）（分布式内存的抽象概念提供了一种高度受限的共享内存模型）

DAG（有向无环图）

Executor 运行具体Task的一个节点

Spark运行架构

Cluster Manager 集群资源管理器

Worker Node运行作业任务的工作节点

Driver 每个应用的任务控制节点

Executor 每个工作节点上负责具体任务的的执行进程

Spark架构设计的优点

1.利用多线程来执行具体的任务减少任务的启动开销

2.Executor 中有一个BlockManager存储模块会将内存和磁盘共同作为存储设备有效减少磁盘IO开销（优先写到内存）

Spark各种概念之间的相互关系

今天了解到的都是很抽象难以理解的名词，说实话还是有些懵懵懂懂，接下来需要通过亲自动手安装软件和编代码来感受它的实际功能。打卡第一天٩(*´◒`*)۶

推荐阅读

sql
全面解读Apache Flink的核心架构与优势

Apache Flink作为大数据处理领域的新兴力量，凭借其独特的流处理能力和高效的批处理性能，迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景，为大数据处理提供新的视角。 ... [详细]

蜡笔小新 2024-12-01 10:03:17
go
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
go
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
go
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
main
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
ip
收割机|篇幅_国内最牛逼的笔记，不接受反驳！！

收割机|篇幅_国内最牛逼的笔记，不接受反驳！！ ... [详细]

蜡笔小新 2024-12-14 10:20:42
input
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
format
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
join
mysql 分库分表策略_【数据库】分库分表策略

关系型数据库本身比较容易成为系统瓶颈，单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后，由于查询维度较多， ... [详细]

蜡笔小新 2024-12-03 13:09:47
byte
大数据SQL优化：全面解析数据倾斜解决方案

本文深入探讨了大数据SQL优化中的数据倾斜问题，提供了多种解决策略和实际案例，旨在帮助读者理解和应对这一常见挑战。 ... [详细]

蜡笔小新 2024-11-29 13:37:00
byte
深入理解云计算与大数据技术

本文详细探讨了云计算与大数据技术的关键知识点，包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用，以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]

蜡笔小新 2024-11-20 13:24:51
byte
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
format
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
go
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38

三毛

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章