热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

暑假学习笔记01

上一学期的云计算课上,也有spark的实验任务。对它有一个初步的了解,但是当时因为时间紧任务重,在完成实验任务后就没有再详细研究。趁着寒假重新开始学习spark,这次希望可以对它掌

上一学期的云计算课上,也有spark的实验任务。对它有一个初步的了解,但是当时因为时间紧任务重,在完成实验任务后就没有再详细研究。

趁着寒假重新开始学习spark,这次希望可以对它掌握的更加全面,首先从基本的概念入手。

包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点 、Spark各种概念之间的相互关系

Hadoop 是基于磁盘的大数据计算框架  

Spark是基于内存计算的大数据并行计算框架

 这是hadoop与spark的基本概念

Spark特点

 

 Scala特性

 

 

BDAS架构

 MapReduce 软件适用于做复杂的批量数据处理(数十分钟到数小时)

Cloudera Impala 软件(类似于hive)基于历史数据的交互式查询(数十秒到数分钟)

Storm 软件基于实时数据流的数据处理( 数百毫秒到数秒)

Spark可以同时满足企业各种应用需求(同时支持批处理 交互式查询 和流数据处理 )

 

 希望这种架构可以满足企业不同类型的需求

最底层(Mesos Hadoop Yarn )是资源的虚拟化层

Spark基于内存计算功能依靠Spark Core实现

Spark SQL提供交互式查询分析

Spark Streaming 提供了流计算功能

MLlib 提供机器学习算法库的组件

Graphx提供图计算

 

Spark组件的应用场景

 

 

Spark基本概念

RDD  (弹性分布式数据集)(分布式 内存的抽象概念 提供了一种高度受限的共享内存模型)

DAG(有向无环图)

Executor 运行具体Task的一个节点

 

 

Spark运行架构

Cluster Manager 集群资源管理器

 Worker Node运行作业任务的工作节点

Driver 每个应用的任务控制节点

Executor 每个工作节点上负责具体任务的的执行进程

 

 

 Spark架构设计的优点 

1.利用多线程来执行具体的任务 减少任务的启动开销

2.Executor 中有一个BlockManager存储模块 会将内存和磁盘共同作为存储设备 有效减少磁盘IO开销(优先写到内存)

Spark各种概念之间的相互关系

 

 

今天了解到的都是很抽象难以理解的名词,说实话还是有些懵懵懂懂,接下来需要通过亲自动手安装软件和编代码来感受它的实际功能。打卡第一天٩(*´◒`*)۶



推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 【回顾】聚焦DTCC | 巨杉数据库与您相约DTCC 数据库技术大会
    2018年5月10-12日,第九届中国数据库技术大会(DTCC2018)将以“数领先机•智赢未来”为主题,设定2大主会场及20个技术专场,邀请来自国内外互联网、金融、教育等行业百余 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • Java工程师书单(初级,中级,高级)
    简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • 软件测试工程师,需要达到什么水平才能顺利拿到 20k+ 无压力?
    前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
author-avatar
三毛
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有