当前位置: 开发笔记 > 编程语言 > 正文

Spark环境搭建（五）

作者：健健22010 | 来源：互联网 | 2023-05-16 18:31

Spark：快速的通用的分布式计算框架概述和特点：1)Speed,（开发和执行）速度快。基于内存的计算；DAG（有向无环图）的计算引擎；基于线程模型；2）Easyofu

　　Spark：快速的通用的分布式计算框架

　　概述和特点：

　　　　1) Speed,（开发和执行）速度快。基于内存的计算；DAG（有向无环图）的计算引擎；基于线程模型；

　　　　2）Easy of use,易用。多语言（Java,python,scala,R）; 多种计算API可调用；可在交互式模式下运行；

　　　　3）Generality 通用。可以一站式解决多个不同场景的应用业务

　　　　　　　　Spark Streaming :用来做流处理

　　　　　　　　MLlib ：用于机器学习

　　　　　　　　GraphX：用来做图形计算的

　　　　4） Runs Everywhere ：

　　　　　　（1）可以运行在Hadoop的yarn，Mesos,standalone（Sprk自带的）这些资源管理和调度的程序之上

　　　　　　（2）可以连接包括HDFS,Cassandra,HBase,S3这些数据源　

　　产生背景：

　　　　1）MapReduce 局限性

　　　　　　（1）代码繁琐（官网有WordOCunt案例）

　　　　　　（2）效率低下：

　　　　　　　　　　a) 有结果写入磁盘，降低效率；

　　　　　　　　　　b) 通过进程模型，销毁创建效率低

　　　　　　（3）只能支持map和reduce方法

　　　　　　（4）不适合迭代多次，交互式，流水的处理

　　　　2）框架的多样化

　　　　　　（1）批处理（离线）：MapReduce,Hive,Pig

　　　　　　（2）流式处理（实时）：Storm,Jstorm

　　　　　　（3）交互式计算：Impala

　　　　综上：　框架的多样化导致生产时所需要的框架繁多，学习运维成本较高，那么有没有一种框架，

　　　　　　既能执行效率高，学习成本低，还能支持批处理和流式处理与交互计算呢？

　　　　结论：Spark诞生

　　Spark与Hadoop对比：

　　　　　　Hadoop生态系统

　　　　　　　　　　Hive:数据仓库

　　　　　　　　　　R:数据分析

　　　　　　　　　　Mahout:机器学习库

　　　　　　　　　　pig：脚本语言，跟Hive类似

　　　　　　　　　　Oozie:工作流引擎，管理作业执行顺序

　　　　　　　　　　Zookeeper:用户无感知，主节点挂掉选择从节点作为主的

　　　　　　　　　　Flume:日志收集框架

　　　　　　　　　　Sqoop:数据交换框架，例如：关系型数据库与HDFS之间的数据交换

　　　　　　　　　　Hbase : 海量数据中的查询，相当于分布式文件系统中的数据库

　　　　　BDAS：Berkeley Data Analytics Stack(伯克利数据分析平台)

　　　 Spark与Hadoop生态圈对比

　　　　注意：在对实时的查询来说，Spark只是一个快速的分布式计算框架，所以没有存储的框架，但是可以连接多个存储的数据源

　　　　Hadoop与Spark对比

　　　　MapReduce与Spark对比：

　　　　　　　　MapReduce:若进行多次计算，MP则需要将上一次执行结果写入到磁盘，叫做数据落地

　　　　　　　　Spark：直接将存储在内存中的结果拿来使用，没有数据落地

　　Spark与Hadoop的协作性

Spark概述和与Hadoop对比

推荐阅读

default
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
go
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
install
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
install
六个关键步骤掌握Python数据分析，探索六款小众但强大的数据处理库

Python 数据分析领域不仅拥有高质量的开发环境，还提供了众多功能强大的第三方库。本文将介绍六个关键步骤，帮助读者掌握 Python 数据分析的核心技能，并深入探讨六款虽不广为人知但却极具潜力的数据处理库，如 Pandas 的替代品和新兴的可视化工具，助力数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-10-29 11:26:54
client
小记hbase数据库java API 常用方法及案例

HBaseAdmin类：管理hbase数据库的表信息，‘创建表、删除表、列出表选项、使表有效/无效、添加或删除列簇’； ... [详细]

蜡笔小新 2024-10-16 13:18:29
java
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
byte
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
client
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
client
使用Python编写自动化脚本实现文件的全量与增量备份

本文探讨了利用Python编程语言开发自动化脚本来实现文件的全量和增量备份方法。通过详细分析不同备份策略的特点，文章介绍了如何使用Python标准库中的os和shutil模块来高效地管理和执行备份任务。此外，还提供了示例代码和最佳实践，帮助读者快速掌握自动化备份技术，确保数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-05 09:50:57
install
分布式开源任务调度框架 TBSchedule 深度解析与应用实践

本文深入解析了分布式开源任务调度框架 TBSchedule 的核心原理与应用场景，并通过实际案例详细介绍了其部署与使用方法。首先，从源码下载开始，详细阐述了 TBSchedule 的安装步骤和配置要点。接着，探讨了该框架在大规模分布式环境中的性能优化策略，以及如何通过灵活的任务调度机制提升系统效率。最后，结合具体实例，展示了 TBSchedule 在实际项目中的应用效果，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-02 11:59:52
jar
如何正确配置与使用日志组件：Log4j、SLF4J及Logback的连接与整合方法

在当前的软件开发实践中，无论是开源项目还是日常工作中，日志框架都是不可或缺的工具之一。本文详细探讨了如何正确配置与使用Log4j、SLF4J及Logback这三个流行的日志组件，并深入解析了它们之间的连接与整合方法，旨在帮助开发者高效地管理和优化日志记录流程。 ... [详细]

蜡笔小新 2024-10-29 18:06:59
random
开发心得：利用 Redis 构建分布式系统的轻量级协调机制

开发心得：利用 Redis 构建分布式系统的轻量级协调机制 ... [详细]

蜡笔小新 2024-10-29 07:37:33
jsp
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42
jsp
Catalyst揭秘 Day1 Catalyst本地解析

Catalyst本地解析今天开始讲下Catalyst，这是我们必须精通的内容之一：基本概念catalyst是一种解析器引擎，而不仅是sql解析引擎。如果研究下catalyst，可以 ... [详细]

蜡笔小新 2024-10-19 13:21:03
client
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41