当前位置: 开发笔记 > 后端 > 正文

如何学习spark大数据

作者：霹靂一頁書_629 | 来源：互联网 | 2023-09-04 19:15

闭关半年，曾二爷带着spa

一、大数据的结构
整个大数据体系发展了这么久，其实包含了太多太多的东西了。按照数据的流程大概分为以下几个大的部分

1、数据通道
传输数据用的，将不同数据源的数据导入数据中心，数据中心处理完了之后通过这个通道输出到其他的不同数据介质去给各产品业务进行使用。这部分的组件典型的Kafka、sqoop之类的，当然很多组件也可以做类似的事情。这其中也会有很多需要考虑的事情，比如数据抽取增量还是全量，如果数据量太大是不是需要分区，分区的话应该怎么划分数据，抽过来的数据怎么和历史的数据融合等各种问题。
2、数据储存&查询
数据储存hdfs已经给出了很好的解决方案，但是还是会有很多问题，比如小文件太多的问题。hive呢给hdfs的文件加上了源数据更方便的进行管理，而数据仓库技术又是更大的一块研究怎么管理数据的技术。
3、数据计算
数据计算是大数据最最重要的一部分了，90%的工作都应该体现在这里，其他的基本都算基础设施了。组件上可以分出实时计算和批量计算，而数据挖掘技术就是使用这些计算工具设计各种牛逼的算法，将你的数据精选打磨和挖掘，从中挖出价值。
4、数据可视化
这部分就是数据分析了，利用数据统计画出各种炫酷的图标，直观的呈现数据所蕴含的世界的真理。
5、分布式管理
大数据就是大数据量太大，而我们使用很多机器协同处理，带来的额外的代价就是，如何管理这些机器上的资源。
6、任务管理
数据量大导致很多程序不能很快跑完，而要跑的程序又很多，相互直接还有各种不同的依赖关系，就又带来了任务管理的难题。
7、数据管理
大数据中心基本会收集整个公司所有的数据，而且这些数据经过数据又会产生新的数据，而这么多数据的管理就成了问题。

二、如何学习
看来上面这些内容是不是发现大数据的范畴实在宽，自己掌握的太少，又焦虑了几分呢。没关系让曾二爷来一步步带你学习了解大数据。

2.1 学习计划

我们的学习计划分下面这几条主线

1、精通spark源码系列
这条线我们会从源码入手，深入浅出了解整个spark计算框架，看看一个分布式的计算系统是如何设计出来的，这对我们的编码能力、架构能力等能力都会有系统性的提升。

2、大数据相关内容
这条线我们会介绍一些碎片化的大数据知识，当然虽然是碎片化的，但是我们主题是有个框架的，这些碎片将在这个大的框架下组织成完整的一部分，前面数据讲的内容便是框架的一部分，后面将一步步细化完善这个框架。

3、每周一题
这条线我们将每周出一道大数据题目，都是真实的题目哦，锻炼大家在处理问题方面的能力。

4、思想方法论
这条线当然是一条辅助线，帮助大家在学习技术之余，进行娱乐、提高思想方法论的思考、职场鸡汤等。

2.2 start learning
来开始学习吧
加我微信 Zeal-Zeng 拉你进知识星球、大数据社群和优秀的人一起学习。

推荐阅读

数据统计
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
python
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
python
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
python
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
jvm
大数据SQL优化：全面解析数据倾斜解决方案

本文深入探讨了大数据SQL优化中的数据倾斜问题，提供了多种解决策略和实际案例，旨在帮助读者理解和应对这一常见挑战。 ... [详细]

蜡笔小新 2024-11-29 13:37:00
jvm
全面解读Apache Flink的核心架构与优势

Apache Flink作为大数据处理领域的新兴力量，凭借其独特的流处理能力和高效的批处理性能，迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景，为大数据处理提供新的视角。 ... [详细]

蜡笔小新 2024-12-01 10:03:17
jvm
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
缓存
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新 2024-12-03 18:26:35
缓存
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
spring
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
spring
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
python
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
mq
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
mq
基于Web的Kafka管理器工具之Kafkamanager的编译部署详细安装 (支持kafka0.8、0.9和0.10以后版本)（图文详解）（默认端口或任意自定义端口）

问题详情无奈于，在kafka里没有一个较好自带的webui。启动后无法观看，并且不友好。所以，需安装一个第三方的kafka管理工具为了简化开发者和服务工程师维护 ... [详细]

蜡笔小新 2024-10-10 13:27:31
mq
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13