热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

如何学习spark大数据

闭关半年,曾二爷带着spa


一、大数据的结构

整个大数据体系发展了这么久,其实包含了太多太多的东西了。按照数据的流程大概分为以下几个大的部分


1、 数据通道
传输数据用的,将不同数据源的数据导入数据中心,数据中心处理完了之后通过这个通道输出到其他的不同数据介质去给各产品业务进行使用。这部分的组件典型的Kafka、sqoop之类的,当然很多组件也可以做类似的事情。这其中也会有很多需要考虑的事情,比如数据抽取增量还是全量,如果数据量太大是不是需要分区,分区的话应该怎么划分数据,抽过来的数据怎么和历史的数据融合等各种问题。

2、数据储存&查询
数据储存hdfs已经给出了很好的解决方案,但是还是会有很多问题,比如小文件太多的问题。hive呢给hdfs的文件加上了源数据更方便的进行管理,而数据仓库技术又是更大的一块研究怎么管理数据的技术。

3、 数据计算
数据计算是大数据最最重要的一部分了,90%的工作都应该体现在这里,其他的基本都算基础设施了。组件上可以分出实时计算和批量计算,而数据挖掘技术就是使用这些计算工具设计各种牛逼的算法,将你的数据精选打磨和挖掘,从中挖出价值。

4、 数据可视化
这部分就是数据分析了,利用数据统计画出各种炫酷的图标,直观的呈现数据所蕴含的世界的真理。

5、分布式管理
大数据就是大数据量太大,而我们使用很多机器协同处理,带来的额外的代价就是,如何管理这些机器上的资源。

6、任务管理
数据量大导致很多程序不能很快跑完,而要跑的程序又很多,相互直接还有各种不同的依赖关系,就又带来了任务管理的难题。

7、数据管理
大数据中心基本会收集整个公司所有的数据,而且这些数据经过数据又会产生新的数据,而这么多数据的管理就成了问题。

二、如何学习

看来上面这些内容是不是发现大数据的范畴实在宽,自己掌握的太少,又焦虑了几分呢。没关系让曾二爷来一步步带你学习了解大数据。

2.1 学习计划

我们的学习计划分下面这几条主线

1、精通spark源码系列
这条线我们会从源码入手,深入浅出了解整个spark计算框架,看看一个分布式的计算系统是如何设计出来的,这对我们的编码能力、架构能力等能力都会有系统性的提升。

2、大数据相关内容
这条线我们会介绍一些碎片化的大数据知识,当然虽然是碎片化的,但是我们主题是有个框架的,这些碎片将在这个大的框架下组织成完整的一部分,前面数据讲的内容便是框架的一部分,后面将一步步细化完善这个框架。

3、每周一题
这条线我们将每周出一道大数据题目,都是真实的题目哦,锻炼大家在处理问题方面的能力。

4、思想方法论
这条线当然是一条辅助线,帮助大家在学习技术之余,进行娱乐、提高思想方法论的思考、职场鸡汤等。


2.2 start learning

来开始学习吧
加我微信 Zeal-Zeng 拉你进知识星球、大数据社群 和优秀的人一起学习。




推荐阅读
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 深入解析:主流开源分布式文件系统综述
    本文详细探讨了几款主流的开源分布式文件系统,包括HDFS、MooseFS、Lustre、GlusterFS和CephFS,重点分析了它们的元数据管理和数据一致性机制,旨在为读者提供深入的技术见解。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 本文深入探讨了MySQL中常见的面试问题,包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析,帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]
  • 一面问题:MySQLRedisKafka线程算法mysql知道哪些存储引擎,它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]
  • 历经两个月,他成功斩获阿里巴巴Offer
    经过两个月的努力,一位普通的双非本科毕业生最终成功获得了阿里巴巴的录用通知。 ... [详细]
  • 全面解读Apache Flink的核心架构与优势
    Apache Flink作为大数据处理领域的新兴力量,凭借其独特的流处理能力和高效的批处理性能,迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景,为大数据处理提供新的视角。 ... [详细]
  • 大数据SQL优化:全面解析数据倾斜解决方案
    本文深入探讨了大数据SQL优化中的数据倾斜问题,提供了多种解决策略和实际案例,旨在帮助读者理解和应对这一常见挑战。 ... [详细]
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • 一家位于长沙的知名网络安全企业,现面向全国诚聘高级后端开发工程师,特别欢迎具有一线城市经验的技术精英回归故乡,共创辉煌。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 深入解析BookKeeper的设计与应用场景
    本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案,广泛应用于需要高性能和强数据持久性的场景。 ... [详细]
  • 深入理解Kafka架构
    本文将详细介绍Kafka的内部工作机制,包括其工作流程、文件存储机制、生产者与消费者的具体实现,以及如何通过高效读写技术和Zookeeper支持来确保系统的高性能和稳定性。 ... [详细]
  • 本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程,重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]
author-avatar
霹靂一頁書_629
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有