热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据工程师微职位学习分享

文章来源大数据微职位~林同学的个人中心(https:blog.51cto.combattosai1962958)随着各行各业的数据量快速增长,无论是从对数据的存储、分析

文章来源
大数据微职位~林同学的个人中心(https://blog.51cto.com/battosai/1962958)

随着各行各业的数据量快速增长,无论是从对数据的存储、分析、处理和挖掘等方面提出了越来越高的要求。IT行业正在逐渐向“DT”行业转变,未来是以数据为驱动的。所以我认为大数据是未来一个主流方向,了解和学习大数据对我们以后的工作和生活都有一定帮助。

近期我个人学习了大数据工程师微职位这门课,并且已经通过了所有的考核。下面切入正题,分享一下我的学习心得,因为篇幅关系,不涉及具体知识点。

因为这门课是偏大数据分析的,基本上不涉及大数据组件的开发,所以这门课撇开了冗长的java课程。另外,因为涉及到大数据平台的搭建,需要一定的Linux基础,而这部分基础其实可以快速掌握,因此不需要说系统地学完一整套的Linux之后才开始学大数据。当然,如果本身有java或者oracle的基础的话,学起来是有一定的效率加成的。

1.大数据平台搭建。我们可以重点掌握Linux的内存结构是怎么运作的,可以和jvm的特性结合起来。一些文件系统的相关命令参数要熟知,后面可以类比于HDFS。另外,Linux环境变量加载顺序和时间配置也需要掌握。

2.MapReduce。大家可以了解它的计算框架,比如MapReduce和YARN的资源调度和处理过程是怎样的,如何去执行一个MapReduce程序,以及reducer和partitioner等等这些中间过程做了什么动作。

3.HDFS。有必要去弄明白HDFS分布式文件系统的架构,搞清楚数据和元数据的关系以及安全模式,要去掌握一下HDFS+zookeeper实现HA的方式。hadoop集群的搭建,包括系统准备与初始化

、硬件的选择、参数配置、集群故障的诊断等,最后可以了解一下HDFS组件的优化。

4.Hbase。可能很多企业不会具体用到Hbase,而这个要视具体场景而定。我们可以先系统的学习概念和一些基础的操作,同时了解NoSQL以及分布式数据库的数据模型以及特性,和一些典型应用场景。

5.Flume和Kafka。流式计算我们听得比较多了,而可能并不清楚具体内容。这里我们可以去了解流式计算的计算框架,通过实例我们可以比较容易明白flume和kafka如何一起配合来实现一个应用日志实时分析系统,同时我们在学习spark streaming的时候也可以去类比和Storm/Flink真正的流式计算的区别在哪里,应用场景和各自的优缺点是什么。

6.Hive。了解一下hive的产生动机。和传统sql语句使用上的对比。hive的函数有哪些,有哪些复杂数据类型。怎么使用hive进行查询和分析,比如创建库表,怎么将hdfs上的数据load到hive里面查看,怎么通过sqoop将mysql的数据导入到hive表中等等。需要掌握分区表怎么使用,怎么去优化和扩展hive的使用。

7.spark。了解spark sql的出现动机,spark背后的RDD原理。单机版和集群版的部署。RDD、DataFrame和DataSet的关系以及如何演变的。可以重点关注spark程序的运行流程,包括并行处理和数据本地化的概念。最后要掌握spark性能优化的常用方法广播变量和累加器。

8.数据科学和机器学习。这里还是需要一定的统计学、概率论、线性代数等数学基础。可以掌握机器学习里面的3C,推荐系统的原理等,如何通过spark的组件spark Mlib去辅助推荐系统等。这里你会真切感受到学好数学多么地重要...

建议大家边学习边做笔记,要不然知识点太分散不容易记住。然后演示中的操作自己多动手实践,毕竟数据分析还要多动手才能巩固。另外,很多知识点的修行还要靠个人的持续才行,毕竟更新速度都比较快,不能完全依赖老师的讲解,最好是去多去看看官方文档,多了解新旧特性和应用场景。

写得比较粗糙,希望能给大家的学习带来那么一点儿的助攻~最后,祝大家学习完这门课程都能有所收获~~

推荐阅读
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 11月26日,由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,CSDN承办的Hadoop与大数据技术大会(Hadoop&BigDataTechnology ... [详细]
  • Android系统启动过程分析一、Android平台架构首先贴一张Android系统架构图方便理解整个Android架构,这可以让我们从整体上对整个启动流程有个大概认知。可以看出整 ... [详细]
  • Java工程师书单(初级,中级,高级)
    简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • 一面自我介绍对象相等的判断,equals方法实现。可以简单描述挫折,并说明自己如何克服,最终有哪些收获。职业规划表明自己决心,首先自己不准备继续求学了,必须招工作了。希望去哪 ... [详细]
  • 子类从父类继承所有的成员(字段,方法,嵌套类),构造方法不属于成员,所有子类不能继承,但是子类可以调用父类的构造方法对于private方法和属性,子类一定是继承了的,但是没有访问权 ... [详细]
  • 这篇文章主要讲解了“如何应对Android面试”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何应对 ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • 伸缩性|发生_分布式文件系统设计,该从哪些方面考虑?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了分布式文件系统设计,该从哪些方面考虑?相关的知识,希望对你有一定的参考价值。点击上方关注“ ... [详细]
  • 大厂首发!思源笔记docker
    JVMRedisJVM面试内存模型以及分区,需要详细到每个区放什么?GC的两种判定方法GC的三种收集方法:标记清除、标记整理、复制算法的 ... [详细]
  • 博客_2018年博客总结
    本文由编程笔记#小编为大家整理,主要介绍了2018年博客总结相关的知识,希望对你有一定的参考价值。前言     ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
author-avatar
VASTEw
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有