热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

「短视频」进入大数据领域的学习路线是什么?

视频地址“读字节”公众号视频地址:进入大数据领域的学习路线是什么?“读字节-大数据”B站视频地址:进入大数据领域的学习路线是什么&#x

视频地址

“读字节”公众号视频地址:进入大数据领域的学习路线是什么?

“读字节-大数据” B站视频地址:进入大数据领域的学习路线是什么?

“读字节(大数据)” 知乎视频地址:进入大数据领域的学习路线是什么?


文字内容:

想要进入大数据领域,首先最好要有一个演练场景,也就是你服务的客户具备大量非结构化的数据。若无法满足这一点,其实也不必烦恼,留意有些书的例子就带了很多数据,例如Google的Kaggle网站,有很多美国公共事业的数据。

其次学习大数据要有足够的机器资源,一台8核,16g—32g内存的电脑应该算学习的最低配置吧,现在大部分好点笔记本都能支持。切记是学习大数据技术而不是深度学习啊,那个深度学习硬件配置都是3万起步。

学习大数据一定要从数据的采集、处理(包括流,批)、消息队列和存储入手。这是大数据技术的生命周期

技术路线上,我建议先首先从nosql开始,学会文档数据库,键值对数据库的存储,也最好上手,像elasticsearch,MongoDB,Redis等等先来一圈

其次从日志流式管道入手,理解一下大数据传输的整体生命周期,那么学习elk技术,也就是filebeat采集文件或日志,logstash清洗过滤,kafka临时中转,再写入elasticsearch,Kibana最终显示。那么你会对大数据流的过程有了深刻的认识。

好了,做完上面的事情,总算大数据学习前的热身了!哈哈哈

开始进入正题

第一步开始使用推荐的硬件配置,开始搭建集群,zookeeper集群,做分布式调度;hdfs集群做分布式文件系统;yarn集群做分布式计算;hbase集群列式稀疏存储

第二步Hadoop生态工具搭建,hive工具,实现SQL接口视图加元数据存储;sqoop做rdbms数据库到hdfs的物化视图;flume替换elk,做文件或日志的流式采集进入hdfs。

第三步,开始你的基础编程之旅,包括hdfs的Java调用,MapReduce的程序实现,理解hdfs的块结构,理解MapReduce的计数,排序,连接和聚合,理解分区和分桶等等。另外还要理解实践avro容器格式,parquet列式格式,理解压缩,这些都是根本。

第四步,开始spark之旅,搭建spark集群,学习什么是rdd,dataframe,学习scala语言,会Python更好,学习spark streaming如何将rdd转换成微批模式和流式处理

好吧,有了这些功底,就可以开始一些机器学习或数据科学分析或数据挖掘的学习了。祝愿你能成为大数据这方面的专家。


前往读字节的知乎——了解更多关于大数据的知识

在这里插入图片描述

公众号“读字节” 分布式,大数据,软件架构的深度,专业解读



推荐阅读
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Elasticsearch1Elasticsearch入门1.1Elasticsearch术语1.1.16.0以前的Elasticsearch术语1.1.26.0以后的Elasti ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • 物联网、工业互联网大数据的特点-随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环、共享出行、智能电表、环境监测设备到电梯、数控机床、挖掘机、工业生产线等都在源 ... [详细]
  • 一份来自清华的数据分析笔记,请查收!
    之前发过很多数据分析的文章,收到不少好评,但也有一些困惑:入门数据分析该学哪些知识点?该看哪些书?是从Pyth ... [详细]
  • Hbase1.2.0cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常
    Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug,会造成RegionServer节点compactionqueue持续升高,甚至影响fl ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • Yarn已过时!Kubeflow实现机器学习调度平台才是未来
    来源:AI前线本文约6700字,建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在,为你介绍Kubeflow与其核心组件及其 ... [详细]
  • HadoopYARN集群是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。其核心是通过一个全局的资源管理器来实现分离资源管理与作业调度监控。Hadoop ... [详细]
author-avatar
李太有才_905
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有