大数据学习笔记——hadoop生态圈

作者：asfasfdsfd | 来源：互联网 | 2023-05-18 23:29

学习hadoop入门阅读资料，google的三篇论文《Googlefilesystem》：论述了怎样借助普通机器有效的存储海量的大数据；《GoogleMapReduce》：论述

学习hadoop入门阅读资料，google的三篇论文
《Google file system》：论述了怎样借助普通机器有效的存储海量的大数据；
《Google MapReduce》：论述了怎样快速计算海量的数据；

《Google BigTable》：论述了怎样实现海量数据的快速查询；

大数据技术本质上无非解决4个核心问题。
1、存储，海量的数据怎样有效的存储？主要包括hdfs、Kafka；
2、计算，海量的数据怎样快速计算？主要包括MapReduce、Spark、Flink等；
3、查询，海量数据怎样快速查询？主要为Nosql和Olap，Nosql主要包括Hbase、 Cassandra 等，其中olap包括kylin、impla等，
其中Nosql主要解决随机查询，Olap技术主要解决关联查询；

4、挖掘，海量数据怎样挖掘出隐藏的知识？也就是当前火热的机器学习和深度学习等技术，包括TensorFlow、caffe、mahout等；

从生态圈角度展示图：

从架构角度展示图：

推荐阅读

hbase
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
hbase
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
js
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
php
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
ip
hbase伪集群搭建

hbase数据存储有三种跑法，跑在本地磁盘上、跑在伪分布式上、跑在完全分布式上--------额。。。官网的文档挺坑爹的，结合官网、百度、谷歌的各种 ... [详细]

蜡笔小新 2023-10-13 19:16:06
ip
flink访问hive(上)——在idea中本地运行

本文中使用的flink版本1.13，hive版本2.3.4使用工具idea2020有个朋友问了我这个问题，他说他试了很多网上的方法都跑不了， ... [详细]

蜡笔小新 2023-10-12 14:42:41
python
开发笔记:数据分析工具篇——pyspark应用详解

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数据分析工具篇——pyspark应用详解相关的知识，希望对你有一定的参考价值。前面 ... [详细]

蜡笔小新 2023-10-11 18:16:32
ip
如何构建更好的数据立方体系统(Cube)

看到了kylin关于cube的设计，难以抑制的觉得这部分设计得太巧妙了，确实比我们的产品要好上很多，不得不学习一下！ ... [详细]

蜡笔小新 2023-10-10 20:46:30
ip
java filesystem 追加_Java DistributedFileSystem.append方法代码示例

importorg.apache.hadoop.hdfs.DistributedFileSystem;导入方法依赖的package包类privatevoidtestHSyncOpe ... [详细]

蜡笔小新 2023-10-17 17:01:46
ip
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
jar
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
ip
org.apache.hadoop.hbase.client.Increment.getDurability()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hbase.client.Increment.getDurability()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-10-17 12:30:05
ip
无服务器_云原生数据湖架构中的无服务器 Kafka

篇首语：本文由编程笔记#小编为大家整理，主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-12 15:37:48
join
本篇文章主要介绍flink的关系型API

本篇文章主要介绍flink的关系型API，整个文章主要分为下面几个部分来介绍：什么是flink关系型APIflink关系型API的各版本演进flink关系型API执行原 ... [详细]

蜡笔小新 2023-10-11 20:14:25

asfasfdsfd

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章