作者:jack1881的天空_925 | 来源:互联网 | 2023-08-04 10:39
1.第一次接触Hadoop总结篇及面试常考点:https:blog.csdn.netyu0_zhang0articledetails81001421阿里巴巴飞天大数
1. 第一次接触
Hadoop总结篇及面试常考点:https://blog.csdn.net/yu0_zhang0/article/details/81001421
阿里巴巴飞天大数据架构体系与Hadoop生态系统:
https://zhuanlan.zhihu.com/p/82258807
hadoop HDFS常用文件操作命令:
https://segmentfault.com/a/1190000002672666
Spark快速入门(使用Python):
https://zhuanlan.zhihu.com/p/97413611
Apache Spark Examples:
https://spark.apache.org/examples.html
总结
- 就是一个文件系统,可以存大量数据的文件系统,在数据量比较大的时候,提供一套工具来对数据进行计算的系统。
- 文件系统叫hdfs,计算系统叫MapReduce, 后面还加了一个Yarn做资源管理。后面还在上面生长了许许多多的小工具。
- 对,发现还有一套MapReduce的东西,然后又看了下Spark,也是用来计算的,所以他们有啥区别呢?
MapReduce和Spark的区别是什么?:https://www.zhihu.com/question/53354580
- spark具体能干啥:1.能操作本地文件,能统计,能操作数据库,能用sql查询结果,所以感觉就是一个平台,让我们能在遇到大数据的情况下,按照普通数据的方式,提供一个接口,去访问大数据和对大数据进行计算。具体例子:
Spark快速入门(使用Python):https://zhuanlan.zhihu.com/p/97413611