作者:手机用户2502901925 | 来源:互联网 | 2023-08-23 14:43
系统之前使用关系型数据库,现在业务数据量大,有一张实时监测的数据表,每天大几百万条数据,处理能力有限,所以打算用mongodb或spark,但因为不熟悉spark,最近一直在研究学习,有很多疑问
系统之前使用关系型数据库,现在业务数据量大,有一张实时监测的数据表,每天大几百万条数据,处理能力有限,所以打算用mongodb或spark,但因为不熟悉spark,最近一直在研究学习,有很多疑问,请前辈指教。
HDFS
1、数据一般以什么样的形式保存在HDFS上?文本文件?
2、一个数据文件大小如果小于HDFS的block大小的话,是不是就不会分割成多块分散到其他DataNode?
3、HDFS是不是更适合保存比较大的文件?
4、在工业一般怎么使用spark?可否举个详细的具体的例子?
spark
1、如开头所述,每天大几百万条的监测数据我想使用spark处理,以什么样的形式保存数据到HDFS上?
2、如果使用mongodb保存监测数据,再使用spark sql处理,是不是就不用HDFS了?
3、spark链接mongodb,数据的提取传输是不是又成为瓶颈了?
4、spark使用nosql,除了mongodb,还有其他的推荐吗?各适合什么业务场景?
5、程序开发好之后(以java maven为例),一般采用何总方式提交任务到spark集群(非local模式)?【打包->上传到HDFS->调用spark-submit脚本】都是这样吗?岂不是很麻烦?
6、想本地起程序链接spark集群,调试程序,同步接收计算结果,是不可能吗?计算结果一般都是再保存的方式异步调用吗?
小弟菜鸟,问题各种多,还望能者多劳,知无不尽,多谢分享~