热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

设计大数据系统的数据供应策略?

我正在大数据系统中设计数据供应模块。数据供应描述为  从数

我正在大数据系统中设计数据供应模块。数据供应描述为


  

从数据湖向下游系统提供数据的过程称为数据供应;它为数据使用者提供了对Data Lake中数据资产的安全访问,并允许他们获取这些数据。数据传递,访问和出口都是Data Provisioning的同义词,可以在这种情况下使用。


在Data Lake Development with Big Data中

。我在设计此模块时正在寻找一些标准,包括如何保护数据,如何识别某些数据(来自系统的数据等)。我在Google上进行了搜索,但是与该关键字相关的结果并不多。您能为我提供一些有关此问题的建议或您自己的经验吗?每个答案都值得赞赏。
谢谢!



数据供应主要是通过为下游使用者创建不同的Data Marts来完成的。例如,如果您有一个BigData系统,其数据来自各种来源,这些数据汇总到一个Data Lake中,那么您可以创建不同的Data mart,例如“ Purchase”,“ Sales”,“ Inventory”等,并让下游使用它们。因此,仅需要“库存”数据的下游消费者就只需要使用“库存”数据集市。

您最好的选择是搜索“数据集市”。例如,参考:https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/
enter image description here

现在,您可以基于数据集市微调安全性,访问控制。例如

“销售”数据仅可用于销售报告系统,用户,组等。
标记化“购买”数据中的数据,等等...全部达到业务需求。

另一种方法是通过数据导出机制导出聚合数据。例如,使用“ Apache Sqoop”将数据卸载到RDBMS。如果要导出的数据足够小,可以为下游使用者导出,则建议采用这种方法。

另一种方法是在同一个数据湖中创建单独的“消费区”,例如,可以是不同的Hadoop目录或Hive DB。


推荐阅读
author-avatar
灿烂的胖羊羊
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有