作者:灿烂的胖羊羊 | 来源:互联网 | 2023-09-13 16:33
我正在大数据系统中设计数据供应模块。数据供应描述为
从数据湖向下游系统提供数据的过程称为数据供应;它为数据使用者提供了对Data Lake中数据资产的安全访问,并允许他们获取这些数据。数据传递,访问和出口都是Data Provisioning的同义词,可以在这种情况下使用。
在Data Lake Development with Big Data中
。我在设计此模块时正在寻找一些标准,包括如何保护数据,如何识别某些数据(来自系统的数据等)。我在Google上进行了搜索,但是与该关键字相关的结果并不多。您能为我提供一些有关此问题的建议或您自己的经验吗?每个答案都值得赞赏。
谢谢!
数据供应主要是通过为下游使用者创建不同的Data Marts
来完成的。例如,如果您有一个BigData系统,其数据来自各种来源,这些数据汇总到一个Data Lake中,那么您可以创建不同的Data mart,例如“ Purchase”,“ Sales”,“ Inventory”等,并让下游使用它们。因此,仅需要“库存”数据的下游消费者就只需要使用“库存”数据集市。
您最好的选择是搜索“数据集市”。例如,参考:https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/
现在,您可以基于数据集市微调安全性,访问控制。例如
“销售”数据仅可用于销售报告系统,用户,组等。
标记化“购买”数据中的数据,等等...全部达到业务需求。
另一种方法是通过数据导出机制导出聚合数据。例如,使用“ Apache Sqoop”将数据卸载到RDBMS。如果要导出的数据足够小,可以为下游使用者导出,则建议采用这种方法。
另一种方法是在同一个数据湖中创建单独的“消费区”,例如,可以是不同的Hadoop目录或Hive DB。