热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

设计大数据系统的数据供应策略?

我正在大数据系统中设计数据供应模块。数据供应描述为  从数

我正在大数据系统中设计数据供应模块。数据供应描述为


  

从数据湖向下游系统提供数据的过程称为数据供应;它为数据使用者提供了对Data Lake中数据资产的安全访问,并允许他们获取这些数据。数据传递,访问和出口都是Data Provisioning的同义词,可以在这种情况下使用。


在Data Lake Development with Big Data中

。我在设计此模块时正在寻找一些标准,包括如何保护数据,如何识别某些数据(来自系统的数据等)。我在Google上进行了搜索,但是与该关键字相关的结果并不多。您能为我提供一些有关此问题的建议或您自己的经验吗?每个答案都值得赞赏。
谢谢!



数据供应主要是通过为下游使用者创建不同的Data Marts来完成的。例如,如果您有一个BigData系统,其数据来自各种来源,这些数据汇总到一个Data Lake中,那么您可以创建不同的Data mart,例如“ Purchase”,“ Sales”,“ Inventory”等,并让下游使用它们。因此,仅需要“库存”数据的下游消费者就只需要使用“库存”数据集市。

您最好的选择是搜索“数据集市”。例如,参考:https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/
enter image description here

现在,您可以基于数据集市微调安全性,访问控制。例如

“销售”数据仅可用于销售报告系统,用户,组等。
标记化“购买”数据中的数据,等等...全部达到业务需求。

另一种方法是通过数据导出机制导出聚合数据。例如,使用“ Apache Sqoop”将数据卸载到RDBMS。如果要导出的数据足够小,可以为下游使用者导出,则建议采用这种方法。

另一种方法是在同一个数据湖中创建单独的“消费区”,例如,可以是不同的Hadoop目录或Hive DB。


推荐阅读
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 本文详细介绍了Socket在Linux内核中的实现机制,包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容,读者可以更好地理解Socket的工作原理。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 本文探讨了在使用 MyBatis 进行批量数据处理时遇到的参数绑定异常问题,并提供了详细的解决方案。 ... [详细]
  • 使用 ModelAttribute 实现页面数据自动填充
    本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解,在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]
  • HDU 2537 键盘输入处理
    题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件,遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]
  • 2023年1月28日网络安全热点
    涵盖最新的网络安全动态,包括OpenSSH和WordPress的安全更新、VirtualBox提权漏洞、以及谷歌推出的新证书验证机制等内容。 ... [详细]
  • Docker基础入门与环境配置指南
    本文介绍了Docker——一款用Go语言编写的开源应用程序容器引擎。通过Docker,用户能够将应用及其依赖打包进容器内,实现高效、轻量级的虚拟化。容器之间采用沙箱机制,确保彼此隔离且资源消耗低。 ... [详细]
  • 本文探讨了在AspNetForums平台中实施基于角色的权限控制系统的方法,旨在为不同级别的用户提供合适的访问权限,确保系统的安全性和可用性。 ... [详细]
  • Excel技巧:单元格中显示公式而非结果的解决方法
    本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题,包括使用快捷键和调整单元格格式两种方法。 ... [详细]
  • 本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具,特别适用于游戏和多媒体项目。 ... [详细]
  • 汇总了2023年7月7日最新的网络安全新闻和技术更新,包括最新的漏洞披露、工具发布及安全事件。 ... [详细]
  • 笔记说明重学前端是程劭非(winter)【前手机淘宝前端负责人】在极客时间开的一个专栏,每天10分钟,重构你的前端知识体系& ... [详细]
  • 本文探讨了互联网服务提供商(ISP)如何可能篡改或插入用户请求的数据流,并提供了有效的技术手段来防止此类劫持行为,确保网络环境的安全与纯净。 ... [详细]
  • 正则表达式入门指南
    本文基于《正则表达式必知必会》(作者:Ben Forta,译者:杨涛),介绍了正则表达式的基本概念及其应用,包括搜索与替换功能,以及元字符的分类与使用。 ... [详细]
author-avatar
灿烂的胖羊羊
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有