设计大数据系统的数据供应策略？

作者：灿烂的胖羊羊 | 来源：互联网 | 2023-09-13 16:33

我正在大数据系统中设计数据供应模块。数据供应描述为从数

我正在大数据系统中设计数据供应模块。数据供应描述为

从数据湖向下游系统提供数据的过程称为数据供应；它为数据使用者提供了对Data Lake中数据资产的安全访问，并允许他们获取这些数据。数据传递，访问和出口都是Data Provisioning的同义词，可以在这种情况下使用。

在Data Lake Development with Big Data中

。我在设计此模块时正在寻找一些标准，包括如何保护数据，如何识别某些数据（来自系统的数据等）。我在Google上进行了搜索，但是与该关键字相关的结果并不多。您能为我提供一些有关此问题的建议或您自己的经验吗？每个答案都值得赞赏。
谢谢！

数据供应主要是通过为下游使用者创建不同的Data Marts来完成的。例如，如果您有一个BigData系统，其数据来自各种来源，这些数据汇总到一个Data Lake中，那么您可以创建不同的Data mart，例如“ Purchase”，“ Sales”，“ Inventory”等，并让下游使用它们。因此，仅需要“库存”数据的下游消费者就只需要使用“库存”数据集市。

您最好的选择是搜索“数据集市”。例如，参考：https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/
enter image description here

现在，您可以基于数据集市微调安全性，访问控制。例如

“销售”数据仅可用于销售报告系统，用户，组等。
标记化“购买”数据中的数据，等等...全部达到业务需求。

另一种方法是通过数据导出机制导出聚合数据。例如，使用“ Apache Sqoop”将数据卸载到RDBMS。如果要导出的数据足够小，可以为下游使用者导出，则建议采用这种方法。

另一种方法是在同一个数据湖中创建单独的“消费区”，例如，可以是不同的Hadoop目录或Hive DB。

推荐阅读

jar
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
stream
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
post
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
post
解决 MyBatis 批量操作时 BindingException 异常

本文探讨了在使用 MyBatis 进行批量数据处理时遇到的参数绑定异常问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-24 13:03:13
post
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
post
HDU 2537 键盘输入处理

题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件，遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]

蜡笔小新 2024-11-24 11:01:59
post
2023年1月28日网络安全热点

涵盖最新的网络安全动态，包括OpenSSH和WordPress的安全更新、VirtualBox提权漏洞、以及谷歌推出的新证书验证机制等内容。 ... [详细]

蜡笔小新 2024-11-24 10:29:06
jsp
Docker基础入门与环境配置指南

本文介绍了Docker——一款用Go语言编写的开源应用程序容器引擎。通过Docker，用户能够将应用及其依赖打包进容器内，实现高效、轻量级的虚拟化。容器之间采用沙箱机制，确保彼此隔离且资源消耗低。 ... [详细]

蜡笔小新 2024-11-24 09:54:53
post
基于角色的权限管理在AspNetForums中的应用

本文探讨了在AspNetForums平台中实施基于角色的权限控制系统的方法，旨在为不同级别的用户提供合适的访问权限，确保系统的安全性和可用性。 ... [详细]

蜡笔小新 2024-11-23 18:42:29
post
Excel技巧：单元格中显示公式而非结果的解决方法

本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题，包括使用快捷键和调整单元格格式两种方法。 ... [详细]

蜡笔小新 2024-11-23 18:06:16
instance
使用 Pyglet 加载和显示图像

本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具，特别适用于游戏和多媒体项目。 ... [详细]

蜡笔小新 2024-11-23 15:23:32
instance
2023年7月7日网络安全动态

汇总了2023年7月7日最新的网络安全新闻和技术更新，包括最新的漏洞披露、工具发布及安全事件。 ... [详细]

蜡笔小新 2024-11-23 13:35:48
post
重学前端学习笔记（二十四）HTML里的链接元素

笔记说明重学前端是程劭非（winter）【前手机淘宝前端负责人】在极客时间开的一个专栏，每天10分钟，重构你的前端知识体系& ... [详细]

蜡笔小新 2024-11-23 10:34:04
post
防范互联网服务提供商的恶意劫持行为

本文探讨了互联网服务提供商（ISP）如何可能篡改或插入用户请求的数据流，并提供了有效的技术手段来防止此类劫持行为，确保网络环境的安全与纯净。 ... [详细]

蜡笔小新 2024-11-23 09:41:45
post
正则表达式入门指南

本文基于《正则表达式必知必会》（作者：Ben Forta，译者：杨涛），介绍了正则表达式的基本概念及其应用，包括搜索与替换功能，以及元字符的分类与使用。 ... [详细]

蜡笔小新 2024-11-24 13:00:07

灿烂的胖羊羊

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章