热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DataSphereStudio数据应用开发管理集成框架【DSS基础】

https:github.comWeBankFinTechDataSphereStudiohttps:gitee.comWeBankDataSphereStudio基于插拔式的集成

https://github.com/WeBankFinTech/DataSphereStudio/https://gitee.com/WeBank/DataSphereStudio

基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。


1 AppConn

  • 应用连接器AppConn,定义了一套统一的前后台接入协议
  • 总共分为三级规范(
    • 一级 SSO 规范
    • 二级组织结构规范
    • 三级开发流程规范)
  • 可以简单快速集成各种上层 Web 系统(让外部数据应用系统快速简单地接入)
  • DSS 通过串联多个 AppConn,编排成一条支持实时执行和定时调度的工作流,用户只需简单拖拽即可完成数据应用的全流程开发。

2 apps组件

2.1 数据开发Scriptis

  • 一款支持在线写SQL、Pyspark、HiveQL等脚本,执行的数据分析Web工具
  • 支持UDF、函数、资源管控和智能诊断等企业级特性

2.2 数据可视化Visualis

  • 支持拖拽式报表定义、图表联动、钻取、全局筛选、多维分析、实时查询等数据开发探索的分析模式
  • 做了水印、数据质量校验等金融级增强

2.3 数据质量管理Qualitis

  • 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台
  • 用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题
  • 数据质量校验工具,提供数据完整性、正确性等数据校验能力
  • 基于Spring Boot,依赖于Linkis进行数据计算

2.4 工作流调度Schedulis

  • 支持常规的 Command Shell 和 Linkis(HadoopMR、 Hive、Spark、Sqoop、 Python)大数据任务;
  • 支持特色的数据检查和工作流之间的依赖任务
  • 支持完善的告警和工作流执行策略
  • 提供多种类型的参数设置,动态全局变量和简单易用的UI

2.5 数据交换工具Exchangis

  • 支持异构数据源之间的结构化和非结构化数据传输同步
  • 抽象了一套统一的数据源和同步作业定义插件,允许用户快速接入新的数据源,并只需在数据库中简单配置即可在页面中使用
  • 基于插件化的框架设计,及计算中间件 Linkis,Exchangis 可快速集成对接 Linkis 已集成的数据同步引擎,将 Exchangis 的同步作业转换成 Linkis 数据同步引擎的数据同步作业
  • 支持对结构化及无结构化的异构数据源之间的数据传输的数据交换平台

2.6 数据Api服务DataApiService

  • DSS目前支持将SQL脚本发布成数据服务API,分享给其他用户使用
  • 业务用户可以在不用写代码和无大数据平台用户的情况下,设置参数,就可以执行数据服务的脚本,并直接浏览或者下载平台数据
  • 数据API服务。可快速将SQL脚本发布为一个 Restful 接口,对外提供 Rest 访问能力

2.7 流式应用开发管理Streamis

  • 基于 DataSphere Studio 的框架化能力,以及底层对接 Linkis 的 Flink 引擎,让用户低成本完成流式应用的开发、调试、发布和生产管理
  • 以 Flink 为底层计算引擎,基于开发中心和生产中心隔离的架构设计模式,完全隔离开发权限与发布权限,隔离开发环境与生产环境,保证业务应用的高稳定性和高安全
  • 流式应用开发管理工具。支持发布 Flink Jar 和 Flink SQL ,提供流式应用的开发调试和生产管理能力,如:启停、状态监控、checkpoint 等

2.8 一站式ML平台Prophecis

  • 集成多种开源机器学习框架
  • 具备机器学习计算集群的多租户管理能力
  • 提供生产环境全栈化容器部署与管理服务

2.9 工作流任务调度平台Apache Dolphin Scheduler

  • 具有强大用户界面的现代数据工作流编排平台
  • 致力于解决数据管道中的复杂任务依赖关系
  • 提供各种类型的现成作业

2.10 数据模型中心——DataModelCenter

2.11 UserGuide

  • 包含帮助文档、新手指引、Dark模式换肤等。

2.12 DataModelCenter

  • 数据模型开发和数据资产管理的能力
  • 数仓规划包含主题域、数仓分层、修饰词等
  • 数据模型开发包含指标、维度、度量、向导式建表等
  • 数据资产打通 Apache Atlas,提供数据血缘能力

2.13.UserManager

  • 自动初始化一个 DSS 新用户所必须的所有用户环境
  • 包含:创建 Linux 用户、各种用户路径、目录授权等

2.14 Apache Airflow

  • 支持将 DSS 工作流发布到 Apache Airflow 进行定时调度。

2.15 SendEmail

  • 提供数据发送能力
  • 所有其他工作流节点的结果集,都可以通过邮件进行发送

2. 16 EventCheck

  • 提供跨业务、跨工程和跨工作流的信号通信能力。

2.17 计算中间件 Apache Linkis

  • 通过提供 REST/WebSocket/JDBC/SDK 等标准接口
  • 上层应用可以方便地连接访问 MySQL/Spark/Hive/Presto/Flink 等底层引擎
  • Linkis 构建了一层计算中间件,方便上层应用与底层数据引擎之间的连接、治理和编排

3 DSS工作流节点

3.1 spark节点

分别支持sql、pyspark、scala三种方式执行spark任务,使用时只需将节点拖拽至工作台后编写代码即可

3.2 hive节点

hive节点支持sql方式执行hive任务,使用时只需将节点拖拽至工作台后编写hivesql代码即可

3.3 PY节点

python节点支持执行python任务,使用时只需将节点拖拽至工作台后编写python代码即可

3.4 shell节点

shell节点支持执行shell命令或者脚本运行,使用时只需将节点拖拽至工作台后编写shell命令即可

3.5 JDBC节点

jdbc节点支持以jdbc方式运行sql命令,使用时只需将节点拖拽至工作台后编写sql即可,注意需要提前在linkis console管理台配置jdbc连接信息

3.6 SendEmail节点等等

SendEmail节点一般作为工作流的最后一个节点,用于将工作流前面的结果信息进行发送,支持发送表格、文本、DashBoard、Display、图片等,用户在使用的时候直接选择想要发送的工作流节点即可

4 ws管理单元

  • DSS以 Workspace 为管理单元,组织和管理各数据应用系统的业务应用
  • 定义了一套跨数据应用系统的工作空间协同开发通用标准,并提供了用户角色管理能力
  • 工作空间是DSS的基本组织结构,通过工作空间,可以将一个部门、一条业务线、一个产品的所有数据应用放入一个工作空间,用来管理相关的参与用户、角色、工程和应用组件等


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文详细介绍了如何在 Django 项目中使用 Admin 管理后台,包括创建超级用户、启动项目、管理数据模型和修改用户密码等步骤。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 本文深入解析了Django框架中的MVT(Model-View-Template)设计模式,详细阐述了其工作原理和应用流程。通过分析URL模式、视图、模型和模板等关键组件,读者将全面理解Django应用程序的架构体系,掌握如何高效地构建和管理Web应用。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • 本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题,并提供了详细的解决方案和建议。 ... [详细]
  • 本文总结了一些开发中常见的问题及其解决方案,包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]
  • 第二十五天接口、多态
    1.java是面向对象的语言。设计模式:接口接口类是从java里衍生出来的,不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]
  • 技术分享:使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统
    技术分享:使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]
  • 在Linux系统中避免安装MySQL的简易指南
    在Linux系统中避免安装MySQL的简易指南 ... [详细]
  • 在深入掌握Spring框架的事务管理之前,了解其背后的数据库事务基础至关重要。Spring的事务管理功能虽然强大且灵活,但其核心依赖于数据库自身的事务处理机制。因此,熟悉数据库事务的基本概念和特性是必不可少的。这包括事务的ACID属性、隔离级别以及常见的事务管理策略等。通过这些基础知识的学习,可以更好地理解和应用Spring中的事务管理配置。 ... [详细]
  • 利用Python进行学生学业表现评估与成绩预测分析
    利用Python进行学生学业表现评估与成绩预测分析 ... [详细]
author-avatar
灯火阑珊2502936477
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有