热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

[SpringCloudTask]6SpringBatch批处理应用设计原则

2019独角兽企业重金招聘Python工程师标准概述本文是SpringCloudTask系列的第五篇文章,如果你尚未使用过SpringCloudTask

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

概述

本文是Spring Cloud Task系列的第五篇文章,如果你尚未使用过Spring Cloud Task,请 移步spring cloud task1 简介与示例。 本文主要讲述的是Spring的另一个核心子项目 Spring Batch 批处理应用的一些设计技巧和原则。这些技巧分别涉及

原则与技巧

应用数据库设计原则

多分区批处理应用通常会用到数据库表分表。分表的设计是选取某个索引列作为分表的关键字,将有不同关键字的数据分别存储在不同物理数据库(表)。数据分表架构应有一个中心数据仓库(表),存储表分区参数等元数据。中心数据仓库(表)一般由单个表(非分区)组成,记录所有表分区的信息。有了中心数据仓库(表),数据分表架构才具有灵活性和可维护性。

中心数据仓库(表)的分区信息表所存储的数据通常是静态的,且只有DBA才有维护的权限。分区信息表的每行都包含一个表分区的信息(或者批处理应用实例的信息),分区信息表应该有代表应用编号的列(program_id ),分区逻辑编号( logical _id)以及要处理的数据分区主键最大值和分区主键最小值等信息。

在应用启动时,控制程序会把应用编号和分区编号传递给应用。如果使用关键列分表的方法,控制程序则会将要处理的数据范围传递给应用。另外下面两种处理还会用到分区编号:

  1. 需要将多个数据处理应用的结果合并并输出到文件或数据库中。
  2. 将分区应用的正常工作日志上报到控制器或将分区发生的错误上报到错误处理器。

极小死锁原则

在并行或分片批处理应用中,数据库资源可能会发生竞争或死锁。在设计数据库时请谨记下面这句话,减少数据竞争条件与完成业务需求同样重要。

死锁或访问热点常常发生在控制表或架构核心表中,如日志表,控制表,锁标识表。系统的瓶颈往往发生在这里,故而在架构设计时应该着重考虑这些表的性能需求。

为降低数据访问冲突所造成的影响,架构中应该设计类似 等待-重试 的周期服务,当访问数据库或发生死锁时,等待-重试 服务能减少数据冲突所造成的影响。这种机制对数据库的错误码并不立即响应,而是在经过预定时间和重试后,如果还发生错误,再向上层抛出错误。

参数解析与验证

分区应用架构应对开发人员相对透明,分区架构应确保下列3个与应用分区相关的任务能够执行:

  1. 在应用启动前检索分区参数
  2. 在应用启动前验证分区参数
  3. 在应用启动时解析参数

验证任务确保参数能满足以下两点:

  1. 确保应用有足够的分区示例覆盖到整个数据集区间
  2. 分区与分区之间没有遗漏的数据

如果应用数据库也采用分表分库的方式来设计,那么还应该有一个表分区检测任务,确保一个应用分区不会跨越多个数据库分区。

分区架构还应该考虑分区的一致性问题,如:

  1. 在进行下一步操作之前确认当前操作完全完成
  2. 如何处理任务分区失败

关于

示例源码

Spring Cloud Task learning 的 task-demo-with-datasource 子项目

后记

Spring Cloud Task是一个优秀的项目,但是我找遍网络,也难以找出系统的、准确的中文相关文档。本系列文章以保证对Spring Cloud Task相关概念和设计理解的正确性为标准,尽量采用通俗易懂的语言,希望能给各位带来一些便捷。

本文内容主要是对 Spring Cloud Task 1.2.2-RELEASE 官方文档的翻译,不过作者水平有限,有不尽然的地方敬请指出。本项目和文档中所用的内容仅供学习和研究之用,转载或引用时请指明出处。如果你对文档有疑问或问题,请在项目中给我留言或发email到 weiwei02@vip.qq.com 我的github: https://github.com/weiwei02/ 我相信技术能够改变世界 。

链接

  • 上篇文章Spring Cloud Task 5 Spring Batch数据分片探究
  • 下篇文章正在准备中

转载于:https://my.oschina.net/weiwei02/blog/1825632


推荐阅读
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • 本文深入探讨 MyBatis 中动态 SQL 的使用方法,包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]
  • 如何在PostgreSQL中查看数据表
    本文将指导您使用pgAdmin工具连接到PostgreSQL数据库,并展示如何浏览和查找其中的数据表。通过简单的步骤,您可以轻松访问所需的表结构和数据。 ... [详细]
  • MySQL缓存机制深度解析
    本文详细探讨了MySQL的缓存机制,包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术,读者可以更好地优化数据库性能。 ... [详细]
  • 该平台旨在为大型企业提供一个高效、灵活且可扩展的分布式微服务架构解决方案。它采用模块化、微服务化和热部署的设计理念,结合当前最先进且无商业限制的主流开源技术,如Spring Cloud、Spring Boot2、MyBatis、OAuth2和Element UI,实现前后端分离的系统管理平台。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 图数据库中的知识表示与推理机制
    本文探讨了图数据库及其技术生态系统在知识表示和推理问题上的应用。通过理解图数据结构,尤其是属性图的特性,可以为复杂的数据关系提供高效且优雅的解决方案。我们将详细介绍属性图的基本概念、对象建模、概念建模以及自动推理的过程,并结合实际代码示例进行说明。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 实体映射最强工具类:MapStruct真香 ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • 如何在PHPcms网站中添加广告
    本文详细介绍了在PHPcms网站后台添加广告的方法,涵盖多种常见的广告形式,如百度广告和Google广告,并提供了相关设置的步骤。同时,文章还探讨了优化网站流量的SEO策略。 ... [详细]
  • 本文详细介绍了如何使用Python编写爬虫程序,从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制,再到多页数据抓取的全过程,并提供了完整的代码示例。 ... [详细]
  • 本文介绍如何使用 Python 编写程序,检查给定列表中的元素是否形成交替峰值模式。我们将探讨两种不同的方法来实现这一目标,并提供详细的代码示例。 ... [详细]
  • 本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程,该课程广受好评,被誉为Python学习的最佳选择。通过生动有趣的教学方式,帮助初学者轻松掌握编程基础。 ... [详细]
author-avatar
保卫祖国666
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有