建模比赛过程中遇到的问题
首先看题的要求
B 题:ATM 交易状态特征分析与异常检测(4.24 更新)
某商业银行的 ATM 应用系统包括前端和后端两个部分。前端是部署在银行营业 部和各自助服务点的 ATM 机(系统),后端是总行数据中心的处理系统。前端 的主要功能是和客户直接交互,采集客户请求信息,然后通过网络传输到后端, 再进行数据和账务处理。持卡人从前端设备提交查询或转账或取现等业务请求, 到后台处理完毕,并将处理结果返回到前端,通知持卡人业务处理最终状态,我 们称这样完整的一个流程为一笔交易。 商业银行总行数据中心监控系统为了实时掌握全行的业务状态,每分钟对各 分行的交易信息进行汇总统计。汇总信息包括业务量、交易成功率、交易响应时 间三个指标,各指标解释如下: 1、业务量:每分钟总共发生的交易总笔数; 2、交易成功率:每分钟交易成功笔数和业务量的比率; 3、交易响应时间:一分钟内每笔交易在后端处理的平均耗时(单位:毫秒)。 交易数据分布存在以下特征:工作日和非工作日的交易量存在差别;一天内, 交易量也存在业务低谷时间段和正常业务时间段。当无交易发生时,交易成功率 和交易响应时间指标为空。 商业银行总行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,来 捕捉整个前端和后端整体应用系统运行情况以及时发现异常或故障。常见的故障 场景包括但不限于如下情形: 1、分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降; 2、分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影 响交易成功率指标; 3、数据中心后端处理系统异常(如操作系统 CPU 负荷过大)引起交易处理 缓慢,影响交易响应时间指标; 4、数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢。
附件是某商业银行 ATM 应用系统某分行的交易统计数据。你的任务是: (1) 选择、提取和分析 ATM 交易状态的特征参数; (2) 设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况 下能做到及时报警,同时尽量减少虚警误报; (3) 设想可增加采集的数据。基于扩展数据,你能如何提升任务(1)(2)中 你达到的目标?
在附件中给4个月的数据 其中包括 日期,时间,交易量,成功率,响应时间
数据量有十几万条;
通过使用R语言分析得出来数据
可以简单得到一些结论 通过数据的筛选与分析并结合R语言对数据处理得到的折线图形分析得出了,交易量与时间,日期存在明显的相关关系。通过交易时间和反应时间图标的分析,我们可以明显得0时到八时与18时至24时的反应时间大致相同,且都处于最高值。我们分析这种情况可能是由于银行工作人员上下班导致ATM机服务的数量不同导致的。通过对数据的选择与处理,提取出来几种特征参数,其中交易次数与交易时刻特征参数符合logistic回归分析模型。结合这四个月的数据分析与每日的交易量图标,工作日和非工作日的散点图发现有明显的区别。其中每天的交易量,成功率与时间也有明显的关系,利用数据及SQL语句数据筛选,通过R语言软件编程,绘制出交易成功率与时间段,交易量的动态。未完待续