作者:李雪萱849 | 来源:互联网 | 2023-08-29 12:25
2016年7月,国家发展改革委、交通运输部、中国铁路总公司联合发布了《中长期铁路网规划》,勾画了新时期八纵八横高速铁路网的宏大蓝图。铁科院为配合这一战略,着手开展新一代客票及电子支付平台等系
2016年7月,国家发展改革委、交通运输部、中国铁路总公司联合发布了《中长期铁路网规划》,勾画了新时期"八纵八横"高速铁路网的宏大蓝图。铁科院为配合这一战略,着手开展新一代客票及电子支付平台等系统升级和扩容工程。
工程涉及到的系统有:新一代客票系统、铁路电子支付平台、短信及语音平台等7个。本期铁科院的项目属于新一代客票系统。铁路新一代客票系统的大数据应用创新主要聚焦12306互联网风控、票额预分应用和针对12306用户画像三个方面:
12306互联网风控:主要是用来解决互联网售票比较严峻的抢票等应用场景。新一代客票系统通过构建风控系统实现风险的预判,然后进行精确打击。通过大数据平台,实时收集网上购票用户的行为数据,以及第三方数据,然后开展实时分析和实时计算,完成对风险的决策和管理,实现实时卡控。
票额预分应用:它以历史客运数据为基础,以列车运行图为约束,对列车的分席别OD客流进行分席别的需求预测,在客流预测的基础上,以票额最大化利用率为优化目标,实施的售票组织策略。基于大数据平台的分析,优先分配重点客流,努力保证稳定客流,科学兼顾其它客流,对销售时机和数量进行预测,通过精细化管理提升发送量和收入。
12306用户画像:铁路旅客用户画像系统是通过对铁路用户的行为数据、交易数据等进行采集、加工和分析,形成用户精准画像数据,为旅客提供精准服务推荐和个性化的客运服务,对内提升铁路客户服务能力和行业核心竞争力,对外支撑精准广告投放以及开展数据增值服务。
业务需求
随着客运业务的运输量增大,和数据分析种类的增多,现有系统已经愈加难以支撑当前业务的需求和数据多样化趋势。基于Sybase IQ建立的分析类系统遇到性能瓶颈,无法及时完成数据加载处理,无法有效支撑更多的分析和访问,铁科院打算引进相关平台级产品进行能力升级,寻求技术成熟、能力充分的数据平台产品,以满足现在和未来业务的性能要求。在此期间,铁科院基于Tez、Hive等SQL on Hadoop类技术应用于历史客票的分析应用,但基于Hadoop的批处理特征,主要还是局限对历史数据的批量分析场景,对于复杂且实时性要求高的分析类应用,仍然依赖Sybase IQ,铁科院此次改造,一方面要解决Sybase IQ在线分析平台的处理瓶颈问题,一方面也是解决Hadoop上客票历史库与在线分析平台的统一数据管理和统一分析问题。
本期项目为扩容,在原有GBase 8a MPP的22节点集群中再增加6个节点,建设完成的28个节点进行动态数据重分布。
作为Sybase IQ的替代,通过在大数据平台中引进GBase 8a MPP数据库,增强了客户数据的分析计算能力,消除了传统Shared
Disk型数据库的处理瓶颈,实现了包括多维分析在内的在线查询能力。
利用GBase UP将基于Hadoop建设的客户历史库和GBase 8a MPP在线库进行整合。用户应用可将在线库数据和历史库数据作为一个统一视图,进行查询和分析计算,使应用不用意识所查询和处理的数据的具体位置,实现应用对数据层透明化访问,并且通过标准SQL统一数据访问,降低了开发难度,防止了1个应用中SQL和HQL混在的局面。并且GBase
UP可以基于标准接口对Cognos这样的第三方BI工具实现直接的数据开放,从而平滑继承之前BI应用。
基于GBase UP的跨引擎的客票数据的生命周期管理,可自动根据数据的生命周期在引擎间自动搬运数据,而对于上层应用又封装为统一视图,这种生命周期管理可综合数据价值和存储成本,实现数据的“适才适所”的分布。
基于GBase UP的大数据平台,可以将各类客运数据统合在一起,形成客运数据湖,各类客运分析应用可以基于GBase UP提供的标准化接口实现DaaS(Data as Service)式服务,从而有效共享全路局数据。
铁科院客票分析系统架构图
海量数据存储和处理:基于GBase UP下的大数据平台(MPP + Hadoop)有效支撑总公司及各地方路局几十TB的数据量,并具有很好的可扩展性,可动态应对今后不断增长的数据分析需要,彻底解决之前Sybase IQ平台上数据处理能力不足的问题。
海量数据的高效分析查询:通过GBase 8a MPP数据库的分布式架构、列存、压缩存储和大规模数据并行处理能力,有效支撑了并行条件下,海量数据分析查询,即席查询能力,实现十亿级数据的秒级在线分析,并且具有线性的系统扩展能力。
数据的统一整合管理:基于GBase UP大数据平台,有效整合了MPP 和 Hadoop两大种类集群能力,将在线数据和历史数据统合成一个统一视图,并以标准SQL封装的方式,对上层应用开放数据分析和数据挖掘能力,简化了大数据应用开发,并通过数据生命周期管理等特性,降低了数据运维难度,提升了系统整体的性价比。