一、项目方案
齐鲁银行自2017年开始建设大数据平台,为全行提供的各类数据服务与全行业务深度融合,大数据服务已成为推动业务发展不可或缺的环节。大数据平台为全行各类业务提供标准化风险数据服务,支撑全行从零售到消贷、从公司到普惠、从线上到线下金融产品和服务创新。以大数据技术挖掘客户基础信息、交易行为建设的客户标签画像,在我行业务营销、业务风险防控中起到越来越重要的作用,为我行业务发展构筑了数据防线。以大数据服务为基础的数据大屏建设和数据自助分析活动,提升了全行的数据分析应用文化,让数据真正为业务发展服务。随着各项数据应用服务的深入,大数据平台的稳定已经成为全行各项经营活动的基础。
当下,在复工复产、“新基建”全面启动的背景下,金融行业对于自主可控有了更高的要求。大数据平台作为新型数据技术应用平台,是金融行业数字化新基建的重要基础平台,未来有着持续横向扩展的需求。为进一步提升齐鲁银行大数据服务的稳定性,并为齐鲁银行建设一个可持续扩展的数据基础服务平台,以信创标准建设齐鲁银行大数据容灾项目成为了我们的必然选择。
齐鲁银行信创大数据平台容灾项目的建设,在软硬件选型上完全遵循信创标准,应用服务器采用ARM架构国产化服务器,采用鲲鹏系列国产CPU芯片,操作系统采用国产麒麟操作系统,软硬件全面满足信创标准。
在大数据容灾体系设计上,采用双集群同时生产在线的双活模式,以保证主集群出现灾难性故障时,能够即时将全部数据服务及应用服务切换至灾备集群,降低RPO、RTO标准。
在容灾数据同步上,采用底层集群组件级数据同步,能够保证数据的一致性,以及提升同步效率。
在应用容灾方面,外围系统通过授权认证文件访问大数据平台,大数据平台主集群与容灾集群版本完全一致,能够降低外围系统应用切换的难度,能够快速恢复业务。
项目实施过程主要分为以下四个阶段:
第一阶段,深入分析原大数据集群的数据结构、数据量,服务涉及的组件、对外围系统的影响,制定大数据容灾集群的建设方案及数据迁移方案。
第二阶段,进行大数据容灾集群的安装部署及数据的迁移。充分考虑到大数据集群数据量庞大以及现生产集群需对外提供服务,数据迁移时采用分批次迁移的方式,将全部数据分为结构化数据和非结构化数据,按照数据类型、库表、数据量进行批次划分,预估每一批次数据迁移所需时间,合理划分迁移批次,减小对生产集群的影响。历史数据迁移完成后,启动容灾集群的每日批量数据加工任务,每日生产集群与容灾集群同步进行数据加工,进行数据一致性校验。
图一 第二阶段示意图
第三阶段,大数据信创集群接管原集群对外服务,成为生产集群。Flume、Kafka、Hive、Hbase等服务切换至信创集群,数据分析服务、数据接口服务、消息队列服务等各项大数据应用服务也切换至信创集群。日常批量数据加工及集群数据同步任务由同一套ETL集群来完成。完成生产集群切换后,将原X86集群迁移至灾备机房,保证不同集群放置在不同的数据中心。此阶段已实现信创集群对原集群生产服务的接管,切换成为生产集群,两套集群通过ETL集群来保证数据同步、保证数据一致性,实现集群应用级容灾。
图二 第三阶段示意图
第四阶段,大数据集群实现组件级容灾。升级集群版本至容灾版本,进一步实现通过大数据平台组件级同步。此阶段灾备集群不再需要ETL集群为其加工数据,生产集群与灾备集群之间通过对应组件完成数据的自动同步,如Hive、Kafka、Hbase、Flume等集群组件,减少外部依赖后,通过大数据集群自身数据同步能力实现底层组件级容灾,减少对外部程序的依赖,进一步提升大数据容灾的可靠性。
图三 第四阶段示意图
二、创新点
齐鲁银行大数据平台容灾项目,为全国首个满足信创标准的大数据灾备平台。
项目建设完成后,大数据容灾集群满足集群双活标准。生产集群为信创标准大数据集群,为各业务系统提供相关数据服务,并可根据业务发展持续扩展。灾备集群使用原X86服务器,在完成基础的数据容灾备份等集群容灾功能的同时又能进行数据模型加工、数据分析、数据挖掘等工作,可以充分利用灾备集群的计算资源。生产集群和灾备集群形成应用级灾备,在生产集群出现灾难性事故时,灾备集群可立即接管服务成为生产集群,大数据平台对外服务也可实现秒级切换,从而保证的行内重要数据资产的安全性、系统的稳定性、业务的连续性。
三、技术实现特点
1.系统软硬件符合信创标准
为了实现信创标准,应用服务器采用ARM架构国产化服务器,采用鲲鹏系列国产CPU芯片,操作系统采用国产麒麟操作系统,软硬件全面满足信创标准。
2.首创性的实践
齐鲁银行大数据容灾项目的建设,实现了大数据平台双集群双活的模式,集群数据可实现组件级快速同步,平台是全国首个符合信创标准的容灾集群。
3.流、批结合的容灾策略
大数据平台容灾采用流、批结合的容灾策略,对于需要满足实时查询访问的如Hbase,ES等组件采用流式容灾机制,实时将变更数据同步到容灾集群,确保在信创集群在发生故障无法使用时做到大数据集群及关联业务系统的快速切换,满足RPO
4.简洁高效的容灾模式
大数据容灾集群建设完成后,数据全部能够通过集群组件之间自动完成同步,能够减少人为干预、不需要依赖外部程序。同时可以结合每日集群批处理的压力、日间对外实时服务的压力,及时调整数据同步的时间和频率。
由于大数据容灾集群是双活机制,在生产集群出现hive、hbase、kafka等组件出现单一或多个故障时,相应组件服务都可以立即切换至灾备集群,组件级数据同步机制有着操作简单、同步效率高等优势,能进一步降低RTO与RPO,从而保证生产集群出现灾难性事故时,灾备集群能够立即接管相应服务,减小外部影响。
对于外围系统访问大数据平台,在大数据平台发生故障进行切换时,由于大数据生产集群与灾备集群的版本与组件服务配置信息完全一致,外围系统切换时只需要修改对应地址、切换集群认证文件即可,极大的降低了外围系统的切换复杂度,实现了业务的快速恢复。
四、项目过程管理
1.需求分析、概要设计、系统详细设计阶段
此阶段为2021年4月-6月,期间主要完成了需求分析、产品选型、架构设计、系统方案设计、实施方案的设计,并完成相关技术文档。
2.系统测试及方案优化阶段
此阶段时间为2021年7月-9月,期间主要完成了系统设计方案、实施方案的验证与细化,对系统进行相关测试。
3.系统部署、测试和上线准备阶段
此阶段时间为2021年10月-12月,主要进行系统安装部署,主备集群数据同步,应用迁移,根据系统运行情况进行参数调优。
4.正式上线
2021年12月底,大数据容灾集群正式上线,实现主备集群容灾,集群双活运行。
五、运营情况
1.数据资产容灾
已完成大数据平台全量数据同步,每日增量数据同步可定制化,按照数据资产不同类型,及重要程度制定差异化的数据同步及验证策略,同步频率及同步机制可即时修改即时生效,并能够定制化分配系统资源。
2.应用容灾
大数据平台双集群双活在线,日常情况下,外围应用通过集群认证文件连接到主集群,在主机群出现灾难性故障时,外围系统可通过更换认证文件将应用切换至容灾集群,无需修改系统代码,切换简单便捷,能快速恢复对外服务。
3.运行监控
大数据集群已实现集群资源、服务的可视化配置与监控,对资源、服务的相关配置全部可通过可视化界面进行,减少代码开发量、降低运维成本。同时,软硬件运行情况,集群组件服务情况也全部实现可视化监控,无需额外部署监控软件即可实现对集群运行情况的监控。
六、项目成效
齐鲁银行大数据信创容灾项目建设完成后,生产集群为信创标准大数据集群成为全行的基础数据平台、全行级数据资源中心,通过标准化数据服务为全行营销、运营、风控等条线系统提供了全面的数字化支持,支撑全行从零售到消贷、从公司到普惠、从线上到线下金融产品和服务创新。同时符合信创标准的大数据生产集群也为未来大数据服务的持续横向扩展提供了坚实的基础。
大数据容灾项目能够保证在生产环境大数据平台出现灾难性故障时,最大程度上保护行内数据资产的安全。目前全行已有百余个系统、近万张表通过大数据平台进行数据的存储、加工,每日约进行近4万笔数据加工处理任务,大数据平台的数据存储量已达到180TB,已建立全部历史数据的容灾保护机制。大数据平台提供7*24小时的标准化数据服务,同时存放着齐鲁银行近年来沉淀的重要数据资产,包括行内的结构化、半结构化及非结构化数据,所以对这些不同的数据资产按照业务场景、重要程度制定不同的分级、分类的容灾策略是本次灾备建设的重点。
齐鲁银行建设的大数据信创容灾项目,是国内首个完全符合信创标准的大数据容灾项目,体现我行一直将科技赋能作为创新发展的驱动力,能够实现对行内数据资产的最大化保护,为实现数据资产价值最大化提供有力支撑。
七、经验总结
通过完成大数据平台容灾项目的建设,进一步保证了齐鲁银行信息系统数据资产的安全。较低的RTO与RPO指标能保证数据的可靠性,双集群双活的方案能保证主集群故障时,能最短时间内完成对数据及应用服务的接管,最短时间恢复业务。大数据平台组件级的容灾方案能够保证数据传输的可靠性,可配置化的容灾策略可以定制化的针对数据的重要程度、集群资源压力等因素及时调整容灾数据同步策略,针对外围系统友好的切换方案,能够便于外围系统快速恢复业务。未来基于可持续扩展、自主可控的各项大数据创新活动将实现业务创新、科技创新齐头并进,数字新基建会成为齐鲁银行实现数字化转型发展的重要支撑。
更多中小金融机构数智化转型优秀案例,请登录中小评选专题页查看。、