一、建设背景
目前,XX市“金保工程”业务系统基于联机事务处理(OLTP),主要解决了日常业务经办的问题,但随着社保数据不断积累,数据量呈现海量存储特征,随着公共服务的不断推进,非结构化数据量也迅猛增加,这些情况导致社保的统计分析能力不断下降,普遍存在业务报表分散、统计查询不便、效率低下的问题,另一方面,随着基金平衡压力剧增,管理层基于海量数据的主题分析、预测分析、政策仿真需求日渐增多,现有的传统数据库平台和核心业务平台难以满足上述这些需求,亟待使用大数据技术来破解难题。
二、项目建设总体要求
2.1 总体建设思路及目标
针对人社部门中社保业务数据分析和利用最为迫切的特点,作为XX市“智慧人社平台”的重要组成部分,拟在我市“金保工程”应用系统数据基础上,运用大数据技术,建立XX市社保大数据系统平台,建立完整的社保数据指标体系,实现对社保数据的综合统计分析,实现社保业务关键指标的主题分析、关联分析,建立数据分析模型,来协助社保政策部门、基金监管部门、经办部门进行政策调整仿真,分析预测社保基金运行的走向,辅助实现社保基金的“开源”和“节流”,辅助实现“应保尽保、应收尽收”,帮助“堵塞漏洞”
2.2本项目建设目标
(1)建设社保大数据综合统计分析基础平台框架;
(2)建设社保大数据综合统计分析系统;
(3)建设养老保险关联分析系统;
(4)建设医疗保险关联分析系统。
3.1项目解决需求
3.1.1 建设社保大数据综合统计分析基础平台框架
采用先进的混搭架构模式,运用大数据技术,结合数据仓库的设计模式,采用分布式计算 分布式数据存储的技术架构框架来实现基础平台框架,本期主要工作包括:
(1)根据平台技术架构及应用部署架构完成系统环境搭建。
(2)将“金保工程”业务系统的数据通过ETL工具或同步工具,抽取到MPP数据仓库。
(3)完成数据质量分析,进行数据预处理,重点包括数据清理、数据集成、数据规约、数据变换等。
(4)初步完成基础建模,在MPP数据仓库中构建数据集市。
(5)通过ETL工具将MPP数据仓库中明细数据抽取到Hadoop中,同时将爬虫过来的数据存储到Hadoop中。
(6)MPP数据仓库作为数据集市支撑上层数据分析和服务,Hadoop提供非结构化数据的存储和管理,同时提供社保明细数据查询。
其中数据抽取部分,可根据源系统的特点采用不同的数据采集方式。数据采集方式包括:
(1)△变更数据抽取:在业务系统部署监控程序,业务系统数据一有变化,就实时从业务系统获取变更数据,保障了业务监控和决策的快速反应。适合的数据源:人社的核心业务系统。
(2)△批量增量数据抽取:定期从数据源中增量抽取数据。适合的数据源:人社的核心业务系统(在无法采用变更数据抽取时)。
(3)数据交换平台:人社部门与其它数据提供方确定数据交换接口和规范,通过数据交换平台以文件数据交换的形式获取。适合的数据源:政府部门相关数据资源、社会部门相关数据资源、互联网数据资源。
(4)网络爬虫:自动的抓取互联网信息的程序。对于如公共服务网站的信息可以利用网络爬虫抓取数据。
(5)API接口:按需求订制开发API接口供数据需求方获取数据。
△---为重要的数据抽取方式,必须保证不影响原有核心业务系统的正常运行,需要原核心系统开发商配合完成的工作由建设方负责协调,配合工作若产生的相关费用须由中标商承担。
3.1.2建设社保大数据综合统计分析系统
按原有统计口径重新开发现有“金保工程”系统中的各类综合统计汇总查询功能,并确保数据的准确、一致。按照业务部门实际需求,根据统计分析系统设计要求,设计开发各类可定制化的条件查询统计汇总功能,其主要统计分析对象应至少包括:
(1)参保人员
分析参保人群在各险种间参保、缴费的对比统计分析情况。基于参保人口的当前信息和历史信息(如年龄、性别、在职或退休、生存状态等),根据生育率、生命表等,利用年龄移算,分析参保人口的现状、预测人口趋势。通过参保人口的分析与预测,可以了解辖区内参保人口现状(年龄结构、性别结构、在职与退休人员比例、期望寿命等),了解参保人口和老龄化的演化趋势。通过系统内外数据比对联动,分析查询人员社保变化轨迹,提炼人员标签,进行个体特征分析,并提供给“智慧人社”公共服务平台查询;针对人群特征比对,挖掘全民参保扩面空间,分析政策补贴拉动社保征缴的可行性。
(2)参保单位
参保缴费率分析:按区域、单位类型、经济类型、隶属关系、行业等分析不同企业的参保缴费情况。
欠费情况分析:分析欠费规模、欠费企业特征。
缴费基数分析:比较分析同类企业的缴费基础,与社平工资、行业指导工资的差异。针对缴费基数按照最低缴费工资水平缴费的现象进行分析。
企业经营状况分析:根据企业的人员规模、工资规模、人员流动情况、缴费情况分析企业的经营状况。
通过系统内外数据比对联动,分析单位社保变化轨迹,提炼单位标签,实现特征分析,并提供给“智慧人社”公共服务平台查询。
(3)基金收支
根据需求订制开发统计查询功能,用于实时、动态、准确地分析各社会保险基金的收入、支出和结余情况,同比、环比变化情况,以及对应的安全支付级别。
(4)考核指标类数据分析
具体按业务部门提供表样,应基本涵盖现行社保的统计报表及决策部门需要的统计分析报表。
(5)医疗保险待遇统计分析
根据XX医保政策,有针对性地对历年医保待遇数据进行统计分析,设计和构建综合性的医保基金运行状况的指标体系,结合专家经验和大数据技术,从基金收入、支出、结余、监管、管理等多维度全面、综合的考察、监测医保基金运行的状况。展示上应多采用图标形式,方便业务人员寻找其中的规律,分析离散点的成因。内容上应至少包括:医保费用分布情况,各待遇段人数分布情况;医保费用按医保项目分布情况,如药品、检查、化验等的占比统计分析;参保人医保待遇分析,如人均费用、均次费用、年人均就诊次数、人均住院天数、就诊率、各类参保人(如按年龄、在职/退休状态、文化程度、收入状况)的医保费用和项目使用情况等;各类诊疗类型的医保待遇分析,如门急诊、住院等的医保费用使用情况分析。
3.1.3建设养老保险关联分析系统
按关联分析系统设计要求,建立指标体系,从多维结构化的角度处理对社会保险基金产生影响的政策、宏观经济方面的因素,为进一步挖掘事件与社保基金之间的深层关系打好基础,具体包括:
(1)养老基金参保征缴指标体系
基金征缴是养老基金主要来源,因此加强基金征缴力度,防范其中风险,有利于保障养老基金的总体稳定,对养老基金征缴产生影响的因素主要有:养老保险参保率(实际参保人数/养老保险制度覆盖人群的人数×100%);养老基金征缴率(实际缴费人数/应缴费人数×100%);缴费基数;养老保险缴费率;养老补缴/中断;养老账户;利率等。
(2)养老基金支付指标体系
养老基金支付主要受以下因素影响:赡养率(领取养老金职工人数/在职职工人数X100%);隐性负债率(隐性负债/养老基金总额×100%);养老保险替代率(统筹区内同期养老金人均领取数/在岗职工人均工资数×100%)。
(3)养老基金违法违规指标体系
基金冒领比率(基金冒领总额/应收统筹养老基金总额);养老基金偷缴漏缴率(偷缴漏缴额/应收统筹养老基金总额)。
3.1.4 建设医疗保险关联分析系统
按关联分析系统设计要求,建立指标体系,从多维结构化的角度处理对职工和居民医疗保险基金产生影响的政策、宏观经济方面的因素,具体包括:
(1)医疗费用实时预警监测
通过实时计算技术,对医保基金、医院的结算情况进行实时监控;利用时序预测方法,预测未来若干月度的基金结算规模。
(2)医保支付比例调整辅助决策
构建医疗保险报销参数调整的模型,针对不同医疗机构等级、就诊类型、人员类别等调整报销比例,测算各类人群的医疗负担,受益受损情况,以及对医保支出的影响。
(3)医保药品目录的调整
利用大数据手段,帮助业务部门在诊疗记录、医保支付记录中筛选使用广泛、疗效确切但未纳入目录的药品,或者,筛选已纳入目录但效果未达到预期的药品,为提出目录调整动议提供数据支撑
(4)居保个人缴费与财政补贴标准测算
利用历史结算数据,构建居保缴费水平、财政补贴与医保支出的测算模型,为标准调整提供决策依据。
(5)医保季度分析报告
基于大数据,自动生成季度报告所需的指标数值。
三、项目建设主要内容与要求
3.1 系统总体建设方案
本项目充分利用现有金保工程数据中心资源,采用先进的混搭架构模式,运用大数据技术,结合数据仓库的设计模式,采用分布式计算 分布式数据存储的技术架构框架来实现基础平台框架,同时建立一套完备的数据标准和数据治理体系。
基于平台提供的数据分析、数据挖掘、数据专题等服务能力,实现社保大数据综合统计分析、养老保险关联分析、医疗保险关联分析三大系统,通过PC和移动双门户进行接入访问。
3.1.1平台技术架构
(1)数据源:
充分利用现有金保工程业务系统中的关系型数据资源,结合大数据技术的理念,搜集文件处理和网络爬虫工具抓取来的互联网上的数据资源,通过清洗、整合,统一同步至数据存储层。
(2)数据存储层:
采用先进的混搭技术架构,利用Hadoop软件满足人社海量数据的存储、加工及并行计算,Hadoop的Hive汇聚整合各来源的数据,用于社保明细数据的快速查询,并提供高并发查询的信息;利用列存MPP数据库搭建人社数据集市,实现各类数据资源的关联计算、分析计算和挖掘计算等应用在性能上的需求,支撑数据分析和数据服务。
(3)数据服务层
通过构建统一数据服务平台,对异构数据存储、计算能力进行整体封装,实现数据与业务的结合,满足数据分析、挖掘和专题服务,提升大数据价值挖掘能力。
(4)数据应用层
提供各类服务接口、公共组件,接入现有ESB总线系统统一调度管理,与各前端应用系统或公共服务(网站、移动端)实时对接,为社保业务经办部门及服务对象提供更高层次的定制化服务。
(5)接入平台层:
平台采用双门户(PC门户 移动门户)设计,PC门户主要面向业务经办机构,解决的是业务部门的日常业务管理统计分析需求。移动门户一方面面向社保经办部门和决策部门,解决的是汇总统计和决策分析的移动端实时查询需求;另一方面,面向服务对象,以提供个性化定制服务。双门户均可按需实现报表的跳转、切片/切块、钻取和旋转等功能。
PC端的应用从功能上应当实现方便、快捷地查看专业报表及直方图、饼图、趋势图、点图、区域图等,配有仪表盘等可随意组合多种报表和图在同界面展示,并可在各类图形界面通过简单点击进行各种维度的变化、数据钻取、切片等。通过开发接口与其它应用系统对接,实现数据共享。
移动门户要实现通过移动应用,可以实时、动态掌握各类统计查询数据,支持数据的维度变化及向上向下钻取。移动应用主要提供可视化展现和预警的功能。业务现状需要从多维度(多指标项)评价,按阈值进行不同类别的警示。
3.1.2 设备部署架构
本次项目建设应当按照用户方要求搭建XX市人社大数据平台。平台可采用成熟的产品解决方案,但应根据用户实际需求进行本地化改造(所提供的大数据管理平台,应提供用户长期免费使用)。要求覆盖XX社保系统各个维度数据,同时支持未来百亿级的数据存储需求。在数据的处理能力方面,模糊数据检索速度做到亿级秒回,亿级数据基于SQL的实时分析,也能在秒级水平返回结果。平台在技术底层的应当具备良好的可扩展性,从而能够为用户方其它大数据分析项目提供稳健扎实的底层支撑。
数据存储和处理引擎的版本。它包括:HDFS、HBASE、Spark、YARN、MapReduce、Hive等处理引擎以及本项目所涉及到的工具组件。
以及MPP数据库软件要求:
3.1.3应用设计需求
3.1.3.1 统计分析系统设计要求
按照社保业务部门要求,利用各类统计分析方法(比较、分组、时间序列、平衡等),对分析对象(人员、单位、基金等)设计分析指标(如参保人数、参保率、缴费率等),按照分析维度(时间、行业、单位性质、行政区划等)从定量与定性两个角度进行分析。统计分析功能是决策支持系统的最基础功能,也是后续开展关联分析和预测分析的基础准备工作。
统计分析系统解决基本和复杂的社保数据统计,从功能上需满足以下要求:
(1)可按报表格式设计报表,包括报表的名称、(复杂的)表头、各类指标项、页眉页脚等。
(2)报表需按一定的周期(如月、季度、年度)自动生成,用户无法手动修改数据。
(3)用户可基于生成的报表进行(图形化)分析,如钻取、排序、添加额外字段、添加图表等。
(4)用户也可以将数据导出用于后续分析。
(5)全市性的数据统计分析,在展示上须使用市国土部门提供给用户方的XX市地理信息数据电子地图底图,通过开源工具建立GIS服务,并要求在原有的二维地图上增加影像地图图层,提供影像地图服务,具体包括:实现二维及影像地图基本功能,如地图的放大、缩小、移动、定位、图层控制等;实现二维地图和影像地图的快速切换,并同步两种地图的数据,包括统计信息等。
查询方式主要包含以下两种:
(1)统计报表查询
指是按一定周期生成的固定格式报表,一般用作向上级主管部门或本级统计部门提交,报表格式一般由上级主管部门或统计部门制定。
统计报表应覆盖社保相关的日常报表及业务部门订制的临时性报表;按用户角色控制报表的访问权限。
(2)自助式查询
按人力资源和社会保障业务设计语义层,将数据仓库的数据资源按照业务部门易于理解掌握的语言和方式呈现。用户可以基于语义层通过拖拽的形式自助式查询数据、制作报表,以便进行更深入的分析。
(3)突发性数据统计分析
金保业务部门或上级主管部门出于工作、决策需要,常要求在指定时间内为其提供偶发性的统计查询或统计分析,这类查询、分析不同于固定格式报表,使用的频度不高,一般无需固化。但所提供数据的准确性、及时性要求较高,不得逾期。一般情况下,从接获需求到提供最终统计分析结果的时间不得超过72小时。
3.1.3.2关联分析系统设计要求
在统计分析基础上,利用关联分析方法(关联比对、关联挖掘算法等)寻找存在于社保业务数据之间或与其他部门数据的频繁模式、关联性、相关性或因果结构,寻找分析对象某些属性的规律和模式。在辅助业务部门进行决策判断时能够全面考虑、综合分析,找到当前存在问题的原因,从而更加有针对性地提出解决问题的办法。关联分析也包含已知因果关系的社保业务主题分析。
关联分析系统包括社保内部指标之间的关联和主题分析,社保和外部数据间的关联和主题分析。
要求对大数据量的社保数据利用关联规则的挖掘进行探索性的分析,针对业务部门关心的核心数据指标,设计和实现社保业务关联规则,建立数据模型,搭建分析平台,提供多种成熟的关联分析模型及算法,并预留模块化的外部数据输入功能。
平台要求能够实现业务人员依据实际业务、社保数据的特点及个人理解,依托平台自主运用进行研判,寻找数据的频繁模式、关联性、相关性或因果结构,寻找分析对象某些属性的规律和模式,从而对政策执行情况进行研究分析和规划统计分析,为决策部门提供科学、准确、及时的依据。具体功能上应至少包括:
(1)决策支持需求分析:分业务领域、分地区对业务运行情况和存在的问题、业务关联变化情况等进行数据分析和数据挖掘,从而对政策执行情况进行研究分析和规划统计分析
(2)政策仿真需求分析:构建政策仿真模型,确定模型的输入参数与输出参数之间的计算关系,从而能够辅助决策者科学地制定政策。
3.1.3.3预测分析系统设计要求
在关联分析的基础上,根据预测分析方向进行数据建模,利用挖掘算法在宏观面(社保各险种基金与宏观经济指标)和微观面(社保各险种基金收支构成的微观层面)分析和挖掘单位或个人的内在驱动模式,预测未来社保基金的收支情况及其他业务预测,以期提前做好准备,降低或规避风险。
预测分析系统在设计上应至少包括对社保业务系统短期和中长期运行情况的预测分析、对政策调整的预测分析、对外部因素扰动后的预测分析以及预测回归分析。部分主题的预测分析可与统计分析功能进行整合,以实现重要指标数据的监测预警。
在具体功能上,要求针对业务部门感兴趣的主题,充分依托统计分析系统与关联分析系统得出的有价值信息,科学建模,以多种展现形式的图表,依输入参数的变化动态显示预测结论,并提供多维度的钻取、切片等功能。预测结论数据要可以固化,方便回归检测预测模型的准确性。
3.1.3.4图形化展示设计要求
系统在展示上应尽可能多采用图形化可视功能,根据用户需求,对接用户方阿里云大数据展示平台,开发相关展示大屏。图形化展示部分应至少包括:地图展示、数据信息多形式展示、模型输出结果多形式展示、阿里云DataV平台展示等。
(1)地图展示:利用XX市国土部门提供地图,针对市区范围内的不同地区(如行政区域等),在地图上展示各地区的相关指标。按地理位置,点击不同地区可以查看详细指标项,并支持向上向下、维度变换等动态方式按需进行查看。
(2)数据信息多形式展示:指数据指标详细图形展示,可以选择相匹配的相关指标,然后分指标详细展示图形,展示指标按需求使用时间和数据值等,展示图形支持柱状图、饼状图、折线图、3D图形等图形模式。有需要时,也应当提供向上向下维度变换的展示功能。
(3)模型输出结果多形式展示:通过进入不同模型预测平台,可以对模型输出结果进行不同形式的图形展示。
(4)应支持和满足用户涉及社保业务、基金及监管的相关实时大屏动态展示需求,须包含在阿里云DataV大屏平台上的实时和非实时展示设计。
3.1.4 安全设计需求
该项目是在金保工程系统的基础上进行融合扩展开发,因此与金保工程系统信息安全等级保护定级相同,均定为三级,应遵照国家信息系统安全等级保护的要求来进行大数据平台的设计、应用系统的开发及测试,确保系统在数据保密性、完整性及整体安全等方面符合等保三级标准。