该文为招商银行信息技术部数据仓库开发团队负责人吴颖在第六届中国(深圳)金融信息服务发展论坛银行保险业分论坛上的发言。
很高兴今天能够有机会,跟大家分享招商银行在大数据应用体系建设方面的一些思考与实践。我们今天的分享会围绕着大数据技术应用这样一个主题,谈一谈招商银行在当今时代背景下面所面临的挑战,我们对此的一些思考和实践,以及我们对未来的展望。
互联网特别是移动互联网对银行的冲击,我想大家都是深有体会的。以招商银行为例,今天我们手机银行的登录次数已经是我们网点访问量的10倍,是我们网上银行专业版的2倍,同时这个数字仍以每个月10%的速度持续增长。移动互联网的流量竞争和经营,我们认为会是未来竞争的一个主战场。最近招商银行发布的手机银行3.0版,它的整个设计思路与以前的版本有了非常大的变化。我们做这样一个变化的目的,实际上就是通过打造极简金融、极致体验去抢占移动互联网的制高点。从表面上看,手机银行和移动互联网,它们是银行与客户在交互渠道上面的一个革新,但是我想更为本质的,应该是数据驱动对银行服务的一种颠覆。
这里有一组企业对大数据的投资意愿及大数据领域相关市场增长率预测的数字。它进一步可以佐证大数据的火热程度以及它受关注的程度。我想跟两年前相比,现在已经很少会有人再去质疑大数据在影响未来人类生活方面的巨大作用。
从前面的介绍中我们可以看到,互联网和移动互联网给银行业带来的变革需求。互联网思维正在影响我们整个社会的方方面面,包括像普惠、开放、极致体验等一些概念,已经对传统银行业提出了巨大的挑战。我想,既然这个挑战已经不可避免,作为其中一个主要的数据拥有者——银行,我们是不是可以直面挑战、抓住机遇、争取逆袭?我想,这是需要我们思考的。
大数据应用体系的建设,它包含了技术上和管理上的一系列措施和政策,是一个系统性的工程。尽管大数据的热度很高,但是在具体的实践上面,我们还是需要避免出现头脑发热、一哄而上的情况,需要我们能够有理性的分析,以一个全局性的视角去思考,正视过去、立足现在、放眼未来。以下四点是招商银行在大数据应用体系建设过程中所遵循的一个指导思想:
第一、我们认为就单一的大数据技术而言,它并不能够解决我们所面临的所有技术问题。另一方面,不是我们所有碰到的问题都是可以用技术去解决的。所以我们不能对单一的技术存在过度的预期,我想这是招商银行的一个观点。
第二、我们认为传统的仓库技术与新兴技术,它们之间不应该是一种替代关系,而更多的应是一种互补关系。至少在现在这个阶段,招行是这样认为的。
第三、在进行相关建设的时候,我们不能够单纯为了技术而技术。任何一种技术的采用,它最终都是需要回归到能够提升业务洞察力的目标上。
第四、目前,整个大数据领域均处于基础建设的阶段,它的投入实际上是会大于产出的,我们需要把有限的资源用到关键点上面,快速试错,避免偏大求全。
招行认为,整个大数据应用体系的搭建包括三个环节:第一个是平台建设,第二个是数据的获取,第三个是应用的创新,三者实际上是缺一不可的。简单地说,招商银行认为平台是基础、数据是核心、应用是关键。实际上前面已经谈到了,整个大数据应用的建设涉及到非常庞大的投资,目前还处于基础建设的阶段,我们需要甄别和关注重点,有的放矢。
除了控制成本之外,我们还需要有一个因小而美的价值观。这里说的“小”,不是数据量的小,而是在从事相关研究时,我们应用的目标是需要很具体的。招行不会选择特别宽泛、空泛的方向,而是以解决具体问题作为导向,去设定一些研究的方向,同时基于招行目前所能够采集到的数据去做尝试。
所以在2012年到2013年这两年的时间,招行结合了零售、对公等业务领域的具体场景,利用大数据技术做了一系列的预研性的项目。从结果上看,效果都还不错。在这样的过程中,实际上招行一方面积累了相关的技术经验,另一方面也验证了大数据应用本身在银行的价值和可行性。
在具体介绍招行在大数据应用的一些实践之前,我先简单回顾一下,招行在传统的数据仓库领域的一些历程。实际上,招行是国内最早一批开展企业级数据仓库建设的银行。招行从最早的Sybase仓库,到DB2的仓库,再到2013年开始重构的第三代仓库。招行在16年的时间里面,基本上建成涵盖客户服务、产品销售、风险管理、绩效管理、监管审计等领域的完整的数据应用平台。
在大数据领域,招行从2012年开始接触相关的技术。2013年,招行完成了平台的选型,同时搭建了一个实验性的分析平台,去做刚才提到的一些预研项目。2014年,招行在8月份投产了第一个生产系统,是基于hadoop技术搭建的属于历史数据查询平台。同时,招行现在正在搭建一个正式的大数据分析平台,目前这个平台的环境已经准备好了,正在做数据加载。
这个是招行做的一个访问路径分析的例子,通过对访问招行一卡通网站的一卡通客户和信用卡客户的行为对比分析,我们发现,招行信用卡客户在网站的停留时间相对长一些。导致这个差异的原因,主要是因为招行一网通网站里面信用卡的栏目与互动性的内容比较多,这一部分客户会在这些内容、这些栏目之间做跳转。
这是招行在图分析方面的一个实践,使用对公客户的属性标签、企业间的往来交易信息、集团关系、担保关系等等一系列关系,通过图分析,得到一系列的关系网络图。这些关系网络图以可视化的方式,展示给招行的客户经理、风险经理,就可以加强对客户的管控和风险的防范。
这是招行做拦截销售的一个例子,首先我们可以通过使用路径分析的方法,去判断客户的喜好、需求,从而形成客户的标签。第二步,我们可以基于算法引擎,对客户标签进行计算,得到客户最有可能需要的一个产品列表。最后,我们可以在各个客户触点部署客户的识别模块,在我们触达客户的时候,及时地对这个客户进行有针对性的营销,这样将可以提高我们的销售效率。
这是一个基于事件营销的例子,首先客户的行为会产生一系列的事件。对于这些事件进行分析和侦测,我们可以部署一些策略,基于事件去触发一些服务信息。客户收到信息给我们回馈进一步明确的意向之后,我们可以把这样一个事件转到我们的客服,开始做跟进的营销。
前面简单介绍了招行的一些实践。展望未来,我们觉得在大数据时代,过去单一性的平台需要过渡到一个多样化的生态系统,这样才能够发掘更多数据的价值。招行提出建设大数据应用的体系,正是基于这样的一个理解。
招行规划中的数据应用体系,分成三层,包括数据获取层、整合层和分析应用层。在数据获取层,招行借助交换平台、消息队列的技术,去采集批量、准实时和实时的数据。数据整合层,它的核心是包括传统的数据仓库和大数据平台所组成的一个逻辑的数据仓库。
数据获取层采集的数据,招行会根据类型、需求和目标,分别由传统的数据仓库或者是大数据平台,进行加工整合,形成数据模型和数据分析的指标,供上层应用使用。
在应用层,它主要包括面向业务用户和面向客户渠道这两大类集群,主要提供决策支持、分析探索、实时决策、信息交互以及其它专业应用的环境。
在这个架构里面,最核心的是刚才提到的两个平台:一个是传统的数据仓库平台,一个是大数据平台。招行对这两个平台的定位是不尽相同的,传统的数据仓库平台,它是基于数据逻辑模型去整合全行的数据,形成像客户风险、财务绩效等全景的视图。
大数据平台有几个职能:一、它会是招行高性价比的半结构化和非结构化数据的存储平台;二、它是招行对半结构化和非结构化数据进行规整和预处理的计算平台;三、它是基于大数据创新的工具、方法,去探索分析创新应用的探索环境。这是招行对这两个平台的定位,不尽相同。
招行这两个平台大体的情况是这样的。因为现在处于新旧过渡阶段,所以招行现在拥有两个仓库平台,老的平台大概是150T,新的平台现在是240T。招行目前每天处理的数据量大概是2个TB,对外的数据接口超过2千个,招行每天会从150个左右的源系统抽取数据,然后运行差不多13000个ETL作业。招行的大数据平台今年大概是170T、28个节点,到明年招行会扩展到150个节点、650T的规模。
除了平台建设之外, IT的支持模式也是需要招行有相应的调整和变化。在传统的模式下,通常是业务提出一个相对确定的问题,IT会组织数据,对数据进行回答。大数据时代,招行将转变为更侧重于建设和提供平台,同时协助我们的用户去做自主的探索。
除了IT支持模式发生变化之外,招行还需要在分析方法上引入像路径分析、文本分析、图分析等一些新的方法,对传统的方法进行扩展,来支撑对全方位信息进行探索和分析的需要。除了我们提到的像平台、支撑模式、分析方法的一些变化,所有的这些东西最终它都是需要具备相应能力的人去使用的。
大数据分析能力建设,招行认为它是我们整个大数据体系能不能成功最重要的一个环节。招行会按照这样的一个思路,根据不同的工作性质和能力的要求,对招行的业务人员作一个划分,形成一个分析能力的矩阵。在这个矩阵下面,更有侧重地对业务人员进行技能培训和实战经验的积累,从而形成一个全行使用数据的文化,这将是招行未来要做的一个非常重要的工作。
当招行有了平台,有了新的模式,有了新的方法,有了具备相应技能的人,我想整个大数据的运用体系在市场营销、客户服务、风险防范、反欺诈、运营优化等一些领域,都会有非常显著的应用前景,它让招行有机会去尝试用一些新的技术、新的方法去解决当前所面临的业务痛点。
这是招行现在正在实施中的一个项目,这个项目是一个非常典型的大数据应用的例子。招行实施这样一个个性化推荐的项目,一方面它可以解决现在非常严重的信息过载问题,从而创造更好的用户交互体验,提升销售效率。更重要的是它是招行最终实现全渠道协同、全渠道营销一个非常重要的环节。