作为知识问答社区的知乎,在任一种知识领域均有涉及,而作为一枚大数据公司的小编,自然是不能放过这样一块推广大数据的福地,因此在知乎建立了我们的专属账号:Princetechs。自打账号建立以来,已有多位大数据从业者及爱好者在知乎上给我们私信,寻求在大数据技术以及概念上的帮助,同时我们也热衷于将我们在大数据领域探索的经验分享给大家,为大数据方面的问题作出走心的解答,并获得了较多认可。
今天小编就把了一些问题及其优质回答整理出来,分享给那些在大数据行业探索及想要了解大数据的朋友。
传统风控手段(经验)会被大数据风控替代吗?还是大数据只能用来辅 助?
Princetechs:
要讲清楚这个问题,我们首先要区别一些概念,首先是大数据和大数据技术,前者是指的数据及可用于风险管理的数据问题,后者是指一些诸如神经网络、支持向量机(SVM)等大数据算法和机器学习的方法。
从数据源的角度,我认为,与个人有关的信息从外到里可以分为三层:第一圈是关于个人的所有信息,第二圈是关于个人的所有履约信息,第三圈是信贷履约的信息。在之前传统的风控中,我们一般利用最里圈的信贷履约信息,加上部分个人基本信息等来预测信贷违(履)约情况。随着互联网和信息技术的发展,部分方便可得的外圈信息,对于内圈的履约预测慢慢地被证明有一定的效果,例如打车的履约情况对信贷履约的判断是一个依据,因此大数据风控随之逐渐兴起。但对于不同圈别数据的跨圈使用,特别是外圈数据往内圈使用的过程中,要特别解决法理约束和本人授权两个问题,这样有利于各种数据在风险评估领域中的可持续使用。
以上说的是大数据问题,再从大数据技术角度来看,任何大数据方法用于信用风险的评估,要满足三个条件:一是明确的,对评分建模的方法论、过程和数据使用上是明确的,对监管、对公众是应该公开的:二是准确的,建立的模型要对不同风险状况的人群有区分能力和排序能力;三是稳定的,数据、方法和模型在人群、时间跨度上是稳定的。从传统的逻辑回归,到决策树,再到机器学习等大数据方法的使用,要始终坚持开发出来的模型“明确、准确和稳定”的三大特点。
大数据在金融领域是如何应用的?
Princetechs:
我们公司专注于用大数据建模分析技术,帮助客户唤醒沉睡数据价值,实现数据价值运营。
目前呢,我们的应用领域主要集中在金融、运营商、教育、医疗四个领域。
既然运营商和医疗已经有人说了,我就来说说金融吧。(这么重要的领域居然还没人说!╮(╯▽╰)╭)
1.银行业
银行可以说是金融领域大数据应用的领头羊,上图中的六个业务板块中,每个版块都可以借助大数据来更深入的了解客户,提升风险管理能力。
以下是一些走在前列的银行的实践。(相比之下,国内的银行在这方面做得实在是不够啊。。。)
其中,大数据新算法在风控领域的应用实践最为丰富,也是目前许多大数据公司的发力点。上世纪80年代,美国FICO公司开发了一系列基于逻辑回归的信用评分方法,并逐渐成为美国社会个人信用评分的通用标准。而随着统计分析和大数据建模技术的进步,算法的发展日新月异,形成了包括决策树、随机森林、神经网络分析与AdaBoost等在内的许多新算法新技术。美国的ZestFinance公司则是利用这些大数据新算法进行个人信用评分和风险控制的典范。
就国内而言,中国人民银行征信中心全面收集企业和个人的信息,系统收录自然人8.6亿多,收录企业及其他组织近2068万户。目前,中国人民银行征信中心的信用报告数字解读体系正是参考了美国个人消费信用评估公司费埃哲开发的FICO信用评分体系。但随着大数据建模技术和时代的发展,作用逐渐下降,出现了模型老旧、信用分数区分度下降、存在刷分漏洞三方面的问题亟待解决。
为此,中国人民银行征信中心联合北京至信普林科技有限公司,选取了五种大数据新算法(支持向量机、决策树、随机森林、AdaBoost和GBDT),针对解决之前体系的各种问题,对央行征信中心进行信用评分体系优化,实现了系统稳定性、准确性、业务指示性实现全面提升。
2.保险
相比于银行,大数据在保险业也大有可为,但步伐却慢了许多,在国内还停留在战略想法阶段。
3.证券
通过爬取互联网上的信息进行分析来指导选股的做法在国内外已经有了比较多的尝试。比如美国的CAYMAN ATLANTIC公司是一家专门基于互联网数据和Twitter等媒体数据进行投资的资产管理公司。他们通过分析社会媒体信息中的情绪信息来交易金融衍生品,曾近发行了第一只“Twitter基金”——Derwent Absolute Return Fund并且取得了正收益。
国内的百度百发、淘金100等基金也是典型的大数据基金。
当然,我们呢也正在和国内前十的公募基金——大成基金合作开发一直基于全网的全球资产配置的指数基金,敬请期待。
同时,和银行、保险业一样,证券行业也可以借助大数据分析来进行潜在客户挖掘、存量客户经营和优质客户流失预警。
比如我们和证监会特批的全国资本市场基础建设和功能性公司——中证信用就正在合作建立资本市场的用户画像体系。
4.举个例子吧
上面说了这么多,更多的集中在可以怎么应用。现在来举个我们实际操作的例子说一说。
该客户当时是美国某大型P2P借贷平台。平台上的投资人在向特定借款人借款之前,可以查看有关借款人的详细信用信息。平台也会对借款人进行从A到G的风险评级,A级风险最小,贷款利率最低;G级风险则最大,利率也最高。
当时面临的问题是?
既有风控模型对借款人坏账率预测准确率低,坏账率较高。
普林科技解决方案
对平台 10 万样本用户的历史数据进行分析,通过用户的自然人信息、工作住房信息、资产水平、历史借贷信息等,建立了坏账率预测模型和用户分级模型。
根据违约率将用户分为7个大类,35个小类,并针对不同类别用户设定不同的借款额度及借款利率。
项目结果
模型在2012年到2014年的数据上测试,同比坏账率减少39.8%,准确性和稳定性实现全面提升。
逻辑回归算法、决策树算法、普林科技P算法在结果准确性上的对比,P算法大比重胜出。
相比于Lending Club原有模型,新模型在稳定性上明显提升。
目前国外有哪些医疗大数据的应用领域?
Princetechs:
作为医疗大数据行业的一个标杆模式,个性化医疗服务(personalized medicine)和与之配套的数据分析服务在美国已经逐渐升温。
数据
在美国,医疗数据的主要拥有方是医院以及保险公司。
数据内容则包括体检测试数据如血压、体重,患病历史数据,曾用药物数据,医生诊疗数据,以及部分基因数据。
目标
个性化医疗服务的目标即是定制个性化的治疗和理疗方案,具体而言有三点:
1.通过病史数据分析,提出对用药种类、剂量的建议
2.根据治疗决策和病人反馈,动态规划下一步治疗措施
3.对潜在慢性病进行预判和预警
现状
目前个性化医疗相对成熟的医学领域主要是慢病和保健领域。这些领域的疾病往往是日积月累形成的,而非偶然性事件或事故,因而病史数据指示性强。
模型
那么大数据分析如何应用于个性化诊疗呢?
我们设训练数据:病史数据为S,曾用诊疗措施为X,疗效反馈为Y
模型输入:新病人的病史信息S'
模型输出:治疗方案建议为X'
传统方法会把这个问题看成分类问题,用S和X建立预测Y的函数,并在此基础上利用S'产生最理想的X'。
但是病人的治疗方案不是一次性决策,而是一个动态问题。所以应先提出治疗措施,观察一段时间疗效如何,再进一步调整治疗手段,不断动态优化方案直至病人康复。
即S1→X1→S2→X2→S3→X3
那么,这个问题应建模成为Sequential decision problem
技术难点
根据病史数据、诊疗数据和疗效数据实现个性化医疗保健的技术难点在于医疗数据的稀疏性。
即对于一种病,病人的并发症只有几种,但是医学上的分类症状(ICD9)有几十万种,因而特征向量非常稀疏。而且单个症状不具有指示性,因而关于某种疾病,需要通过症状聚类进行降维。
相信看过这些回答之后,你一定会对大数据行业有更深的了解,之后我们会不断整理出一些优质回答放到平台上与大家分享。
当然,也欢迎大家关注我们的知乎帐号:Princetechs,期待与你的相遇!