国内母婴社区宝宝树副总裁魏小巍:为什么敏捷BI是我们的必然选择
导语:宝宝树——我们国内的母婴社区,几年来获得如此快速的成长,与其重视数据化运营战略密不可分。宝宝树不仅希望IT人员懂得运用数据,还希望实现全员使用。宝宝树副总裁魏小巍认为,敏捷BI是宝宝树的必然选择。那么,宝宝树为何会做出这样的选择吗?宝宝树因此获得了哪些收益呢?
Q:能否简要介绍下宝宝树的数据部?
A:我们的数据团队在三年前就已经成立,一方面是给我们搭建IT基础设施,另外一方面是梳理我们现在的数据,把数据结构化。因为讲到大数据,更多的还是结构化数据,非结构化的数据的利用率非常低的,去年我们这个部门做了一个升级,把大数据的算法、一些数据方面的升级应用,包括内部用数据的这些工具,落实App精准化部署工具等任务都归到这一部门,现在该部门不到三十人。
Q:那你们公司是自己做数据分析还是和第三方合作?
A:更多的是要借助外力。因为数据是公司的核心,特别是业务数据。更多的工作还是要与第三方合作。我们选择了和国内的数据可视化分析厂商永洪科技合作,基于Yonghong Z-Suite搭建了自己的数据分析系统,在我的理解来看,永洪BI实际上为我们提供了一个系统平台。然后我们要根据需求,在这个平台上进行二次开发。
Q:那你们为什么选择了这个合作伙伴?
A:之前数据后台系统不是没有,但是不够敏捷,和永洪科技合作是看到了它的敏捷性。只是一群做数据的人运用数据是不够的,希望全公司的人都可以用。所以敏捷是必须的。第二是我觉得这些数据也要敏捷,这个前提是要有精准的大数据开发能力。我们用排除法排除掉其他产品,认为Yonghong Z-Suite最符合我们的需求。
Q:运用这个产品前后给你们带来的最明显的变化是什么?
A:工作效率得到了显著提高。比如说之前我们任何部门想跑数据的时候,服务器的负荷比较大,比如半夜12点以后到凌晨7点之前去跑这个数据,一等就是24小时,现在我们随时都可以解决,而且运营得都很好。
Q:你们会怎么进行数据分类?
A:我们自己的大数据大概分成三类,第一类叫做用户基础数据,尤其是用户的性别、年龄、孕期,有了这些就能对用户进行70%的画像。
第二类数据是UGC数据,因为我们本身是社区网站,所以用户产生了大里的内容,通过他们发的这些内容的语意分析,可以进一步地了解他的需求,其实所有的需求只不过是完善之前的基础数据分析,经过长时间的用户积累的分析,把这个定位做得更精准,精准是跟时间相关的,没有公司可以说加一个系统,一天之内就可以把数据分析完,这是不可能的,这跟时间息息相关。时间越长,用户画像就越完备。
第三类数据叫做浏览型数据。也就是用户行为数据前两类数据非常精准地定义了用户80%-90%的需求,这类分析实际上是以量取胜的,比如如果用户连续3天在看关于奶粉的讨论帖,这个用户一定是在选择奶粉,或者是想换一个品牌。大家把三类的数据一分析,可以基本上定义90%以上的用户。
Q:数据处理过程有没有什么压力?
A:数据处理的压力现在可能还不是那么大,我们定期会清除,说白了数据是有保存期的,是会过期的,我们现在基本上三个月清理一下数据,在这三个月内,经过我们分析,整理数据,对用户管理相关的我们储存起来,因为三个月之前的数据基本上没用了,我们在11月份积累了几十亿用户的需求,一点用没有,就过期了。我们之所以压力不大,是因为充分地了解了数据的保鲜期,我们定义这个保鲜期是三个月。所有数据都有保鲜期,不一样的行业保鲜期是不一样的。
Q:那你们在分析数据的时候是否涉及到用户隐私?
A:比如说电话号码、家庭住址等隐私,后台人员只有极个别的人有权限可以看到个人隐私的数据,运营人员最多的是看到用户行为数据。
Q:数据分析给你们带来了什么?
A:我们现在通过分析洞察客户需求、指导产品研发。比如,我们发现当大家开始提雾霾和空气污染的时候,三个月到半年以后,过敏和湿疹这个词也大大提起。所以我们预测在2014年的时候,预防过敏或者是促进肠道消化的的奶粉业务加大,2014年统计整体奶粉销量的时候,有两个品牌的销量非常快,他们两个的竞争点都是预防孩子过敏。这个说的是对于用户需求洞察存在哪些优势。另外。我们一个月会出一个排名靠前的用户关键词,比如孕酮这个词大概在三年前,前二百名都进不了,但是自从去年起开始进入前十名,我们做了调研之后发现污染导致孕酮异常,我们就在想是不是可以开发产品来调整孕酮的异常。于是我们与中科院对接看是否应该根据这个需求来研发一款孕妇奶粉。需求这一块,有一些我们能自己做成的就自己做。当我们发现一个需求但自己做不了的。所以我们就找合作伙伴。
Q:你们的数据来源都是一些所谓的关键用户数据吗?
A:暂时我们只用自己的数据,但是,因为SEO做得好,所以很多百度搜索关键词被导到我们数据库里。除了这个以外,全是自己的数据。
Q:你们会有像数据科学家这样的角色吗?
A:其实不叫数据科学家,一个是算法工程师,会搭数据中心。第二类是算法分析人员,他要能看到数据背后反映的是什么。再有是真正把这个东西实现的人,就是工程师。而这个工程师还要有一定的数据分析基础。所以这三类人是必须的。另外还有一些去享受他们这些成果的人,比如说专门做提问的人,这非常关键,另外就是题目的设置也是非常关键。不会问类似那种你有健身需求吗这种问题,所有人都会回答有,然后就就就敢去建健身中心,这百分百会失败,不能通过不科学的调研和不靠谱的问题去挖掘所谓的客户洞察。
Q:你们通过这三年的发展,你们对大数据的最新认识是什么?
A:首先我觉得公司的高层一定要有人对大数据有相对深刻的认知,这个人既要懂大数据又要有商业敏感度,比如当环境污染越来越严重时,环境污染这个关键词到底和什么其他的关键词最相关,它才产生了奶粉案例。如果没有人给大方向,生看数据,是什么都看不见的。所以大数据分析首先要建立在假设的基础上,然后再去证明或者驳斥一些人的假设。还有就是这种假设要迅速变化。我们任何算法和模型都不是一次成型,有一些小的细节要根据实际情况调整的,其实最后那版成型的是我们认为靠谱的算法,你再跟第一版相比,完全是两个方向。所以我们真正建立这么一支团队,每天在调整这些,这是很琐碎的一件事。
Q:大家都在做数据分析,您觉得咱们最大的区别是什么?
A:精准化程度不一样。比如以广告举例,大数据可以使社区的流量转换为电商销量,转化率更高。经过后台算法,现在最好的CTR记录是从千分之三提升到百分之五点五。这个应该是大多数人认知到的大数据分析。宝宝树现在已经进化到开始通过大数据进行深入用户洞察,从而进行广告推送指导、产品指导。一方面广告算法非常精准,让用户在他最恰当的时间,正好需要这个产品的时候,看到这个广告。比如贷款广告,我们要做到怎么把贷款广告推到正好需要贷款的十个人身上。这就是精准营销。我们现在已经做到1.5了,业内平均的值大概是1%左右。另外就是选品指导,可以通过大数据来知道用户需要什么,比如缩阴仪,我们发现产后妈妈频繁提到缩阴这个关键词,我们赶紧联系厂家,一下子卖出去三千多台缩阴仪,销量非常好。
Q:你们现在对大数据的定位是什么?
A:在我看来现在大数据基本上是宝宝树最主要的产品之一,在未来的5年之内使用大数据,成为宝宝树的驱动力。
Q:你们现在会给整个行业提供相关报告吗?
A:对,我们现在基本每个月都能拿出一个小白皮书,每个季度会出一个相对大的白皮书,跟空气污染、跟二胎、跟过节有关等等。白皮书里的数据都是可以让大家作为行业指导。