大数据分析是一门实践科学。所谓“学以致用”,学好,是为了用好。
很多人说,大数据分析要学习各种数据分析方法和数据挖掘模型。虽然说得没错,但其实大数据分析最核心的价值,还是对业务的深入洞察和理解,进而为业务提供问题解决方案。
所以,如果你要从事数据分析,不仅需要有深入的数学和统计学背景,更需要有对业务的深刻理解,在学习时,需要偏重很多与业务分析相关领域的知识,如经济学、心理学、营销学,甚至财务和企业管理方面的学科。
优秀的数据分析师,往往来自于对业务观察、思考和理解,也来自于对产品的认知、看法和判断,这些都是无法量化的东西。这也是我们常说的,“从业务中来,到业务中去”。
在互联网公司中,经常能看到这样的“懂技术也懂业务”的大数据分析人才。主要是因为目前互联网企业的数据量很大,不依靠编程,甚至分布式编程,无法高效地处理数据。
比如最近看到的一家互联网大厂的大数据部招聘JD:
社会网络挖掘工程师-基于海量用户行为数据,深度挖掘网络用户的行为模式
-负责大数据应用算法的设计、研发与产品化,包括但不限于复杂网络分析、个性化推荐、群体标签建设等方向-计算机专业复杂网络分析、自然语言处理方向优先
-熟悉大规模图挖掘、机器学习、自然语言处理、分布式计算等相关技术,并具备工程实践经验
-熟练运用各种常用算法和数据结构,有独立的实现能力
-熟悉hadoop/spark等一个或多个分布式计算框架/算法平台
国内 IT 、通讯行业招聘中,有 10% 都与大数据相关,且比例还在上升。图源:百度经验,《大数据工程师的薪资和职业发展路径是什么样的?》
大数据分析具体要学什么 ,还可以从“什么是大数据分析?”这个问题出发,来拆解一下它所包含的技能点。
直白地说,把“大数据分析”这个词拆开来看,就是所需要学习的两大方面的技能点——
“大数据”和“分析”。
这两个词意味着大数据分析的两大必备能力:
一方面,它包括收集、整理和加工数据;另一方面 ,从数据中提取有价值的信息,从而形成对业务有帮助的结论和发现。
看,这么一拆开,关于大数据分析要学什么,就很清楚了。
如果你想要快速又全面地了解数据分析师的基本能力要求,希望入门数据分析实践,推荐看看知乎知学堂的这个“3天实战训练营”:
首先,大数据基础理论和技术要懂。这是做好大数据分析的前提条件。
比如统计学、R语言、数据挖掘等(所以也有人认为统计学、数学不好的人是搞不了这个的) 。
数据分析通常分为两种:批处理和流处理。
批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架Hadoop MapReduce、Spark、Flink 等;
2. 流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 Storm、Spark Streaming、Flink Streaming 等。
上面这些框架都需要通过编程来进行数据分析。
会有人问,我是不是可以不学编程,用一些数据挖掘软件来解决工作需求呢?个人认为,只用软件已经不再适合大数据时代。一方面,现在很多平台处理的数据量,易受软件性能的限制;另一方面,即使你在工作中不需要处理大数据量,但你在分布式编程也要比软件在单机处理速度快很多(虽然很多商业化软件都在逐渐支持分布式部署,但终究不如自己写程序处理要更香,不是吗?)。
简易的大数据处理流程图,这其中需要用到不少大数据处理相关的工具和系统。如,MySQL、Oracle 及传统的Hadoop HDFS 、KFS、GFS等分布式文件系统。图源:;amp;amp;amp;wfr=spider&for=pc其次,掌握典型的业务需求场景的分析技术。
比如,通过大数据分析掌握业务状态、分析业务潜力、评估业务进展等。下面简要分析一下:
1. 掌握业务状态场景:也就是我们通过对业务核心指标的监控,解读和分析,掌握业务经营现状。
比如 ,某款教育类产品的流量出现异常波动,需要数据分析来定位原因:某款暑期线上英语集训营的产品,流量在某一周出现异常幅度的上涨(+13%),是什么原因?怎么作进一步分析?
这个问题,如果要追查流量异常,可使用“OLAP技术”(联机分析处理),通过多个维度拆解数据,逐层追查问题所在。使用的分析思路可以是分组分析(细分样本)和因素分析(细分指标)。定位异常点后,如果不是系统程序的问题,可以进行“异常分析”,基于事先未预料的用户需求,改进产品策略。
2. 分析业务潜力:这个产品当前的主要问题是什么?下一步发展潜力在哪儿?从数据中挖掘问题原因并提出对策,指导产品下一步的改进方向 。比如:某教育网站一款针对小学5-6年级的英语一对一产品,Q1-Q3流失了200个客户(占比总客户量的30%),原因是什么?如何在Q4减少客户的流失(找到对策)?
面对宽泛的业务问题,我们不能只观察数据,而要用“个案分析”摸清楚具体情况,启发分析思路。
比如对于上面这个客户流失分析的案例,可抽样30+位家长用户,逐一打电话询问流失原因。通过反复抽样调研和统计归类,最后得到诸多流失原因及相应占比。
同时,也可用“聚类分析”,选取客户的一些典型特征进行聚类。最后建立一个“回归预测模型”,基于客户的近期情况,预测其流失的可能性。
3. 评估业务进展:新上线的产品策略或新推进的运营活动,带来多少业绩提升?项目的覆盖面和影响面如何?其中存在怎样的问题,如何进一步优化等。比如:针对VIP客户,某教育网站在“618”期间设计了一种全新的优惠促销策略。在当月下发执行后,如何评价促销策略带来的业务提升?是否这批VIP目标客户,同比于去年同期的购买额增长,可否作为促销策略的成果?
购买额的同比增长,难以排除其他因素的干扰,只能用“同质对照组”评估促销策略的收益。分析业务,选择三个最影响客户购买额的特征(行业、地域、企业规模)对样本分层抽样,尽量保证实验组和对照组在购买额变化上的同质性。哪些特征对购买额的影响较大,可以依据业务经验,也可以计算每个特征和购买额的相关性来得到。最后用因素分析的漏斗法进行分析,就能很容易分析出哪个阶段是主要问题。
可见,大数据分析是一个复杂的系统,要学的东西也是多元而丰富的。
数据分析师属于企业中稀缺又特殊的岗位,个人的体会是,优秀的大数据分析师,他最好的状态并不是因为所从事领域的“高级感”,而站在鄙视链的顶端去审视传统的统计技术和理念,反而更能用欣赏和开放的心态去看待和借鉴他人的工作。