什么是数据分析

数据分析早就是比较老的一个话题,从互联网到移动互联网,数据分析对商业的贡献价值越来越大,零售行业对数据分析的需求大增。现如今最热的大数据,也是人工智能的基础条件之一。早前的数据分析,由于数据量小,更多的是小范围的数据报告。而大数据,就是通过抓取海量数据,完成一个现象型的分析并得出有价值的预测信息。

数据分析是一门非常专业的学科,也一门跨所有领域的学科,无论金融、制造、设计、研发甚至个人生活,都可以涉及并且利用好数据。

下面来看看严岩对于人人网数据服务平台建设经验的分享之谈。

自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会,每届大会超过千人规模,云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等,是目前国内最受欢迎的数据库技术盛会。

数据服务平台建设有什么注意事项

▲2013 DTCC大会现场直播

在2013年中国数据库技术大会(DTCC)第三天的“数据分析与商业智能”专场,来自人人网基础架构部的严岩为大家解密人人网数据服务平台的应用。面对人人网日益增长的数据量,以及产品迭代产生的繁杂数据需求,单纯的依靠某一种技术很难给出完整的解决方案。 人人网的技术团队通过分析数据生命周期,进而划分了不同类型的需求,并使用Hadoop,Mysql,Storm等技术,构建了多种数据分 析与服务平台。同时还搭建了一系列的基础服务,统一解决数据收集、同步、存储的优化问题。

数据服务平台建设有什么注意事项

▲人人网基础架构部的严岩

过去的人人网的数据服务平台——基于日志的数据分析

数据库领域的一个核心的话题是数据到底有什么作用?到底如何通过数据能提供哪些服务?这就要了解用数据干什么。严岩给我们总结了一些常见的应用:

·报表:最常见,最浅层次的数据需求

·Ad-hoc:人和系统都可能是用户,较随意,较浅层的分析

·中间数据源:原始的数据服务

·数据挖掘:深层次,定制化

·推送:实时化

数据服务平台建设有什么注意事项

无论是从原始的传统方式去手工的商业智能,还是初步的基于技术的而到底如何衡量这个数据服务的KPI呢?正确性、延迟、吞吐、灵活性都是考核数据服务的关键所在。

数据服务平台建设有什么注意事项

从数据产生到数据被消费的过程中延迟,第一解决的原始阶段从产生到存储,虽然要做一些工作但是并不能直接产生价值,第二阶段是主数据的建模阶段,这个阶段要做的事情会有很多,如建立数据模型等但是仍然不能变成人类可读的数据,这就是第三阶段可读、可被消费的阶段。

分享优秀经验_大数据优质经验分享_优秀的经验分享的重要性

▲严岩分享他对数据延迟的理解:从数据的产生到可被消费所消耗的时间

数据服务平台建设有什么注意事项

▲目前人人网的数据服务系统的框架图

经过人人网的数据服务框架图,对不同的业务部门提供了不同的服务。包括准实时的、离线的和Streaming三种方式

数据服务平台建设有什么注意事项

数据服务平台建设有什么注意事项

▲Log Cluster

基于日志的分析人人网所提供的功能虽然看似并无太大差异,但是仍然蕴含着很多特点。支持动态扩容、推拉结合、灵活的配置性为后期的维护和操作带来巨大的帮助。而对于性能上的要求,单机70M/S的效率和对于集群的HDFS和网络的支持让这个平台的性能得到很大的提升。这个平台的上的真实的案例,严岩介绍了人人网的包括EDM等的案例。


本文由转载于互联网,如有侵权请联系删除!