基于经营分析系统的大数据中心建设及大数据技术应用经验交流Contents议程1234行业趋势及业界背景传统经分系统无法解决大数据的问题!大数据中心建设方案革命从技术平台开始大数据中心业务应用经验交流不容错过的机遇与挑战总结回顾与最佳实践建议1行业趋势及业界背景传统经分系统无法解决大数据的问题!电信运营商面临的挑战数据量的增长终端设备的增长网络升级的投资压力数据业务盈利性压力移动网络的管道化企业和消费者的需求移动网络将成为应用的平台,

包括Android,HTML5,iPhone.“到2015年,移动WEB网络技术会变得足够先进,现在一半以上的传统应用都将迁移为Web应用.”

-Gartner2009未来的无线企业应用需要能够发挥网络优势的智能Apps(Latency,QoS)更加智能的城市,更加智能的医疗保健更加智能的公共设施从语音到数据转变会对盈利造成挑战,

OTT服务会蚕食运营商的盈利将来的4年内,网络升级的预算将超过1200亿美元智能手机和移动终端娱乐应用程序会在将来的6年时间带来超过10倍到30倍的移动流量物联网的通信已经成为一个快速增长的市场,并且在将来的5年里继续增长4倍拓展数据源已成定局交易型

&应用型数据机器数据社交数据

大量

结构化

吞吐量

快速

半结构化

可采集

多样性

高度非结构化

不确定性企业内容

多样性高度非结构化

大量为了应对挑战,抓住新机会,不能再局限于传统的数据源

大数据的特点多样性(Variety)来源多:企业内部、互联网、物联网等格式多:不局限于结构化数据,也包括音频、图片、视频等非结构化数据高速度(Velocity)增长速度快:数据正在加速增长,IDC预测未来十年将增长50倍处理速度快:对时间敏感,必须快速识别和快速响应才能适应业务需求大容量(Volume)存储量大:充斥着各种数据,经常是PB(1000T)级的信息量计算量大:需要实时应对海量数据的抽取和分析高价值(Value)浪里淘沙却又弥足珍贵,虽然数据的价值密度较低,但是产生的价值总量却十分惊人。麦肯锡:“大数据”的数据量大小远远超过了现有传统的数据库软件和工具的处理能力。与此同时,及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力,正在快速增长,就像预测计算芯片增长速度的摩尔定律一样。Gartner:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科:巨量资料(bigdata),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。

——摘自IDC定义业务挑战13改进风险管理和欺诈监测提高服务的质量、水平和在基站设施及营销成本上获得良好的的投资回报率优化的渠道和服务网络能带来较低的成本、优质的服务及合理的布局提高市场洞察力,以便更好地进行预测,提高需求规划准确性捕捉和分析消费者针对有关服务、品牌和知名度的情感从海量数据中得出洞察-客户的、服务的、品牌的、合作伙伴的、竞争对手的…大数据来临,企业分析体系整体能力再升级数据规模大数据范围广数据加工深入数据服务对象全面数据类型多数据管理复杂话单数据网元等设备数据Wlan数据外部互联网数据……PB级+指数级快速增长结构化、非结构化静态、动态……在线、近线、离线高性能、低成本、高质量、可追溯……企业内部(管理层、执行层、一线营销群体等)企业外部(客户,合作伙伴,供应链、政府部门等)内部生产系统……信息转换知识沉淀价值创造……数据成为公司核心资产和核心竞争力,将被设计用于在成本可承受(economically)的条件下,通过快速(velocity)采集、发现和分析,从大量化(volumes)、多类别(variety)数据中提取高价值(value)现有的经营分析系统无法解决这些大数据带来的问题!市场竞争中的核心利器之一海量手机用户上网。

如何从用户上网行为中发现兴趣点,评估网络业务价值和实现准确产品推荐?手机信令。数量级是CDR数据几十倍。如何及时分析海量手机信令?如何从信令数据挖掘出用户习惯行为轨迹?网络交易规模巨大。如何有效侦测不合法商品图片?如何侦测不真实商品信息?如何捕获潜在欺诈行为?海量数据处理实时分析除了DBMS,我们还需要B域与O域M域的协同分析。如何实现网络运维数据及业务运营数据的双向共享?满足日益苛刻的客户体验要求流量经营是以智能管道(物理网络)与综合平台(商业网络),用大数据的技术手段为依托。以扩大流量规模、提升流量层次、丰富流量内涵、以客户需求为导向,以释放流量价值为目的的一系列理念、策略和行动的集合实时分析Realtimeanalysis海量及快速增长的数据半结构、非结构化的数据电信业务面临着前所未有的数据膨胀和数据多样化,能否有效地利用和分析这些数据成为激烈市场竞争中的核心利器之一2大数据中心建设方案革命从技术平台开始12.09立项历程回顾Now12.12集成13.01试用13.04上线13.11立项14.03试用14.05上线13.09扩容13.12升级项目一期紧急扩容项目二期历时五个月,,初具流量监监控分析能力力离线方式7月上线,准实实时年底上线线目前处于立项项规划阶段大数据方案之之功能架构图图数据源数据处理层图例一期提升二期新增访问层O域GPRS数据WLAN数据M域成本数据信令数据互联网域网页数据运维管理系统管理调度管理配置管理监控管理数据管理维护管理网管数据资源及配置数数据B域订购数据终端数据投诉数据标签数据采集与解析层信令令检检测测系系统统网管管系系统统财务务管管理理系系统统库存存管管理理系系统统经分分系统统客服服系统统COC平台台计费费数据据BOSS系统统InternetMc口GGSN-SGSN网元元Gn口、、Gb口S6a、S5/8网元元城域域网网出出口口、、IDC机房房一级级/省级级Radius链路路Gn口流流量量分光光解析析预处处理理接口口文件件获取取校验验预处处理理网页页信信息息爬虫虫爬爬取取信息息提提取取信息息加加工工实时时融融合合感感知知海量量数数据据分分布布式式处处理理数据据关关联联、、处处理理GPRS网络络质质量量感知知GPRS用户户行为为感知知数据据稽稽核核综合合资资源源管管理理系系统统海量量数数据据在在线线分分析析海量量数数据据离离线线挖挖掘掘流量量用用户户全全景景视视图图流量量用用户户标标签签共享享服务务内部部共共享享合作作伙伙伴伴共共享享统一一门户户GIS展现现大屏屏监监控控智能终端端统一网管管系统应用功能层主题分析用户分析析内容分析终端分析业务分析位置分析四网协同同专题分分析客户洞察察网络服务务质量分析时延分析析速率分析析流量价值值评估用户价值值评估IDC内容引入分析WLAN分流2G挖潜TD分流效果评估估精准营销销换机营销销套餐推荐应用推荐荐内容营销用户群偏好分析析特征用户户群筛选选网络分析流量用户户全景视图图业务营销销应用价值值评估套餐价值值评估合作评估估综合监控控流量投诉诉服务支支撑上网详单单关联查询询投诉热点点分析答疑效果果分析业务能力目标1:建立流量用户360洞察体系业务能力目标2:构建实时精准的专业化运营工具业务能力目标5:助力流量业务的满意度提升业务能力目标3:建立流量价值评估体系,对内对外深入支撑提升流量收益业务能力目标4:助力网络质量保障与压力分流WLAN潜在用户户营销大数据平平台技术术方案建设方案案-软件架构构采集与解析数据源文件FTP应用层访问层统一访问门户O域GPRSWLANB域用户资料等实时规则触发/统一接触控制

营销策划营销审批营销执行营销评估O域MC文件接口O域网管数据等对外服务接口WebServiceSMS流量

数据分光/镜像信令面解析传输面解析计算与存储层实时融合感知WAPPUSH实时计算引擎(VoltDB)应用库GPRS用户行为感知识别1识别N识别2匹配GPRS网络质量感知MAILRMDB日志库UA识别Zookeeper(Coordination)HDFS(HadoopDistributedFileSystem)Map/Reduce(DistributedProgrammingFramework)海量数据分布式计算平台Key-valueDB实例库Key-valueDBZookeeper(Coordination)Hbase(ColumnarNoSQLStore)HDFS(HadoopDistributedFileSystem)Map/Reduce(DistributedProgrammingFramework)识别1识别N识别2匹配海量数据挖掘平台预处理网页

信息互联网域互联网数据AILKHadoopPlatform(HDFS/MR/Nutch)Hbase(ColumnarNoSQLStore)URL识别配置信息配置库RMDBGIS配置信息网页分类终端342134777256166前台库运维管理平台In-memoryDB实时分析数据库Zookeeper(Coordination)HDFS(HadoopDistributedFileSystem)Map/Reduce(DistributedProgrammingFramework)Pig(DataFlow)Hive(HQL)Mahout(机器学习)位置轨迹预处理上下文预处理58配置信息9调度监控维护热点实时查询引擎(Redis)数据流量分析客户终端应用内容位置网络营销管理KPI报表即席查询Zookeeper(Coordination)Hbase(ColumnarNoSQLStore)HDFS(HadoopDistributedFileSystem)Map/Reduce(DistributedProgrammingFramework)配置系统内存计算引擎行/列引擎计算引擎数据管理服务In-MemoryDB基于PC架构MYSQL集群代理代理数据数据数据基于PC架构MYSQL集群代理代理1223……N1服务……M域成本数据等文件合并文件上传共享管理封装开放发布订阅系统能力目标5:新建立系统运维管理能力系统能力目标1:提升系统的实时运营能力系统能力目标2:新增自助分析能力和海量数据挖掘能力系统能力目标2:新增自助分析能力和海量数据挖掘能力系统能力目标3:新增更多访问渠道和GIS展示功能系统能力目标4:提升系统的共享开放能力优势及特特点优化的海海量数据据处理平平台集成的数数据加载载平台低成本的的高可靠靠硬件平平台基于Hadoop技术的实实现的、、优化的的产品级级海量分分析平台,实现对于于各类大大数据的的低成本本的存储储和分析析,具备备无限制制的扩展展能力提供了对对结构化化、非结结构化的的数据进进行批量量、实时时的加载载处理能能力,并并提供无无限制的的扩展和和高性能能处理能能力X86节省大量成本及后后期维护护费用。

。优化的海海量数据据处理平平台集成的数数据加载载平台234高效的数数据库平台低成本的的高可靠靠硬件平平台5高效传统统数据库库平台关系型数数据库用用于存储储和处理理大数据据平台分分析后的的结构化化结果数数据243强大的分分析功能能体系15强大的分分析功能能体系结合国内内外互联联网分析析的最佳佳实践,,以及相关关的合作作机制13大数据中中心业务务应用经经验交流流不容错过过的机遇遇与挑战战不容错过过的机遇遇与挑战战16运营商的的管道蕴蕴藏着大大量有价价值的客客户信息息,运营营商必须须考虑,,如何利用数据据来创造造价值,,挖掘复杂杂社会生生活中每个用用户的信信息需求求,布局局互联网网时代,全全面开展展精准营营销,更更好地服服务客户户、拓展展市场,,实现企企业内部部“智慧运营营”、企业业外部““数据经营营”,进而而服务产产业链,,以应对OTT的异质竞竞争挑战战。企业内部企业外部运营商收益价值信息服务即需信息服务数据整合移动互联联网时代代的到来来,加剧剧了市场场竞争,,运营商商所要面面临的竞竞争不仅来自自同质企企业,也来自异质企业。依依托大数数据全面面数据运运营,布布局互联联网时代,应对数据据流量爆炸性增长,成成为运营营商的发发展趋势势。

国内领先先企业大大数据方方面的战战略布局局大数据资资源大数据处处理与分分析能力力大数据变变现模式式即时需求求数据公共网页页数据数据聚合合自然语言言处理语义分析析深度学习习百度广告告联盟百度指数数、百度度统计百度定制制报告交易数据据信用数据据社交数据据(微博博和陌陌陌)地图数据据(高德德地图))移动应用用数据((友盟))大数据整整合底层架构构大数据并发处理理Tanx(广告交交易平台台)淘宝广告告联盟小微企业业金融服服务数据交易易集市社交数据据交易数据据数据聚合合数据推荐荐智能推荐荐后端数据据整合统统一向前前台开放放游戏广告告OTT竞争者已已经率先先行动:谷歌、、Facebook、百度、、阿里巴巴巴、腾腾讯等都都已经实实施大数数据的战战略;各各类App通过免免费方式式收集用用户的个个人信息息转卖给给广告商商。国内业业界领先先者BAT在大数据据方面已已经先知知先行,,尤以阿阿里巴巴巴围绕““数据””战略进进行的布布局最为为显著大数据支支撑价值值来自于于以下四四方面混合不同同业务域域的细粒粒度数据据,以便便于进行行关联分分析的方方式存储储,同时时兼顾实实时处理理。不断创造造与业务务对象接接触的新新渠道,,在接触触服务中中丰富数数据,刻刻画业务务对象的的全息数数字图像像。

在企业中中需要建建立一支支专职的的数据价价值研发发团队,,有数据据专家领衔,,多种人人才密切切配合,,负责开开发企业业所拥有有的数据据资产的的潜在价价值。为上述生生产者为为核心的的新的业业务模式式配套相相应的组组织机制制和制度度保障。。可同时对对不同类类型数据据进行分分析,并并将分析析结果纳纳入统一一分析模模型中,,作为分分析目标标。可同时实实现实时时分析和和离线分分析,可可对流数数据进行行分析。。拓展数据据分析融合合将大数据据的价值值变现,,建立在在多样的的数据服服务开放放体系之之上,将将分析能能力直接接嵌入到到业务执执行过程程中。运营创新新服务开放放拓展数据据-两场景示示例序号数据源实时性要求粒度备注1话务网管小时级最小网元KPI、统计汇总具备接入条件2数据网管小时级最小网元KPI、统计汇总具备接入条件3综合资管每日资源、基于资源的统计汇总具备接入条件4网优平台每日测量值KPI、统计汇总具备接入条件5Gn信令监测准实时xDR、KPI、统计汇总具备6终端库每周终端库配置数据具备网址:网站名称称:京东商城城网站类别::电子商务商品分类::手机商品名称::苹果(APPLE)iPhone5c16G版3G手机(白色色)WCDMA/GSM商品架构::3998.00商品图片::互联网资源源名片分析融合示示例分布模型((2G/TD手机)2G/TD终端流量地地域分布从2G/TD终端流量分分布来看,,学校、居居民区热点点较为明显显;学校场场景尤为突突出;清华北大等等高校区北邮、师大大、交大、、财经等高高校区昌平财经大大学分校等等高校区大兴居民区丰台居民区项目值数量86万活跃度25%活跃数量21.3万产生流量93GB用户模型0.5MB/日分布模型(2G/TD/WIFI手机)2G/TD/WIFI终端流量分布布2G/TD/WIFI终端流量分布布集中在学校校、医院、地地铁站为代表表的道路交通通区等;对于TD终端,主要措措施为网络分分流,包括天天线调整、邻邻区优化、功功率调整、参参数调整等。

。化工大学、石石油大学、政政法大学等高高校、昌平新新村等居民区区昌平回龙观居居民区、上地地地铁站、邮邮政疗养院地质大学、北北航附小、北北京科技大学学;北科万秀秀园望京轻轨、芍芍药居地铁站站、望京居民民区地铁大望路、、四惠地铁、、万杰医院、、重安康医院院,CBD写字楼房山居民区大兴居民区项目值数量147万活跃度27%活跃数量39.5万产生流量446GB用户模型1.3MB/日服务开放创新新识别潜在的高高价值三方合合作伙伴,分分析其行业优优势,判断其其需要的资源源,以便开展展与其进行合合作,实现共共赢流量流量环比用户数用户数环比业务收入发现潜在高价价值合作伙伴伴收入环比业务活跃度…合作形式移动会员套餐捆绑后向付费应用推送;将将合作伙伴业业务与移动用用户的语音时时长,流量数数据等打包形形成新套餐进进行精确营销销对于使用合作作应用的中国国移动用户,,该应用流量量费用由合作作伙伴承担合作伙伴对使使用其业务的的移动用户,,视为移动会会员,享受更更高的优惠和和更好的服务务共赢中国移动流量量收入增加,,提升竞争力力三方合作伙伴伴获得用户偏偏好信息,更更精准地识别别潜在用户,,助力业务发发展运营创新示例例微信用户与新新浪微博用户户有较高的重叠,但是二者差差距较大。

微信用户比新浪微微博用户多219.89万;新浪微博人均均流量3.72M,微信人均流流量3.23M,新浪微博比微信人均流量高。微信对上网用户的的渗透率比新浪微博高;微信对新浪微博用用户渗透率高于新浪微博对对微信用户的的渗透率。微信用户对上网用户渗透率37.91%新浪微博对上网用户渗透率21.85%微信对新浪微博用户渗透率74.88%新浪微博对微信用户渗透率43.16%微信与新浪微博重叠用户223.97万微信用户数(万)微信总流量(GB)微信人均流量(MB)新浪微博用户数(万)新浪微博总流量(GB)新浪微博人均流量(MB)微信与新浪微博重叠用户(万)518.9916,404.023.24299.1010,887.923.73223.984总结回顾与最佳实实践建议回顾1行业趋势及业业界背景传统经分系统统无法解决大大数据的问题题!面临着前所未未有的数据膨膨胀和数据多多样化,能否否有效地利用用和分析这些些数据成为激激烈市场竞争争中的核心利利器之一。流量经营是以以智能管道((物理网络))与综合平台台(商业网络络),并用大大数据的技术术手段为依托托。以扩大流流量规模、提提升流量层次次、丰富流量量内涵、以客客户需求为导导向,以释放放流量价值为为目的的一系系列理念、策策略和行动的的集合。

大数据中心建建设方案业务能力目标标:①360度全景视图;;②构建实时时精准的专业业化运营工具具;③建立流量价值评估体系系,对内对外外深入支撑提提升流量收益益;④助力网网络质量保障障与压力分流流;⑤助力流流量业务的满满意度提升。。系统能力目标标:①提升升系统的实时时运营能力;;②新增自助助分析能力和和海量数据挖挖掘能力;③③新增更多访访问渠道和GIS展示功能;④④提升系统的的共享开放能能力;⑤新建建立系统运维维管理能力。。大数据中心业业务应用经验验交流大数据支撑撑价值来自自于拓展数据、分析融合、服务开放和运营创新四个方面。。23最佳实践建建议最佳实践战略从一个大数据例证开始,并建立一个业务案例在日常运作中采用数据驱动的思维基于现有的基础架构投资人员和流程通过鼓励数据实践创建数据科学文化利用数据和分析的自助服务方法,使人们能够亲身体验保持治理、安全和隐私-弃置不需要的数据根据技能为每个人提供合适的界面确保协议可以支持不同类型的用户之间的协作技术寻求可重用性采用Hadoop,也要考虑Hadoop

以外的技术优化工作负载性能和成本不断地重新评估什么是(或不是)大数据聚合上下文,挖掘并可视化信息,以找到答案使用在所有大数据源中都支持的工具,而不是在每个数据源使用一个工具


本文由转载于互联网,如有侵权请联系删除!