大数据的实时分析与应用案例分享上海云人信息科技有限公司个人简介  吴朱华,专注于云计算和大数据这两个方向,之前曾在IBM 中国研究院参与过多款云计算操作系统的开发工作,包括PureSystem 的原型机,同济本科,并曾在北京大学读过硕士,在2010 年底组建上海云人科技团队,在2011年中发表业界最好的两本云计算书之一 《云计算核心技术剖 析》,在2013 年的3 月被福布斯评为中国30 岁以下30 位创业者。 《云计算核心技术剖析》大数据的时代  来自麦肯锡的报告,未来的10 年里,数据和内容将增长44 倍,并且这些数据有无法估量的价值;  对于很多以数据为资产的行业,BI 决定公司的核心竞争力。比如互联网广告,金融机构,大数据实时分析工具对他们而言,就等同于竞争武器,快或慢一秒钟,往往就意味着财富的得与失。  对传统行业来说,大数据的冲击来自三个方面:数据终端数量的增长,例如智能电网和物联网;数据维度的变化,例如 消费行为与社交网络的关联;商业模式和管理模式的变化: 例如从产品消费到信用营销,从经验和直觉决策到数据智能决策。三个因素组织在一起,使大数据发生了几何级数的增长。

大数据需求业务终端数量激增BI 决定核心竞争新兴力社交网络例如智能电网:一个业务系统每大电商实时数据挖掘天20 亿条记录,广告跟大快踪部署 传统简单新兴行业阿里巴巴:从商品销例如电信账单分售到保险信贷转型拣:从两周到一天快快商业模式转变竞争格局改变传统大数据的阶段  第一个阶段 :自身业务需求产生大量数据,利用这些数据,通过深入证析,优化相关业务;  第二个阶段 :搜集与目标业务直接或间接关联的大量异质数据,建立复杂的分析和预测模型,产生针对目标业务的输出;  第三个阶段 :随着整体数据相关的法律不断补充 ,以及技术不断成熟 ,形成一个完善的数据生态 ,包括数据市场 ,数据运营商和数据商店等。  从技术角度而言,趋势是更实时,越快越好,更全面数据分 析需求,包括SQL 、挖掘算法,以及以Deep Learning为代表机器学习技术。大数据实时分析的目的  实时决策能力;  提高业务效率 ;  快速智能发现新观点和商业机会 ;  提供业务产出;  提升 IT 效率 ;撑  大数据秒级,甚至毫秒级的处理;  上千人的并发访问 ;  支持 SQL 标准 ,特别是 OLAP 相关的语句 ;  数据的安全和集群的稳定型;大数据实时分析的技术选 型  Hadp 系列 :Hive ,Impala ;  NoSQL 类别 :MongoDB ,HBase ;  传统关系型数据库 :Oracle ,DB2 ,MySQL ;  传统列式数据库 :Infobright ,Monet DB ;  新一代基于内存计算的数据库?技术选 型的对比图秒级处理并发SQL 支持安全和稳定 HadpNDependsDependsYes NoSQLYesYesDependsDepends 传统关系型数据 DependsYesYesYes 库 传统列式数据库YesDependsYesDepends 基于内存技术的???? 新一代数据库  YunTable 是在从分布式数据库的基础上发展而来,同时加入一些NoSQL 的基因的新一代大数据实时分析数据库 ,并且支持内存计算,比较接近 SAP HANA 。

系统架构核心特性  大数据,秒级内存计算;  采用廉价的x86 硬件 ;  自动线性动态扩展至数百台集群 ;  每秒GB 级别吞吐量,PB 级别存储量;  SQL92 特性覆盖 ,并提供多平台的SQL 驱动 ,还支持R ;核心技术并行处理 行列混合存储内存 计算压缩 核心技术 (一):并行处理数据源CCCC1234CC CC CCCC14 32 1432‘‘ ‘‘ ‘‘‘‘压压 复压 复复压复缩缩 制缩 制制缩制节点 1节点 2节点 3并行处理:数据复制分布存储在不同的节点上并行处理内存本地化:把大数据量和计算量分散到不同处理器高可用性 :任何节点宕机将不影响数据完和业务连续性 核心技术 (二):行列混合存储行分区保留数据关联列式数据组织高效的数据压缩快速的数据聚合优化的数据上载到中央处理器专利的索引结构核心技术 (三):高效压缩  多种无损压缩算法;  列式数据组织,整体压缩率高达 10~20 倍以上核心技术 (四):内存 计算  硬件性能的提升 X86 多核技术 64 位地址空间 — 单台服务器内存容量可达 2 TB  软件技术创新 行列混合存储 高效压缩 数据分片 高效索引 增量插入 硬件性 能提升结合 YunTable 软件技术创新,使原来通 过大量磁盘 读写处 理的海量数据,可 以在服 务器的主 内存 中实时处理,提供 实时统计分析 结果!具体 实时分析场景目标市场其他行业金融证券智慧城市高频交易物联网量化交易 互联网与电商大数据资产电信 用户行为分析业务支撑系统 商品模型分析统一营帐 信用分析能源电厂 电网监控用电信息采集 分析实时分析案例:互联网 主要业务应用:电商交易分析,社交网络,位置信息服务,广告交易 、跟踪分析等 典 型用户 :某互联网广告公司广告投放效果实时监测数据规模: 100 亿条记录关系型数据库 的问题 :不能满足 10 亿条以上记录的存储和查询要求Hadoop 的问题 :不能满足结构化数据的存储和实时查询要求解 决方案:1 、技术团队自行开发 (例如淘宝 ,腾讯 ,新浪微博) ,优点 :可以根据业务流程进行模型优化,获得良好性能;缺点 :对技术团队开发水平和人员数量要求高 ,总体维护成本很高 ;2 、选用Yuntable 和Exadata 、 Hana 、 Greenplum ,优点 :使用和管理简单;缺点 :后三家购置成本高 ,性价比不高 导入操作的性 能比较 查询操作的性 能比较具体 的性 能测试结果 数据场景 :2.3 亿条互联网用户访问记录数据 测试环境 :YunTable 3 台 4 核64G 内存 Dell 服务器项目YunTable 指标(秒)频次分析9.492重合度分析16.625多维度分析11.408实时分析案例:物联网 主要业务应用:海量数据终端信息采集与用户行为分析 典 型应用场景 :智能电网用电信息采集(子系统)计费系统 SG168ERP 采集业务SQL(ODBC/JDBC)YunTable 实时分析数据库实时数据RTDBETL 工具数据采集服务器集群InternetInternet数据集中器无线采集器传感网络-业 2012 年底,我们团队参与了某核心企业大数据实验室的 建设 ,并且建设过程中,我们在性能方面与Oracle 数据 库进行了正面的PK 。

在本次 PK 中,我们无论在导入和 分析等性能方面,都远胜 Oracle 。 导入操作的性 能比较 分析操作的性 能比较实时分析案例:金融 主要业务应用:量化交易 ,高频交易典 型场景 :证券公司量化交易平台及各子系统历史高频行情交易所数据回放实盘 模拟盘快速交易系统成交回报推送系统量化交易执行系统Level2 实时行情源回测仿真CEP 引擎量化交易( Apama,Sybase Aleri策略策略执行结果评估行情 计算服 务行情 数据中心 数据接Level2 实时行情源高频实收接口分钟日内K RSI 计算分析数时数据历史行 数据转线计算 计算 接口据情数据 换工具第 三方分析数据库计算平台YunTable第 三方行情 数据库具体性 能表现查询 时间单日业务数据统计0.36 秒单周业务数据统计0.58 秒单月业务数据统计1.25 秒 单日股票代码汇总分析2.27 秒单日多列汇总分析2.71 秒单日账户汇总分析4.43 秒 单月股票代码汇总分析3.86 秒单月多列汇总分析5.09 秒单月账户汇总分析8.12 秒 实时分析案例:电信运 营商 主要 业务应用: BOSS/NGBOSS 系统及各子系统 典 型应用场景 :NGBOSS 业务运营支撑系统及各子系统NGBOSS 统一接入门户商业智能业务管理运 营管理纵向 业务 统一 统一经营 运营 管理 决策管理 流程 产品 业务 全网运营 收入 人员 知识分析 支持 分析 支持流程 调度 目录 资源 结算监控 保障 管理 管理调度 管理 管理 管理管理YunTable 分析数据服务、YunTable 运营数据YunTable 运营管理数据数据集市、数据仓库存储与提供存储与服务数据集成网管数据枢纽中心数据枢纽节点数据支撑网网管交换中心CSC交换节点 PSN信令传业务枢订单 帐务 客服 鉴权订单 帐务 客服鉴权输网管纽网管枢纽 枢纽 枢纽 枢纽枢纽 枢纽 枢纽 枢纽 Q & A


本文由转载于互联网,如有侵权请联系删除!