传统的BI分析数据源单一,主要来自于BI系统和BSS。即业务的支撑系统,分析过程主要靠人工分析,特征不明显。除此之外,分析模型简单、精确度低。而我们的大数据分析数据来源多样、覆盖完整,数据来源包括了BI系统、Web、BSS、OSS,也就是运营、支撑系统等分析过程通过机器学习实现对所有数据进行全量分析,并且分析精度高、效果好。
因此相对于传统的BI分析而言,大数据分析能更准确地分析客户行为。而随着大数据技术的蓬勃发展,数据也逐渐地成为了企业的核心资产来推动商业创新。那么主要的产业推动经历了以下四个阶段。
第一个阶段是信息支撑业务,在技术层面支持,从大数据的it基础设施建设、简单应用以及大数据咨询等。而在业务层面,以降低成本为目的的数据管理、改造、离线分析、关注查询和报表。
第二阶段是信息管理企业技术层面,建立大数据平台、跨域数据的整合以及分析构建、实时分析应用、及时响应业务,并且开始数据挖掘,进行高级的数据分析。而在业务层面,关注数据的多样化、实时性,提供多种分析、实时分析、数据挖掘和数据安全等。处于该阶段的企业有金融、企业、政府机构等。
第三阶段是信息指导、决策。技术层面,对外数据开放,提供数据服务、大数据和云相结合。支持、灵活开发各种应用以及隐私保护。企业决策数据化,跨行业、跨领域的数据挖掘、深度集成。业务层面包括数据、运营、数据集、服务、分析及服务开放数据等。处于该阶段的企业有领先的金融和电信运营商。
第四阶段是信息促进创新。技术层面构建企业的数字中枢、决策和运维的智能化、信息交易和共享。业务层面主要包括了认知计算、深度计算等。那么处于该阶段的企业主要是互联网公司。
在当今社会,大数据已经由过去的概念阶段过渡到现在的应用阶段,那么各种大数据应用与服务也越来越多,而所有的这些大数据。所应用服务都离不开大数据的分析平台。
华为的大数据平台叫Fusionlnsight,就是一个集大数据存储、处理与分析于一体的企业级统一化平台。Fusionlnsight平台是在开源hadoop大数据平台的基础上进行了功能强化,具有敏捷、智慧和可信等特点。其中敏捷主要体现在Fusionlnsight是完全开放的架构,性能上可以线性扩展,具有丰富的工具支持,开发、运维效率高,具有强大的SQL能力,业务移植便捷。智慧主要体现在Fusionlnsight能够实现全量建模,达到深刻洞察的效果,同时自研算法也能够高效、精准的分析数据,而可信主要体现在全组建实现高可用(HA),异地融灾、金融等保服务。华为大数据开放、共赢,是最可信赖的合作伙伴。
二、华为大数据平台架构
上图就是华为大数据平台的整体架构图,它包含了三层,其中还有五层提供了大数据的处理环境,是基于社区版开源软件hadoop做的增强和优化。在这里面我们称为是Fusionlnsight hd平台。DataFarm层提供了支撑端到端的数据洞察、构建数据到信息、到知识、再到智慧的数据供应链,包含了数据集成服务Porter、数据挖掘、服务Miner和数据服务框架Farmer,而manager是一个分布式的系统管理框架。管理员可以从单一的接入点操控分布式集群,可以实现系统管理、数据安全管理和数据治理等。
在华为的大数据平台架构下,有哪些功能组件呢?如上图所示,最底层的基础设施包括了标准服务器、存储、网络等,而分布式存储层包括了HDFS、HBase、LibrA等,而分布式的计算框架包括了管理组件YARN、功能组件mapreduce、Spark、Storm等,再到上层的应用组件,包括了开源轻度增强的、开源孵化增强的以及开源深度增强的,还有一些自研的数据分析工具,这些组件保证了华为大数据平台功能,具有如下特点:百分百开源的核心支持混合负载,支持批量查询、交互查询、数据挖掘到流式查询等多种场景。开放式的存储格式,避免了锁定私有文件的格式。此外,所有的组件都可以通过manager提供的插件框架来按需安装好,这些就是关于华为大数据平台的架构及功能组件特征。
那么既然Fusionlnsight的平台是基于开源软件开发的企业级增强平台,它的增强特性主要体现在高可靠、高安全、高性能以及解决方案配套能力四个方面。那么接下来我们将针对这四个方面做一个详细的了解。大数据平台的高可靠性体现在Fusionlnsight HD所有的管理节点组件均实现高可用,所有的组件无单点故障,其中HBase集群能实现一千公里以上的异地灾备、表集集群备份、全量、增量日志备份,支持关键数据掉电保护,同时硬盘支持热插拔。
大数据平台的高安全性体现在Fusionlnsight HD具备基于用户和角色的统一认证体系,能够实现对角色进行权限管理和审计。WEB UI服务还支持单点的登录认证,对HBase的权限控制,支持HBase库、表、列族和列等不同的等级。hive还支持合法用户之间的数据安全隔离,保证用户数据的安全,支持合法用户之间的授权访问,允许用户数据交叉访问。
同时Fusionlnsight 还可以对文件系统进行加密,Hive、HBase可以对表、字段进行加密,集群内部用户信息禁止明文存储。加密算法插件化,可进行扩充,也可以自行开发,并且加解密的过程业务完全无感知。
高安全性还体现在对操作系统的安全加固,通过裁剪不必要的组件,工具自动测试扫描,在业务节点、管理节点和用户管理Portal等组件,采取业绩标准来实现操作系统加固,从而保证基础设施的安全性。
而高性能主要体现在针对数据密集型行业、传统数据库、数据仓库的大量关联表的设计,创新地实现了CTBase方案,可以将多个具有类似功能或者是存在关联的业务表聚簇到一个HBase大表中,从而提升一些关键场景的多表关联查询的性能。另外CTBase还提供了二级索引、RowKey Schema的维护管理等关键能力。
Fusionlnsight平台在集群管理方面,Fusionlnsight manager作为Fusionlnsight的运行维护中心,支持系统的双击和分布式并行处理,可以在十分钟之内完成集群安装,支持全自动化在线运行维护、自定义Dashboard、自动化的应用开发助手,让企业可以轻松地管理大数据系统,提供向导式升级、回退的界面操作,当升级过程异常时,支持自动安全回退,也支持观察期手工触发安全回退,可以在六分钟内完成Hadoop的集群升级。
Fusionlnsight HD还提供了北向接口,能实现与企业现有的网管系统进行集成,支持syslog接口,接口消息可以通过配置来适配现有的系统。整个Hadoop集群采用统一的集中管理,未来的北向接口可以根据需求进行灵活扩展。而在解决方案配套能力上,为了让开发者更方便地使用大数据技术,在开源Hadoop平台的基础上,华为的Fusionlnsight HD围绕数据的采集、分析和消费,在典型场景,比如数据中心运维、日志分析、历史数据查询、实时事件处理、客户特征画像等方面形成了一系列的解决方案,并跟随客户业务的发展不断地丰富。可见华为的Fusionlnsight 的大数据平台既源于开源,又不止于开源,在大数据平台的高可靠、高安全、高性能以及集群管理方面已经迈出了一大步。
三、华为大数据商业咨询服务总体方案
事实上,华为不仅提供了大数据平台的产品,还提供了大数据的商业咨询服务。那么接下来我们来详细的了解一下华为大数据商业咨询服务的总体方案。
华为提供了即大数据平台、行业、业务、模型分析以及咨询服务为一体的大数据商业咨询服务总体方案。这样的总体方案从拟定到落地执行需要经历Analysis分析、Design设计、integration集成、Execution执行四个阶段,其中分析主要包括市场分析、行业趋势分析、竞争分析、业界实践分析,然后根据分析结果来界定问题、构建问题数、确定根由进而梳理出需求和机会点。
设计阶段主要包括大数据商业战略设计、大数据商业模式设计、商业场景全景规划、典型场景需求设计、场景分解和业务设计等,最终根据典型场景形成运营方案。
集成阶段包含了对支撑数据源的梳理、现有标签梳理,从而给出数据资源准备建议、大数据的标签体系建议以及典型场景的数学建模建议,最终形成商业和网络的解决方案。
最后的执行阶段主要是对商业方案和技术方案进行落地,并形成相关的管理体系、流程制度,并由IT部门去实施执行。最终形成华为大数据商业咨询服务的总体方案,它能帮助传统企业设计、构建和运营大数据系统,向大数据驱动的企业进行转型。
具体来说,华为的解决方案分为以下三个关键步骤:第一,制定长远的战略规划,明确的当年目标,驱动大数据系统开展顶层设计。第二,开展商业设计、技术设计、部署实施与数据运营这4个大数据系统的支柱,然后分成更具体的8个关键行动。第三、进行组织、匹配、运作流程及人才训练。这是大数据构建与持续运营的基础,也是实施相关行动的前提条件。可见华为提供的不仅仅是一个大数据平台,更是一套能够在企业环境下部署实施的大数据整体解决方案。
四、大数据开发团队与社区贡献
华为的Fusionlnsight作为一套企业级的大数据存储、查询与分析的统一平台,那么参与开发和设计这个平台的工作者究竟是什么样的呢?接下来我们一起来认识一下华为大数据的开发团队及社区贡献。
我们知道华为的大数据平台是基于开源的Hadoop开发的,但是开源的还都谱,代码量大,组件多、更新快,有些功能、特性不能有效的组合,这对企业来说并不是一个适合生产的大数据产品。那比如某位银行的CIO说,我们把大数据应用视作是生命线,肯定是采用企业版,因为搞开源软件不是我们的主业。那么在选择合作伙伴的时候,我们一定是考虑门当户对,因为强有力的合作伙伴才能保证三到五年的供应以及合作安全,而只有强大的、掌握代码的团队才能造就成功的企业级数据平台软件。
华为的大数据团队的核心能力包括了定位内核级问题,独立完成支撑关键业务特性的内核级开发,能够引领社区完成面向未来的内河级特性开发,能够创建新的社区顶级项目,并且得到社区生态系统的认可。而目前华为的大数据专业研发团队也遍布全球,并且大数据也是华为公司的战略方向之一,未来预计将保持上千人规模的重点投入。
而华为对开源社区的贡献也非常可观,比如华为对Hadoop、spark等产品的贡献。已经稳居第一阵营,并且对开源社区的整体贡献呈逐年递增趋势。那么下图是二零一五年上半年,华为对Hadoop社区各组件贡献的分布情况。
二零一七年四月二十六日,Apache软件基金会宣布,华为贡献给Apache社区的开源项目CarbonData从Apache的孵化器毕业,正式成为Apache的顶级项目(TLP)。这意味着华为已经从大数据开源社区的参与者,转变成为社区和生态的引领者之一。
什么是CarbonData?CarbonData是一种大数据高效存储格式解决方案。针对当前大数据领域,分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,一份数据同时支持多种大数据应用场景,并于Apache社区的Hadoop、Spark等组件实现无缝集成。