1、,BIGDATA,大数据技术与经验分享,2017.2.15,1,.,目录,05,大数据计算与分析研判,04,大数据存储与管理,06,大数据项目建设经验,02,大数据概述,01,现状与问题,03,大数据采集与处理,PPT模板:,2,.,01,当前信息化现状与问题,BIGDATA,3,.,1.1,用户使用方面,查询模式固化,01,查询操作复杂,02,查询效率低,03,结果不准确,04,结果不全面,05,缺少一个简便、高效、准确的在线检索工具!,4,.,1.2,应用建设方面,交管,警综,户政,出入境,数据源,基础设施,部级系统,省级系统,市级系统,区级系统,业务系统,系统多了,资源分散,点对点交互,

2、重复建设,共享困难,重复建设现象突出!信息如何有效共享?,5,.,1.3,数据的管理与应用方面,结构化数据,图像,音频,视频,非结构化信息的飞速增长为存储带来巨大压力,对非结构化信息的利用缺乏有效手段,矛盾,巨大的复杂的数据资源怎么用起来?,6,.,02,大数据技术概述,BIGDATA,7,.,2.1,大数据发展的萌芽期,大数据发展的突破期,大数据发展的孕育期,发展历程,大数据不是最近才有的,数据一直存在,只是分析数据的技术近几年有了革命性的突破!所以,大数据也可以称为一种技术“大数据技术”,90年代,2003年-2006年,2006年-2009年,2010年-至今,大数据发展的爆发期,8,.

3、,2.2,概述,大数据指那些数据量特别大、数据类别特别复杂的数据集,并且这些数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务。,1、大量,2、多样,3、快速,4、价值,大数据,存储量大TB-PB计算量大,数据增长快处理速度要求快,数据来源多数据类型多,商业价值如:行为分析、信息挖掘广告定投、信息预测,结构化数据、非结构化文档、视频、照片等,大数据不仅仅是“大”,9,.,2.3,大数据的发展方向,01,02,03,04,这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IB

4、M的DataStage),大数据采集与预处理方向,在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的RHadoop版、基于MapReduce开发的数据挖掘算法等等,大数据分析与挖掘方向,这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统、分布式数据库、NoSQL数据库相关技术的发展正在有效的解决这些方面的问题。,大数据存储与管理方向,由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询计算(如Hive)、批处理计算(如Had

5、oopMapReduce)、流式计算(如Storm)、和内存计算(如Hana),而这些计算模式的组合使用将成为满足多样性大数据处理和应用需求的有效手段。,大数据计算方向,10,.,03,大数据采集与处理,BigData,11,.,3.1,大数据采集的方式,大数据采集就是使用多种技术或手段“组合出击”,将数据收集起来并存储在大数据存储系统中。根据数据的类型常见的采集方式包括一下四种:,01,数据库采集,通过ETL工具将分布的、异构数据源中的结构化数据经过清洗、转化、整合操作后抽取到大数据存储系统,02,文本数据采集,通过各类接口从电子文件中获取数据的过程。可以将txtxmlwordexcelpd

6、f等文件内的数据提取出来,并以结构化的方式存储大数据存储系统,03,实时流式数据采集,实时采集物联网内RFID标签、GPS定位设备、北斗定位设备、温度传感器等各类传感器的实时状态信息、位置信息,并以结构化的方式存储在大数据存储系统,04,多媒体数据采集,通过视频分析技术、图形分析技术将视频、图片文件内的要素信息提取出来,并以结构化数据存储到大数据存储系统,12,.,3.2,大数据采集工具(ETL采集工具),ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL负责将分散的、异构数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库中。

7、,Kettle,开源工具纯java编写,绿色无需安装支持Window、Linux、Unix运行环境依赖JDK可视化图形界面,InformaticaPowerCenter,软件一次性购买,但技术支持按项目收费支持Window、Linux、Unix客户端与服务端分离可视化图形界面广泛支持各类结构化、非结构化的数据源,13,.,3.3,大数据采集工具(文件数据采集),零散文件(非结构化),快递、饮食店等员工名单,截获黑客犯罪人员电脑资料,小区住户、租户登记信息,旧犯罪记录等文字卷宗,文件筛选,文件分类,Excel文件,Word文件,文本文件,PDF文件,内容抓取,人员和单位数据(结构化),审核入库,

8、大数据存储系统,由于业务特点的不同,开源软件或商业产品的解决方案针对性较弱,更倾向于由软件开发商定制开发采集器,通过插件的方式扩展支持的文件类型。,14,.,3.4,大数据采集工具(实时流式数据采集),基于多源的实时流式数据(如:GPS定位信息、北斗定位信息、移动定位终端实时位置信息、传感器),提供数据接入、存储、分发、自动识别、报警、监控等实时处理功能。并支持通过插件的方式扩展接入类型。,车载终端,手持终端,固定设备,定位方式,终端支撑,各个业务系统,北斗,GPS,WIFI,RFID,基站,网络,智能终端,15,.,04,大数据存储与管理,BigData,16,.,4.1,大数据存储方案,大

9、数据存储方案应该是根据数据的特点及业务需求进行“专项治理”,产品和技术选型应该不仅仅局限于1种产品或技术。一般大数据存储是由多种数据存储方案或技术组合使用。,1,2,3,4,5,存储方案,高增长、海量关系型数据存储方案(Hbase),海量大个文件存储方案(HadoopHDFS),海量小文件存储方案(FastDFS),高速缓存方案(Redis),传统关系型数据存储方案(Oracle集群、MySQL集群),17,.,4.2,传统关系型数据存储方案,应用场景:用于存储结构化的人员、物品、组织、数据字典等数据或业务关联紧密的事物性数据技术选型:OracleRAC或MySQL集群特点:MPP架构、数据结

10、构固定、数据量相对较小、安全性及稳定性较高,MySQL集群,18,.,4.3,高增长、海量关系型数据存储方案,应用场景:用于存储数据量大且数据增长量较快的数据(如:卡口过车信息等)技术选型:HBase集群特点:运行在Hadoop之上适合超大数据量的写入,数据按列存储、只访问查询涉及的列-大量降低系统IO,19,.,4.4,海量大个文件存储方案,应用场景:适合存储、访问、下载大个文件(通常是指百MB、GB、甚至GB大小的文件),如视频网站类应用。技术选型:HDFS分布式文件系统特点:运行于廉价的商用机器集群上、多副本、采用了切分存储的方式,20,.,4.5,海量小文件存储方案,应用场景:对海量小

11、文件进行管理,包括:文件存储、文件同步、文件上传、文件下载。如:百度文库、相册网站等应用场景技术选型:FastDFS分布式文件系统特点:不对文件进行切分存储、适合小文件存储、支持线性扩容,21,.,05,大数据计算与分析研判,BigData,22,.,5.1,大数据计算,大数据计算的核心思想是:分而治之,把大量的数据划分开来,分配给各个子任务来完成。再将结果合并到一起输出。,23,.,5.1,大数据计算-海量数据检索,智能检索,检索结果以“档案”形式展示,24,.,5.2,大数据离线计算,文本分析和数据分类、聚类对人力情报信息通过文本分析工具进行处理,实现关键词提取,包括地名、敏感词语(如6.

12、4事件、老兵、上访、嗑粉等)、人名、各类号码等,生成人力情报关键字库(也称“标签库”)。同时基于关键词库,关联分析技术、聚类分析技术,实现热点情报、相似情报等宏观分析。文本分析工具文本分析是文本挖掘、信息检索的一项基本技术,是指对文本中表示其特征项的“关键词”自动识别与提取,可以实现word文档内情报信息的解析和标签属性创建。标签库建设热点情报分析相似情报分析,25,.,5.3,大数据分析研判-人员活动分析,人员活动分析:根据关注人员动态管控的需求,基于系统内整合的外部信息(如:公安网实名制登记信息、出行记录信息)和内部信息(如:情报线索信息、重点人等信息),通过定制化分析模型工具,定义相关的

13、分析模型,通过分析模型的计算和运行,支持研判的开展和应用,相关的分析模型包括但不限于如下:重点人流入预警重点人流出预警异常出行记录分析人员轨迹分析人员关系分析(社会关系、同行、同住、同乡),26,.,5.4,大数据分析研判模型-案例1,旅业数据人员入住登记信息,“跳房”记录分析,较短时间段内,有多条开房记录,年轻女性,旅馆位置集中,深夜凌晨入住,入住时间短,主要条件,辅助条件,涉黄可疑人员名单,定时生成推送,500万记录,案件库有关涉黄人员,准确率高达87.8%,涉“黄”人员分析,27,.,5.4,大数据分析研判模型-案例2,密切度分析,张三,李四,籍贯相同,-,乘坐K1234列车从南宁至广州

14、,2014-08-16,登记入住同一出租屋,2015-02-04,出境前往澳门,2015-05-18,密切度4,28,.,06,大数据项目建设经验,BigData,29,.,6.1,思考一,一是大数据思维的演进道路,从精确性到相似(相关)性起步阶段我们追求精确制导;单一查询不是大数据的主要应用;用大数据去揭示规律,反映客观事实;从大数据中发现隐含的知识。,30,.,6.2,思考二,二是统筹耦合三种计算模式,因材施用、用其所长、相辅相成关系型:结构化程度高,数据量不大等;分布式:结构化程度一般,巨量检索等;大内存:数据量适中,多变量求解等;不能忽视异构数据交换工作,31,.,6.3,思考三,三是业务需求为导向,以业务需求为导向去设计与建设,回到用户需求,分析日常工作真正所需。技术是为业务服务的,技术选型和架构决策依赖业务规划,离开业务发展的支撑和驱动,技术走不远,甚至还会迷路!前沿技术总是出现在前沿业务领域。,32,.,6.4,思考四,四是将对非结构化的内容的管理纳入到单位的数据管理能力,非结构化数据一直是单位业务运营的一部分,但既然现在我们已经有了更好的技术来探索,分析和这些非结构化的内容,进而帮助改善业务流程和工业务洞察,所以我们最终将其正式纳入我们的数据管理是非常重要的!图片、word、excel、ppt、pdf等文件数据,33,.,谢谢,观看,2017.2.27,34,.,


本文由转载于互联网,如有侵权请联系删除!