想要在大数据这个领域汲取养分,让自己壮大成长。分享方向,行动以前先分享下一个大数据交流分享资源群87零零97548,欢迎想学习,想转行的,进阶中你加入学习。
一、 概述
1大数据简介
1.1起源
“大数据“,近几年来最火的词之一。虽然大数据这个词的正式产生也就10年左右,但对大数据分析却早就有之。早在互联网初期,就有很多公司通过计算机技术对大量的分析处理,比如各个浏览引擎。然而,大数据的真正提出却是源自2008.09.03 《Nature》专刊的一篇论文,紧接着,产业界也不断跟进,麦肯锡于2011.06 发布麦肯锡全球研究院报告,标志着大数据在产业界的真正兴起,随着白宫发布大数据研发法案,政府开始加入大数据的角逐。
1.2定义
既然大数据这么热,我们有必要了解一下大数据究竟是什么。我们经常用4个V来定义大数据:容量、多样性、吞吐量、价值。即大数据必须是数量大(至少T、P级别),来源多,大部分为非结构化,且进出分析系统的速度快,并以获取价值为目的的数据。
2移动互联网的大数据特征
2.1web2.0与广义移动互联网
Web2.0指以朋友圈、微博等为代表的资讯交流分享型互联网,而广义移动互联网,则是通过无线方式实现互联网、物联网和社会网络的连接。
2.2数据特征
移动互联网的数据具有移动性、复杂性、社会性的特征。首先,节点是具有移动性的,它具有普适感知的功能。其次,网络是具有复杂性的,通过网络可以进行多元感知,最后个体是具有社会性的,所以他也具有社会感知的作用。
2.3数据类型
移动互联网产生两种类型数据:一是人传输的数据(UGU),它源自人的自我表达需求。一是机器产生的数据(MGC),其源自科技、军事、商业的需求。
2.4智能感知&服务
目前的移动互联网有一条缺失的链条—智能感知&服务。我们知道,互联网解决的是人与人信息交换的问题,物联网解决的是物与物信息交换的问题。而智能化服务需要人与自然与社会的交叉感知,移动互联网和大数据技术就是它的桥梁。
2.5智慧城市
我认为,智慧城市=数字城市+移动互联网+物联网+云计算,而要实现则需要移动互联网将互联网、人际关系网、物联网进行三网融合。
3机遇与挑战
3.1机遇
大数据给我们带来了机遇和挑战,我们是否能从中受益则需要看我们怎么对待这些机遇和挑战。大数据的机遇是明显的,各种大平台的数据采集与公开,MapReduce等数据分析平台的开放,以及各领域数据挖掘服务的提供,使我们获得数据变得更加容易。而这些丰富的数据更是带来了众多的创新机会,任何领域的数据都可能对这个领域造成巨大的影响。
3.2挑战
当然大数据也给我们带来了很多挑战。一、数据共享与数据私有的矛盾。大数据的价值是稀疏的,而大量的数据往往被大公司垄断,因此对于一般人来说,数据的共享变得十分重要,而其中一个解决方法就是建立一个共享的数据中心。二、数据洪流与技术滞后的矛盾。首先是数据存储能力与处理不匹配,对此我们可以采用对数据流进行实时处理、就近原则存储和处理原始数据、购买数据存储和分析服务等方法进行解决。再者,是分析手段与性能需求不匹配,主要原因是因为传统数据仓库不再使用于大数据分析,对于此我们可以采用大规模并发、Map-Reduce分布式计算、NoSQL管理并发存取等方法进行处理。三是社会需求与人才匮乏的矛盾。对此,培养优秀大数据人才已是当务之急。四、开放数据与保护隐私的矛盾。
其中包含用户隐私成为牺牲品、有可能危害国家安全等问题,我们的解决思路就是发展隐私保护数据挖掘方法和完善立法。
4未来发展趋势
我认为大数据将是未来的石油,而移动互联网将成为主要上网方式,移动大数据也将蓬勃发展。在此做出几点预测:1移动大数据分析将逐步成为云计算和物联网的研究聚焦点。2移动互联网UGC和MGC数据的深度融合将催生新的产业。3专注于局部领域的数据分析服务将成为近期产业创新主流。4Map-Reduce将仍保持活力,分布式流数据分析方法将成为机器学习理论研究和应用研究热点。5数据共享是大势所趋,但需要特别重视国家信息安全,开放数据需要立法支持,信息安全需要自主技术保障
点击链接加入群聊【大数据学习交流群】:如果你对于大数据开发感兴趣,想系统学习大数据的话可以戳我加入大数据技术学习交流群,私信管理员即可免费领取开发工具及视频入门学习资料
大数据的学习方向
玩转大数据首先要明确自己将要学习的方向,没有人能一下子吃透大数据里面所有的东西。
在大数据的世界里面主要有三个学习方向,大数据开发师、大数据运维师、大数据架构师。
什么是大数据开发师?
围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。
什么是大数据运维师?
了解Hadoop、Spark、Storm等主流大数据平台的核心框架,熟悉Hadoop的核心组件:HDFS、MapReduce、Yarn;具备大数据集群环境的资源配置,如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式,集群搭建,故障诊断、日常维护、性能优化,同时负责平台上的数据采集、数据清洗、数据存储,数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台,通过管理工具分配集群资源实现多用户协同使用集群资源。通过灵活、易扩展的Hadoop平台转变了传统的数据库和数据仓库系统架构,从Hadoop部署实施到运行全程的状态监控,保证大数据业务应用的安全性、快速响应及扩展能力!
什么是大数据架构师?
围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。