据已经成为现代化企业中重要的宝贵资源。一切决策、策略或者方法都需要依托于对数据的分析方可实现。随着“大数据分析”逐步替代其上代版本,即“商务智能”,企业正面临着一个更加复杂、且商业情报规模更为庞大的新时代。以下是小编为你整理的怎么学大数据基础知识

OpenRefine

这是一款高人气数据分析工具,适用于各类与分析相关的任务。这意味着即使大家拥有多川不同数据类型及名称,这款工具亦能够利用其强大的聚类算法完成条目分组。在聚类完成后,分析即可开始。

2Hadoop

大数据与Hadoop可谓密不可分。这套软件库兼框架能够利用简单的编程模型将大规模数据集分发于计算机集群当中。其尤为擅长处理大规模数据并使其可用于本地设备当中。作为Hadoop的开发方,Apache亦在不断强化这款工具以提升其实际效果。部分知识来自《Linux就该这么学》感兴趣的可以去看下

怎么学大数据基础知识

Storm

同样来自Apache的Storm是另一款伟大的实时计算系统,能够极大强化无限数据流的处理效果。其亦可用于执行多种其它与大数据相关的任务,具体包括分布式RPC、持续处理、在线机器学习以及实时分析等等。使用Storm的另一大优势在于,其整合了大量其它技术,从而进一步降低大数据处理的复杂性。

提高医疗和研发

大数据剖析应用的计算能力可以让我们能够在几分钟内就可以解码整个DNA。而且让我们可以制订出最新的治疗方案。同时可以更好的去理解和预测疾病。就好像人们戴上智能手表等可以形成的数据一样,大数据同样可以帮助病人对于病情进行更好的治疗。大数据技术现在已经在医院应用监视早产婴儿和患病婴儿的情况,通过记录和剖析婴儿的心跳,医生针对婴儿的身体可能会出现不适症状做出预测。这样可以帮助医生更好的救助婴儿。

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

有些例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务 。

大数据的一些弊端

虽然大数据的拥护者看到了使用大数据的巨大潜力,但也有隐私倡导者担心,因为越来越多的人开始收集相关数据,无论是他们是否会故意透露这些数据或通过社交媒体张贴,甚至他们在不知不觉中通过分享自己的生活而公布了一些具体的数字细节。

分析这些巨大的数据集会使我们的预测能力产生虚假的信息,将导致作出许多重大和有害的错误决定。此外,数据被强大的人或机构滥用,自私的操纵议程达到他们想要的结果。

各行业数据源

财经数据

1.经济数据库:CEIC、国泰安、锐思、资讯行

2.监管部门:证监会、上交所、深交所(巨潮)、股转系统、大商所、郑商所网站

3.金融市场网站:中国货币网、中国债券信息网、上海期货/黄金交易所

4.财经终端:不少免费版的财经/股票终端都可以导出数据,属优质数据源

5.门户网站:如新浪财经可以下载大量的证券数据

大数据优质经验分享_分享优秀经验_经验分享型软文

6.通联:类似quandl提供不少财经api接口

7.量化交易平台:近几年新兴的技术产品,可以在这类平台上获取大量历史数据

8.投融资:IT桔子、清科数据库

9.国外资源:WITS,WORLD BANK,IMF,YAHOO,Quandl(大量财经api接口,可导出各种格式)等

贸易数据

1.海关总署、海关统计资讯网、海关信息网有不少数据,部分免费

(商务部网站中有大量数据,但目前不能下载或调用)

2.综合性网站:慧聪、卓创资讯,但可惜大部分数据只能浏览

3.数据商:可以在百度和上面提到的数据平台上找到不少这类的数据撮合商(一般高质量的数据需要付费获取)

4.国外数据:WTO,UN COMTRADE有大量高质量的数据

第一第二产业

1.农业数据:目前以统计数据为主,行业门户网站和细分领域网站(如中华粮网)的数据通常无法直接调用,只能在线浏览,但不妨保持对这些网站的关注

2.农业数据提供商:如艾格农业、布瑞克,但目前数据的总体质量达不到预期

3.工业数据:和农业数据的情况类似,也只有少数数据商,如钢联、煤炭资源网等

(传统领域的数据,随着物联网技术的发展,获取难度会降低、应用价值将提高,预计在未来会有不错的上升空间)

其他传统行业

1.地产数据:CRIC、中指是主要信息商

2.物流运输:快递行业得益于电商的带动,有不少API接口,可以百度之;但包括交通运输部、海事局在内的网站,都很难得到有价值的物流数据

3.地图数据:目前可以找到不少地图api接口(如百度、高德、腾讯),但地图数据商并不多(代表企业有四维图新、中科宇图等)

4.吃穿住行:此类数据主要出现在上面提到的api接口平台(如天气、交通、酒店等)

互联网企业

由于行业的天然属性,IT企业都较重视自身的数据,因此在公开源很难找到相关的数据源,大部分知名企业选择以api接口的形式(或营销行业的DMP)供外部合作伙伴调用自身的数据,例如淘宝api、携程api、豆瓣api等

科研数据

这部分数据的共享性质更突出,而且数据体量较大,未来作者会在合适的时候单论一篇;目前也已经有一些相对活跃的数据流通领域(如遥感数据,已经有中国资源卫星应用中心、遥感集市、地理空间数据云等平台撮合交易)


本文由转载于互联网,如有侵权请联系删除!