我们在淘宝购物,需要注册帐号,然后选购商品、加入购物车、付款发货、货物的物流信息等等,这些信息在电脑里被称为数据,产生的数据都会存储到淘宝的服务器里,每天数以亿计的数据,被存储到淘宝服务器里,由于这些数据很庞大,所以被称为大数据。再根据基础大数据,在后台进行智能分析,就能分析出指定用户的购物喜好,某些产品的销售量等等信息。然后通过挖掘大数据的结果,向用户推送指定商品。这就是大数据时代,给你我带来的便利。
随着电子商务、社交、综合信息网站等互联网应用的发展,数据基于网络大量产生并存储,信息量爆发式增长。据IDC的研究显示,全球数据总量年复合增长率50%。这种增长速度意味着未来两年,全球新增的数据量将超过人类有史以来积累的数据总和。IDC预测,到2020年,全球数据总量将达到40ZB(400亿TB),代表地球上每个人平均会产生5TB的数据。
人类正从IT时代走向DT时代,数据是数字化时代的“石油”,大数据就是数字化时代的“冶炼工艺”。通过数据额搜集、存储、分析和可视化技术,解决大数据海量、高速、多变、低密度的问题,使数据从散乱的信息,变成知识和智慧,帮助组织解决发展中遇到额实际问题。
十个大数据的经典应用案例
1、穿孔卡片与美国人口普查
美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。后来,美国人口普查局通过用赫尔曼-霍尔瑞斯发明的穿孔卡片制表机来进行1890年的人口普查,耗时一年。
2、麻省理工与通货紧缩预测软件
美国劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。政府通过人工采集价格信息数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是数据往往会有几周的滞后。麻省理工学院(MIT)的两位经济学家,通过一个软件在互联网上每天可以收集到50万种商品的价格,他们能比官方数据提前发现通货紧缩趋势。
3、沃尔玛,请把蛋挞与飓风用品摆在一起
通过对历史交易记录这个庞大数据库进行观察,沃尔玛注意到,每当季节性飓风来临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加了。因此每当季节性飓风来临时,沃尔玛就会把蛋挞与飓风用品摆放在一起,从而增加销量。
4、沃尔玛:东海岸——中海岸——西海岸
在美国,东海岸、中海岸、西海岸之间有两小时时差。东海岸的沃尔玛营业两小时后之后,中海岸才开始营业,沃尔玛就会把东海岸当天这两小时的营业情况、相关数据传给中海岸。中海岸就会根据这个数据知道了这天人们的购物喜好,决定货品怎么摆放,哪些货物摆放在一起会比较好。这种方式给沃尔玛带来了很大的利润。
5、自动泊车系统
自动泊车系统,顾名思义驾驶者双手可以离开方向盘,在车辆停好之前要做的只是等待。自动泊车系统主要由两部分组成:控制单元和位于前后保险杠以及两侧的超声波雷达探头。按动自动泊车辅助系统激活按钮之后,雷达探头可在车辆行驶时对车辆两侧进行扫描。控制单元对雷达反馈的信息进行分析,从而估算出车位是否足以容纳车辆停放。自动泊车系统随后将通过助力转向系统对车辆行驶方向进行干预,并以控制单元规划好的路径将车辆停入车位。
6、UPS快递——大数据技术下的最佳行车路径
UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督管理员工并优化行车线路。
UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年,UPS的驾驶员少跑了近4828万公里的路程,节省了300万加仑的燃料并且减少了3万公吨的二氧化碳排放量。
7、谷歌与甲型H1N1流感
2009年出现的甲型H1N1流感,当时还没有研发出对抗这种新型流感病毒的疫苗,公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。疾控中心得到流感方面的信息往往会有一两周的滞后,这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。谷歌通过观察人们在网上的搜索记录来预测流感的传播,得到的信息是非常准确和及时的。
8、在线教育
如著名的在线教育公司Coursera,已经和普林斯顿、伯克利、宾夕法尼亚大学等30多所大学合作,在互联网上免费开放大学课程分布在世界各地的学习者不仅可以在同一时间实时听取同一位老师的授课,还和在校生一样,做同样的作业、接受同样的评分和考试。在线教育是一个“行为评价和诱导”的智能平台。
9、无所不包的谷歌翻译系统
2006年,谷歌公司开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译利用一个更大更繁杂的数据库,也就是全球的互联网。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它增加了很多各种各样的数据,还接受了有错误的数据。谷歌语料库的内容来自于未经过滤的网页内容,所以会包含各种错误。但谷歌语料库是其他语料库的好几百万倍大,这样的优势完全压倒了缺点。
10、IBM,电动汽车动力与电力供应系统优化预测
基于大量的信息输入,如汽车的电池电量、汽车的位置、一天中的时间以及附近充电站的可用插槽等,IBM开发了一套复杂的预测模型。它将这些数据与电网的电流消耗以及历史功率使用模式相结合。通过分析来自多个数据源的巨大实时数据流和历史数据,能够确定司机为汽车电池充电的最佳时间和地点,并揭示充电站的最佳设置点。
随着大数据应用的进一步深化,会有越来越多的应用场景,最大程度发挥大数据应用的价值。大数据对各行各业的渗透,成为推动社会生产和生活的核心要素。