詹士 写于 凹非寺
量子位 | 公众号 QbitAI
"大数据已经不再重要。"
这句话不是别人说的,而是Google的资深员工,BigQuery数据分析产品的创始成员之一,Jordan Tigani亲口说出的。
在他最新发布的一篇博文中,他明确表示——
大数据概念在十多年前崭露头角,时至今日,依然有销售人员奉行着“海量数据将带来指数级增长”的说辞,试图唤起客户对相关服务的渴望,否则将被数字时代所淘汰。我自己曾经也是这样想的。
然而,Jordan Tigani现在不仅认为这种说法行不通,还明言——“数据量大小不是问题的关键所在。”
那问题到底在哪里呢?他坚信,我们不再需要担心数据的大小,而应该集中精力在如何更好地运用数据来做出明智的决策。
这番言论引起了不少业内人士的关注和热议。
那么,他的观点有何依据呢?不妨来看看他的论证过程。
首先,需要注意的是,Jordan Tigani强调,他的证明过程中的相关图表曲线并没有严格参照实际数据,而是根据他的记忆手绘而成。他认为重要的是曲线的趋势形状,而不是精确的数值。
Jordan Tigani首先从一张PPT开始阐述他的观点。
这张PPT上展示了随着时间推移数据量呈指数级增长的曲线,过去十年来,几乎每个大数据产品的销售演示都以这条曲线为开头。这种趋势在他曾经工作过的谷歌和SingleStore等公司也是如此。
在展示这条曲线后,销售人员会顺势宣扬:大数据时代来临了!你需要我们的产品和服务!
然而,Jordan Tigani认为,多年来的经验已经证明,传统的数据处理方法不再适用,大多数应用程序也不需要处理海量数据。
一个明显的例证是近年来传统数据库管理系统的复兴,诸如SQLite、Postgres、MySQL都经历了强劲的增长,与此不同的是,“NoSQL”和“NewSQL”等新型数据库的增长却相对停滞不前。
以MongoDB为例,它是NoSQL数据库中排名最高的,也是最受欢迎的横向扩展数据库之一。前几年,MongoDB一度增长迅猛,但最近规模略有下降,与MySQL等主流数据库仍存在差距。
Jordan Tigani的观点是——如果大数据真的是未来,那情况应该不会如此。
另一个鼓吹大数据时代的说法是——每个人都将被数据淹没。
然而,Jordan Tigani的研究发现,绝大多数客户的数据存储量都不超过1TB,即使是大型企业,它们的数据规模也相对有限。
根据他的从业经验,他为最大的客户提供服务,而这些客户的数据存储量只是第二大客户的两倍,而第二大客户也只是第三大客户的两倍。
因此,客户的数据大小和数量呈现幂律分布。
只有极少数客户拥有PB级别的数据,而成千上万的客户每月的存储费用都不超过10美元,而他们服务的客户中位数数据存储资源使用量甚至不到100GB。
不仅是作者本人这么认为,像Gartner、Forrester等机构的分析师以及其他业内人士也表示,大多数企业的数据库规模都小于1TB,100GB是常态。
以一家拥有超过千名客户的公司为例,即使每个客户每天下一个订单,其中包含100项数据,每天产生的数据仍然不到1字节,三年后也不过1GB。要达到1TB,这家公司需要经营几千年。
还有一个例子是作者之前接触过的一家E轮独角兽公司,它正在快速增长,但即使如此,它们的财务数据、客户数据、营销跟踪数据以及服务日志的总量也只有几GB。
这就是所谓的大数据吗?
即使看“已有”部分,问题仍然存在。
由于现代云平台将存储和计算分离,两者的增长速度存在差距,也就是说,数据存储的增长速度远远快于计算资源的需求增长速度。
具体来说,企业的数据存储量随着时间线性增加,但大多数分析计算需求仅针对最近的数据,不会频繁读取旧数据。因此,计算资源需求不会同步增加。
作者提到的一个客户就是这种情况。
作为全球领先的零售商,他们的本地数据存储从100TB增长到了30PB,增加了300倍。如果计算资源需求也同样增加,他们在数据分析上的支出将高达数十亿美元。但实际上,他们只
花费了极小的费用。
Jordan Tigani认为,大量计算服务并不是必需的,这也意味着先进的架构和分布式处理并不是绝对必要的。同样,分析数据的工作负载远远小于数据的总量。
大多数情况下,人们只会查询最近1小时、1天或上周的数据,较小的表格会频繁查询,但对于大型表格来说情况就不一定如此。
在作者在BigQuery工作的经验中,数据量巨大的客户几乎不会频繁查询大量数据,除非他们需要生成某些报告。这种需求通常不要求高性能,而且只占企业数十万次查询中的极少部分。
正如下图所示,90%的查询任务涉及的数据量都不超过100MB,仅有1%的查询涉及超过10GB的数据,即使是对于大型表格,也可以通过适当的处理来降低计算量和延迟。
此外,还有一个方面支持Jordan Tigani的观点——符合“大数据”定义的产品数量正在减少。
在过去,大数据的定义之一是“任何单台机器无法处理的任务或场景需求”。例如,在2000年代,对于单个商业计算机来说,处理大数据工作负载是相当困难的。
然而,如今,一台标准的AWS实例所使用的物理服务器配备有64个核心和256GB的RAM。如果愿意多投资一些钱,还可以增加两个数量级的RAM,几乎可以满足所有工作负载需求。
所以,虽然大数据时代结束了,但并不意味着相关从业者要下岗。
从我的角度来看,大数据的结束只是意味着它正在进化。具体来说,我认为大数据的另一个内涵是“当数据的存储成本小于数据的挖掘价值时,就应该考虑清理数据”。因此,我们需要确定哪些数据需要及时清理,以及这背后的原因。这将成为数据工作的重要组成部分。
这也包括在不同时间存储相同数据的不同字段,需要有人来维护和记录。此外,基于相关监管规定,许多类型的数据也需要定期清理。
还有一点,一些公司需要定期评估哪些旧数据应该清理,以避免未来可能的法律风险。
总的来说,Jordan Tigani的观点引发了广泛的讨论。有人支持他的观点,认为大数据时代的确已经结束,而有人持不同看法,认为大数据仍然具有重要性。无论如何,数据仍然是当今数字时代的关键资源之一,如何更有效地管理和利用数据仍然是一个重要的议题。
参考链接:
— 完 —