每天,人类和机器会产生2.5qn(即quintillion,10^18)字节的数据。这个数量非常庞大,而其中90%的互联网数据,都是在2016年至今这不长的时间中积累下的。过去十年里,数据量由200qn增长到了41万qn。这些数据来自全球各地,可能是一条朋友发送的脸书消息,也可能是在另一个星系中有一颗流星被发现。
所有这些碎片化信息都是由杂乱无章的数据组成的,想要分析这些数据,无论对人还是对任何自动化机器来说都是巨大挑战。只要能够理解这些数据,一个优秀的数据专家就可以从中挖掘到巨大的价值,并进一步促进数据科学以及大数据、分析、机器学习、人工智能和其他领域应用的演进。
Gartner魔力象限报告显示,数据科学和机器学习是可以重塑未来的两种新兴技术。众所周知,数据科学融合了各种工具、算法和机器学习原理,可以从原始和非结构化的数据中挖掘出隐藏的规律和有意义的洞察。经验丰富的数据科学家能够成为该领域专家,就是依靠下面这些秘密武器。
统计学
借助结构杂乱的数据去处理现实中的复杂问题,是非常具有挑战性的。首先应该重点关注将随机噪声从数据源中分离出来,并使线程可行。统计学通过对数据进行数学计算,来帮助人们从数据中获得有意义的洞察。
领域知识
即使是在医疗保健或者火箭科学中,所处科技领域的不同也是这些数据科学家之间的唯一区别。数据科学家的主要优势在于,他们可以通过几周时间的实践适应不同语言或技术。一旦数据科学家获得了这些知识,他们将能够基于该领域的环境和经验,为所有问题找到精准的解决方案。
可视化
人们难以用二进制沟通。为了使所有的业务解决方案具有更高的透明度,必须将数据从二进制转化为到可以被视觉接受的形式。在提出解决方案之前,开发人员需要更好地了解问题。这里的可视化,指的是将数据转换为简单易懂的形式。
数据挖掘
数据挖掘,关键在于如何从分布式数据集中提取信息。整个过程包括数据查询、寻找关联并从现有的数据集中查找关键信息,这需要高强度的计算力和创造力。该流程可以用来对数据进行转换、清洗、集成和模式分析。
数据库和数据处理
这包括清洗、存储和处理数据,以便从中挖掘出可执行的洞察。需要将从多个来源收集的信息,按照用户需要的方式转换并加载到系统中。
沟通
对于数据科学家来说,能够回答“是什么”以及“为什么”是第一步,把你的发现和解决方案传达给“听众”是最后一步。整个过程中,60%的数据来自于记录。而剩下的40%,你需要进行收集,与一些部门或者总监等管理者坐在一起沟通。一个成功的数据科学家,同样也是一个好的倾听者。
展示
要以有吸引力和有用的方式向观看者展示数据。数据科学家被当作是数据洞察的传递者。你可以编写数百万的代码来构建解决方案,但吸引眼球的演示才能为工作画上句号。如果你不具备向关键决策者展示输出结论的能力,那么所有的工作都失去了意义
实践
常言道,熟能生巧。获得真实体验的最好也是最简单的方法是管理或构建小型项目。你可以从互联网上获取样本数据,也可以从任何已知的商店或零售商处收集数据。找到一些开源项目,并为项目做出贡献;清理一些有意思的数据库,并通过探索或预测从中获得洞察。
越能够与机器交流,它就会为你提供理想的结果。通过你的技术能力,了解机器是如何运行的。数据科学家通常更喜欢使用常用的编程语言,例如Python、R、Java、Julia、Scala和SQL。大部分数据科学家似乎首选Python,因为与其他语言相比,Python的速度更快。
创造力
让好奇心激发你产生新的想法,引导大脑去发现那些令人大开眼界的见解。如果想成为一个伟大的数据科学家,你必须在每一步中发现创新的解决方案。常言道:发现万有引力的不是牛顿,而是他的好奇心。
探索和理解这些基本的奥秘,积极地去解决难题吧!