每当您去进行大数据面试时,面试官都会问一些基本的问题。无论您是大数据领域的新手还是经验丰富的人,都需要具备基本知识。因此,让我们涵盖一些常见的基本大数据采访问题和破解大数据采访的答案。1.您对“大数据”一词有什么了解?

答: 大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还使公司能够根据数据做出更好的业务决策。

2.大数据的五个V是什么?

答:大数据的五个V如下:

大数据优质经验_数据和经验_经验数据是什么意思

注意: 这是大数据采访中提出的基本且重要的问题之一。如果您看到面试官有兴趣了解更多信息,则可以选择详细解释五个V。但是,如果有人询问“大数据”一词,甚至可以提及这些名称。

3.告诉我们大数据和Hadoop之间的关系。

答: 大数据和Hadoop几乎是同义词。随着大数据的兴起,专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并帮助企业做出决策。

注意: 在大数据采访中通常会问这个问题。 可以进一步去回答这个问题,并试图解释的Hadoop的主要组成部分。

4.大数据分析如何有助于增加业务收入?

答:大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同,并增加收入。通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此公司正在使用大数据分析。通过实施大数据分析,公司的收入可能会大幅增长5-20%。一些使用大数据分析来增加收入的受欢迎的公司是-沃尔玛,LinkedIn,Facebook,Twitter,美国银行等。

5.解释部署大数据解决方案应遵循的步骤。

答:以下是部署大数据解决方案的三个步骤–

(1)资料撷取

部署大数据解决方案的第一步是数据摄取,即从各种来源提取数据。数据源可以是Salesforce之类的CRM,SAP之类的企业资源计划系统,MySQL之类的RDBMS或任何其他日志文件,文档,社交媒体源等。可以通过批处理作业或实时流来摄取数据。然后将提取的数据存储在HDFS中。

大数据优质经验_经验数据是什么意思_数据和经验

(2)数据存储

提取数据后,下一步是存储提取的数据。数据可以存储在HDFS或NoSQL数据库(即HBase)中。HDFS存储适用于顺序访问,而HBase适合随机读取/写入访问。

(3)数据处理

部署大数据解决方案的最后一步是数据处理。数据通过Spark,MapReduce,Pig等处理框架之一进行处理。

6.定义HDFS和YARN的各个组件

答: HDFS的两个主要组成部分是-

除了满足客户端请求之外,NameNode还执行以下两个角色之一:

经验数据是什么意思_数据和经验_大数据优质经验

YARN的两个主要组成部分是–

7.为什么将Hadoop用于大数据分析?

答: 由于数据分析已成为业务的关键参数之一,因此,企业正在处理大量的结构化,非结构化和半结构化数据。在Hadoop以其以下功能为主要角色的情况下,分析非结构化数据非常困难

此外,Hadoop是开源的,并在商品硬件上运行。因此,它是企业的成本效益解决方案。

8.什么是fsck?

答: fsck代表文件系统检查。这是HDFS使用的命令。此命令用于检查不一致以及文件中是否存在任何问题。例如,如果文件缺少任何块,则HDFS将通过此命令得到通知。

9. NAS(网络附加存储)和HDFS之间的主要区别是什么?

答: NAS(网络附加存储)和HDFS之间的主要区别–

10.格式化NameNode的命令是什么?

答案: $ hdfs namenode -format

基于经验的大数据面试问题

如果您在大数据世界中有相当丰富的工作经验,那么根据您以前的经验,您将在大数据采访中被问到许多问题。这些问题可能只是与您的经验或场景有关。因此,请准备好这些最佳的大数据面试问题和答案

11.您有大数据经验吗?如果是这样,请与我们分享。

处理方法: 由于该问题是主观问题,因此没有具体答案,并且答案取决于您以前的经验。在大数据采访中问这个问题时,采访者想了解您以前的经验,并且还试图评估您是否适合项目要求。

那么,您将如何处理这个问题?如果您以前有经验,请从以前的职务开始,然后慢慢地在对话中添加细节。告诉他们您使项目成功的贡献。这个问题通常 是面试中问到的第二个 或第三个问题。后面的问题基于此问题,因此请仔细回答。您还应注意不要过度处理以前的工作。保持简单明了。

12.您喜欢好的数据还是好的模型?为什么?

如何处理: 这是一个棘手的问题,但通常在大数据采访中会问到。它要求您在良好的数据或良好的模型之间进行选择。作为候选人,您应该尝试根据自己的经验来回答。许多公司希望遵循严格的数据评估流程,这意味着他们已经选择了数据模型。在这种情况下,拥有良好的数据可能会改变游戏规则。另一种方法是根据良好的数据选择模型。

如前所述,请根据您的经验进行回答。但是,不要说拥有良好的数据和良好的模型很重要,因为在现实生活中很难同时拥有两者。

13.您是否会优化算法或代码以使其运行更快?

如何处理: 这个问题的答案应该始终是“是”。现实世界中的性能很重要,它并不取决于您在项目中使用的数据或模型。

面试官也可能想知道您以前是否有代码或算法优化方面的经验。对于初学者而言,这显然取决于他过去从事的项目。经验丰富的候选人也可以相应地分享他们的经验。但是,请诚实对待您的工作,如果您过去没有优化代码,那也很好。只要让面试官知道您的实际经验,您就可以破解大数据面试。

14.您如何进行数据准备?

如何进行: 数据准备是大数据项目中的关键步骤之一。大数据采访可能涉及基于数据准备的至少一个问题。当面试官问您这个问题时,他想知道您在数据准备过程中采取了哪些步骤或预防措施。

如您所知,需要进行数据准备才能获得必要的数据,然后可以将这些数据进一步用于建模目的。您应该将此信息传达给面试官。您还应该强调将要使用的模型的类型以及选择该特定模型的原因。最后但并非最不重要的一点,您还应该讨论重要的数据准备术语,例如转换变量,离群值,非结构化数据,识别差距等。

15.如何将非结构化数据转换为结构化数据?

如何处理: 非结构化数据在大数据中非常常见。应将非结构化数据转换为结构化数据,以确保进行正确的数据分析。您可以通过简要区分两者来开始回答问题。完成后,您现在可以讨论将一种形式转换为另一种形式的方法。您也可能会分享实际情况。如果您刚毕业,则可以共享与您的学术项目有关的信息。

通过正确回答此问题,您表示您已了解结构化和非结构化数据的类型,并且具有处理这些数据的实践经验。如果您具体回答该问题,那么您肯定可以破解大数据采访。

16.哪种硬件配置最适合Hadoop作业?

配置4/8 GB RAM和ECC内存的双处理器或核心计算机是运行Hadoop操作的理想选择。但是,硬件配置会根据特定于项目的工作流和处理流程而有所不同,因此需要进行相应的自定义。

17.当两个用户尝试访问HDFS中的同一文件时会发生什么?

HDFS NameNode仅支持独占写入。因此,只有第一个用户将获得文件访问许可,而第二个用户将被拒绝。

18. NameNode出现故障时如何恢复?

需要执行以下步骤以使Hadoop集群正常运行:

使用文件系统元数据副本FsImage来启动新的NameNode。配置数据节点以及客户端,使它们确认新启动的名称节点。一旦新的NameNode完成加载最后一个从DataNode接收到足够阻止报告的检查点FsImage,它将开始为客户端提供服务。

对于大型Hadoop集群,NameNode恢复过程会耗费大量时间,这对于例行维护来说是一个更大的挑战。

19.您对Hadoop中的Rack Awareness了解什么?

这是应用于NameNode的算法,用于确定如何放置块及其副本。根据机架定义,在同一机架内的DataNode之间将网络流量最小化。例如,如果我们将复制因子设为3,则将两个副本放在一个机架中,而将第三副本放在一个单独的机架中。

20.“ HDFS块”和“输入分割”之间有什么区别?

HDFS将输入数据物理上划分为块进行处理,这称为HDFS块。

输入拆分是映射器对数据的逻辑划分,用于映射操作。

基本大数据Hadoop面试问题

Hadoop是最受欢迎的大数据框架之一,如果您要进行Hadoop面试,请准备好有关Big Data Hadoop的这些基本级别的面试问题。无论您打算进行Hadoop开发人员还是Hadoop管理员面试,这些问题都将对您有所帮助。

21.解释Hadoop和RDBMS之间的区别。答: Hadoop和RDBMS之间的区别如下

数据和经验_大数据优质经验_经验数据是什么意思

22. Hadoop中常见的输入格式是什么?

答:以下是Hadoop中常见的输入格式–

23.解释Hadoop的一些重要功能。

答: Hadoop支持大数据的存储和处理。它是应对大数据挑战的最佳解决方案。Hadoop的一些重要功能是–

24.解释Hadoop运行的不同模式。

答: Apache Hadoop在以下三种模式下运行–

25.解释Hadoop的核心组件。

答: Hadoop是一个开源框架,旨在以分布式方式存储和处理大数据。Hadoop的核心组件是–

大数据优质经验_数据和经验_经验数据是什么意思

添加下方微信,金山大咖青牛老师带你轻松学习大数据,实现高薪就业!欢迎一起学习交流!

添加【专业】老师微信,咨询大数据学习具体内容!

26.“ MapReduce”程序中的配置参数是什么?

“ MapReduce”框架中的主要配置参数为:

27. HDFS中的块是什么,在Hadoop 1和Hadoop 2中其默认大小是多少?我们可以更改块大小吗?

块是硬盘中最小的连续数据存储。对于HDFS,块跨Hadoop群集存储。

是的,我们可以使用hdfs-site.xml文件中的参数dfs.block.size 更改块大小。

28.什么是MapReduce框架中的分布式缓存

分布式缓存是Hadoop MapReduce框架的一项功能,用于缓存应用程序的文件。Hadoop框架使缓存文件可用于数据节点上运行的每个映射/减少任务。因此,数据文件可以在指定作业中作为本地文件访问缓存文件。

29. Hadoop的三种运行模式是什么?

Hadoop的三种运行模式如下:

(1)独立或本地:这是默认模式,不需要任何配置。在这种模式下,Hadoop的以下所有组件均使用本地文件系统,并在单个JVM上运行–

(2)伪分布式:在这种模式下,所有主和从Hadoop服务都在单个节点上部署和执行。

(3)完全分布式:在这种模式下,Hadoop主服务和从服务在单独的节点上部署和执行。

30.在Hadoop中解释JobTracker

JobTracker是Hadoop中的JVM流程,用于提交和跟踪MapReduce作业。

JobTracker按顺序在Hadoop中执行以下活动–

Hadoop开发人员面试问题复习

破解Hadoop开发人员面试并不容易,但是准备工作可以完成所有工作。如果您是新手,请学习Hadoop概念并进行适当的准备。对不同的文件系统,Hadoop版本,命令,系统安全性等有充分的了解。以下几个问题可以帮助您通过Hadoop开发人员面试。

31. Hadoop中有哪些不同的配置文件?

答: Hadoop中的不同配置文件是–

core-site.xml –此配置文件包含Hadoop核心配置设置,例如I / O设置,这对于MapReduce和HDFS非常常见。它使用主机名端口。

mapred-site.xml –此配置文件通过设置mapreduce.framework.name为MapReduce指定框架名称

hdfs-site.xml –此配置文件包含HDFS守护程序配置设置。它还在HDFS上指定默认阻止权限和复制检查。

yarn-site.xml –此配置文件指定ResourceManager和NodeManager的配置设置。

32. Hadoop 2和Hadoop 3有什么区别?

答:以下是Hadoop 2和Hadoop 3之间的区别–

大数据优质经验_经验数据是什么意思_数据和经验

33.如何在Hadoop中实现安全性?

答: Kerberos用于在Hadoop中实现安全性。使用Kerberos时,共有3个步骤可以高层访问服务。每个步骤都涉及与服务器的消息交换。

身份验证–第一步涉及到客户端对身份验证服务器的身份验证,然后向客户端提供带时间戳的TGT(票证授予票证)。授权–在此步骤中,客户端使用收到的TGT向TGS(票证授予服务器)请求服务票证。服务请求–这是在Hadoop中实现安全性的最后一步。然后,客户端使用服务票证向服务器进行身份验证。34.什么是商品硬件?

答:商品硬件是一种可用性较低,质量较低的低成本系统。商品硬件由RAM组成,因为它执行许多需要RAM才能执行的服务。一个不需要高端硬件配置或超级计算机即可运行Hadoop,它可以在任何商用硬件上运行。

35. NFS与HDFS有何不同?

答:有许多分布式文件系统以它们自己的方式工作。NFS(网络文件系统)是最古老和流行的分布式文件存储系统之一,而HDFS(Hadoop分布式文件系统)是最近使用和流行的处理大数据的系统。 NFS和HDFS之间的主要区别如下:

大数据优质经验_经验数据是什么意思_数据和经验

36. Hadoop MapReduce如何工作?

MapReduce操作分为两个阶段。

37.什么是MapReduce?您运行MapReduce程序使用的语法是什么?

MapReduce是Hadoop中的一种编程模型,用于在计算机集群(通常称为HDFS)上处理大型数据集。它是一个并行编程模型。

运行MapReduce程序的语法为– hadoop_jar_file.jar / input_path / output_path 。

38. NameNode,Task Tracker和Job Tracker的端口号是什么?39. HDFS中文件或目录级别的文件权限有哪些不同?

Hadoop分布式文件系统(HDFS)对文件和目录使用特定的权限模型。HDFS中使用了以下用户级别–

对于上述每个用户,以下权限均适用–

上面提到的权限对文件和目录的作用不同。

对于文件–

对于目录–

40. Mapper的基本参数是什么?

映射器的基本参数是

经验丰富的Hadoop开发人员面试问题

面试官对经验丰富的Hadoop开发人员抱有更高的期望,因此他的问题是单一层次的。因此,如果您已获得一些经验,请不要忘记涵盖基于命令,基于场景,基于真实经验的问题。在这里,我们为经验丰富的Hadoop开发人员带来了一些样本面试问题。

41.如何重新启动Hadoop中的所有守护程序?

答:要重新启动所有守护程序,需要首先停止所有守护程序。Hadoop目录包含sbin目录,该目录存储脚本文件以在Hadoop中停止和启动守护程序。

使用stop daemons命令/sbin/stop-all.sh停止所有守护程序,然后使用/sin/start-all.sh命令再次启动所有守护程序。

42. Hadoop中jps命令的用途是什么?

答: jps命令用于检查Hadoop守护程序是否正常运行。此命令显示在计算机上运行的所有守护程序,即Datanode,Namenode,NodeManager,ResourceManager等。

43.说明覆盖HDFS中复制因子的过程。

答:有两种方法可以覆盖HDFS中的复制因子–

方法1:基于文件

在此方法中,使用Hadoop FS Shell根据文件更改复制因子。用于此的命令是:

$ hadoop fs – setrep –w2 / my / test_file

在这里,test_file是复制因子将设置为2的文件名。

方法2:基于目录

在这种方法中,复制因子将基于目录进行更改,即,修改给定目录下所有文件的复制因子。

$ hadoop fs –setrep –w5 / my / test_dir

在这里,test_dir是目录的名称,该目录及其中所有文件的复制因子将设置为5。

44.没有任何数据的NameNode会发生什么?

答:没有任何数据的NameNode在Hadoop中不存在。如果存在NameNode,它将包含一些数据,否则将不存在。

45.说明NameNode恢复过程。

答: NameNode恢复过程涉及以下使Hadoop集群运行的步骤:

注意:别忘了,在大型Hadoop集群上,此NameNode恢复过程会消耗大量时间。因此,这使得日常维护变得困难。因此,建议使用HDFS高可用性体系结构。

46. Hadoop CLASSPATH对启动或停止Hadoop守护程序有何必要?

CLASSPATH包含必要的目录,其中包含用于启动或停止Hadoop守护程序的jar文件。因此,设置CLASSPATH对于启动或停止Hadoop守护程序至关重要。

但是,每次设置CLASSPATH都不是我们遵循的标准。通常,CLASSPATH是写在/etc/hadoop/hadoop-env.sh文件中的。因此,一旦我们运行Hadoop,它将自动加载CLASSPATH。

47.为什么HDFS仅适用于大型数据集,而不适用于许多小型文件的正确工具?

这是由于NameNode的性能问题。通常,为NameNode分配了巨大的空间来存储大型文件的元数据。为了获得最佳的空间利用和成本效益,元数据应该来自单个文件。对于小文件,NameNode不会利用整个空间,这是性能优化的问题。

48.为什么我们需要Hadoop中的数据局部性?说明。

HDFS中的数据集在Hadoop集群的DataNodes中存储为块。在执行MapReduce作业期间,各个Mapper会处理块(输入拆分)。如果数据不在映射器执行作业的同一节点中,则需要通过网络将数据从DataNode复制到映射器DataNode。

现在,如果一个MapReduce作业具有100个以上的Mapper,并且每个Mapper尝试同时复制集群中其他DataNode的数据,则将导致严重的网络拥塞,这是整个系统的一个大性能问题。因此,数据接近计算是一种有效且具有成本效益的解决方案,在技术上被称为Hadoop中的数据本地性。它有助于提高系统的整体吞吐量。

经验数据是什么意思_大数据优质经验_数据和经验

数据局部性可以分为三种类型:

49. DFS可以处理大量数据,那么为什么我们需要Hadoop框架?

Hadoop不仅用于存储大数据,而且还用于处理这些大数据。虽然DFS(分布式文件系统)也可以存储数据,但是它缺乏以下功能-

50.什么是Sequencefileinputformat?

Hadoop使用一种特定的文件格式,即序列文件。序列文件将数据存储在序列化的键值对中。Sequencefileinputformat是用于读取序列文件的输入格式。

需要学习资料(视频 源码 电子等)或者寻求面试技巧指点的可以私信我 (知无不言)


本文由转载于互联网,如有侵权请联系删除!