2024年3月24日发(作者:)

3.7 习题

一、选择题

1. B 2. C 3. B 4. D 5. B 6. C 7. D 8. D

二、填空题

1.在HDFS文件系统读取文件的过程中,客户端通过对输入流调用_read() 方法开始

读取数据;写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。

全部文件的元数据是存储在NameNode节点的___硬盘 ______(硬盘/内存),

为了解决这个瓶颈,HDFS产生了____HA_____机制。

三、简答题

1. 举例说明Hadoop的体系结构。

Hadoop其实是由一系列的软件库组成的框架。这些软件库也可称作功能模块,它们

各自负责了Hadoop的一部分功能,其中最主要的是Common、HDFS和YARN。

Common提供远程调用RPC、序列化机制,HDFS负责数据的存储,YARN则负责统一

资源调度和管理等。

中数据副本的存放策略是什么?

HDFS默认的副本系数是3,这适用于大多数情况。副本存放策略是将第一个副本存放

在本地机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同

机架的节点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。

de和DataNode的功能分别是什么?

元数据节点NameNode是管理者,一个Hadoop集群只有一个NameNode节点,

是一个通常在HDFS实例中的单独机器上运行的软件。NameNode主要负责HDFS文件

系统的管理工作,具体包括命名空间管理(namespace)和文件block管理。NameNode

决定是否将文件映射到DataNode的复制块上。对于最常见的3个复制块,第一个复制块

存储在同一个机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。

NameNode是HDFS的大脑,它维护着整个文件系统的目录树,及目录树里所有的

文件和目录,这些信息以两种文件存储在本地文件中:一种是命名空间镜像,也称为文件

系统镜像(file system image,FSImage),即HDFS元数据的完整快照,每次NameNode

启动时,默认会加载最新的命名空间镜像,另一种是命名空间镜像的编辑日志(edit log)。

第二名字节点Secondary NameNode。第二名字节点是用于定期合并命名空间镜像

和命名空间镜像的编辑日志的辅助守护进程。每个HDFS集群都有一个

SecondaryNameNode,在生产环境下,一般Secondary NameNode也会单独运行在

一台服务器上。

4.根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步骤。