大数据技术与应用习题答案第3-4章

系统教程640 更新时间：2026-04-05 04:39:22

2024年3月24日发(作者：)

3.7 习题

一、选择题

1. B 2. C 3. B 4. D 5. B 6. C 7. D 8. D

二、填空题

1.在HDFS文件系统读取文件的过程中，客户端通过对输入流调用_read() 方法开始

读取数据；写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。

全部文件的元数据是存储在NameNode节点的___硬盘 ______（硬盘/内存），

为了解决这个瓶颈，HDFS产生了____HA_____机制。

三、简答题

1. 举例说明Hadoop的体系结构。

Hadoop其实是由一系列的软件库组成的框架。这些软件库也可称作功能模块，它们

各自负责了Hadoop的一部分功能，其中最主要的是Common、HDFS和YARN。

Common提供远程调用RPC、序列化机制，HDFS负责数据的存储，YARN则负责统一

资源调度和管理等。

中数据副本的存放策略是什么?

HDFS默认的副本系数是3,这适用于大多数情况。副本存放策略是将第一个副本存放

在本地机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同

机架的节点上。这种策略减少了机架间的数据传输,这就提高了写操作的效率。

de和DataNode的功能分别是什么？

元数据节点NameNode是管理者，一个Hadoop集群只有一个NameNode节点，

是一个通常在HDFS实例中的单独机器上运行的软件。NameNode主要负责HDFS文件

系统的管理工作，具体包括命名空间管理（namespace）和文件block管理。NameNode

决定是否将文件映射到DataNode的复制块上。对于最常见的3个复制块，第一个复制块

存储在同一个机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

NameNode是HDFS的大脑，它维护着整个文件系统的目录树，及目录树里所有的

文件和目录，这些信息以两种文件存储在本地文件中：一种是命名空间镜像，也称为文件

系统镜像（file system image，FSImage），即HDFS元数据的完整快照，每次NameNode

启动时，默认会加载最新的命名空间镜像，另一种是命名空间镜像的编辑日志（edit log）。

第二名字节点Secondary NameNode。第二名字节点是用于定期合并命名空间镜像

和命名空间镜像的编辑日志的辅助守护进程。每个HDFS集群都有一个

SecondaryNameNode，在生产环境下，一般Secondary NameNode也会单独运行在

一台服务器上。

4.根据自己的理解画出HDFS文件系统中文件读取的流程，并解释其中的各个步骤。

本文发布于:2024-03-24，感谢您对本站的认可！