2024年5月10日发(作者:)

考试科目:Hadoop技术原理 考试方式:笔试 考试时量: 90分钟

一、单选题(2×20=40分)

1.

MapReduce是一种()模型

A: 面向对象模型

题号

得分

总分

B: 编程模型

C: MVC模型

D: 面向切面模型

2.

以下关于MapReduce说话错误的是?

A: Map和reduce是他们的主要思想

B: 用于大规模数据集的串行运算

C: 极大的方便了编程人员不会分布式编程

D: 都是从函数式和矢量编程语言借来的特性

3.

MapReduce的存储模型能够存储什么数据?

A: 文件数据

B: 二进制

C: 字符串

D: 任意格式

4.

为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份

(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的

数据类型?

A: InputKeyClass与InputValuesClass

B: HADOOP_MAP_DATATYPES环境变量

C: 随作业一起提交的文件

D: InputFormat格式类

5.

关于 SecondaryNameNode 哪项是正确的?

A: 它是 NameNode 的热备

B: 它对内存没有要求

C: 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间

D: SecondaryNameNode 应与 NameNode 部署到一个节点

6.

在Hadoop MapReduce框架中,任何值类型

A: 需要实现Writable接口

B: 需要实现Comparable 接口

C: 需要实现WritableComparable接口

D: 不需要实现任何接口

7.

以下四个Hadoop预定义的Mapper实现类的描述错误的是

A: IdentityMapper实现Mapper,将输入直接映射到输出

B: InverseMapper实现Mapper,反转键/值对

C: RegexMapper实现Mapper,为每个常规表达式的匹配项生成一个(match, 1)对

D: TokenCountMapper实现Mapper,当输入的值为分词时,生成(taken, 1)对

8.

MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在

Map和Reduce过程中充当键或值,以下说法错误的是

A: 实现Writable接口的类是值

B: 实现WritableComparable接口的类可以是值或键

C: Hadoop的基本类型Text并不实现WritableComparable接口

D: 键和值的数据类型可以超出Hadoop自身支持的基本类型

9.

下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是

A: FSDataInputStream扩展了DataInputStream以支持随机读

B: 为实现细粒度并行,输入分片(Input Split)应该越小越好

C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片

D: 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割

10.

有关MapReduce的输入输出,说法错误的是

A: 链接多个MapReduce作业时,序列文件是首选格式

B: FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目

和大小任意定义

C: 想完全禁止输出,可以使用NullOutputFormat

D: 每个reduce需将它的输出写入自己的文件中,输出无需分片

共 页 第 页

11.

以下哪个方法不是mapper类中的重写方法

A: map()方法

B: run()f方法

C: setup方法

D: clean()方法

12.

关于HDFS的文件写入,正确的是

A: 支持多用户对同一个文件的写操作

B: 用户可以在文件的任意位置进行修改

C: 默认将文件复制成三份存放

D: 复制的文件默认都存在同一机架上

13.

哪种场景适用于HDFS

A: 存储大量小文件

B: 实时读取

C: 需经常修改数据

D: 流式读取

14.

哪个不是HDFS的特点?

A: 高容错

B: 高吞吐量

C: 低延迟读取

D: 大文件存储

15.

哪个模块负责HDFS数据的存储?

A: NameNode

B: DataNode

C: ZooKeeper

D: JobTracker

16.

哪个场景适合使用HDFS?

A: 大量小文件

B: 大文件存储

C: 随机写入

D: 低延迟读取

17.

Hadoop2.0中HDFS 默认 Block Size

A: 32M

B: 64M

C: 128M

D: 256M

18.

HDFS的Block默认保存几份?

A: 3

B: 2

C: 1

D: 不确定

19.

启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、

ResourceManager、NodeManager的命令是()

A:

B:

C:

D:

20.

HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可

靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?

A: 一次写入,少次读

B: 多次写入,少次读

C: 多次写入,多次读

D: 一次写入,多次读

二、多选题(2×5=10分)

1.

Hadoop生态圈子项目非常的庞大,下列属于Hadoop子项目的是()【选三项】

A: Hive

B: Hdfs

C: Zookeeper

共 页 第 页