2024年5月10日发(作者:)
考试科目:Hadoop技术原理 考试方式:笔试 考试时量: 90分钟
一、单选题(2×20=40分)
1.
MapReduce是一种()模型
A: 面向对象模型
题号
得分
一
二
三
四
总分
B: 编程模型
C: MVC模型
D: 面向切面模型
2.
以下关于MapReduce说话错误的是?
A: Map和reduce是他们的主要思想
B: 用于大规模数据集的串行运算
C: 极大的方便了编程人员不会分布式编程
D: 都是从函数式和矢量编程语言借来的特性
3.
MapReduce的
A: 文件数据
B: 二进制
C: 字符串
D: 任意格式
4.
为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份
(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的
数据类型?
A: InputKeyClass与InputValuesClass
B: HADOOP_MAP_DATATYPES环境变量
C: 随作业一起提交的文件
D: InputFormat格式类
5.
关于 SecondaryNameNode 哪项是正确的?
A: 它是 NameNode 的热备
B: 它对内存没有要求
C: 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D: SecondaryNameNode 应与 NameNode 部署到一个节点
6.
在Hadoop MapReduce框架中,任何值类型
A: 需要实现Writable接口
B: 需要实现Comparable 接口
C: 需要实现WritableComparable接口
D: 不需要实现任何接口
7.
以下四个Hadoop预定义的Mapper实现类的描述错误的是
A: IdentityMapper实现Mapper,将输入直接映射到输出
B: InverseMapper实现Mapper,反转键/值对
C: RegexMapper实现Mapper,为每个常规表达式的匹配项生成一个(match, 1)对
D: TokenCountMapper实现Mapper,当输入的值为分词时,生成(taken, 1)对
8.
MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在
Map和Reduce过程中充当键或值,以下说法错误的是
A: 实现Writable接口的类是值
B: 实现WritableComparable接口的类可以是值或键
C: Hadoop的基本类型Text并不实现WritableComparable接口
D: 键和值的数据类型可以超出Hadoop自身支持的基本类型
9.
下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
A: FSDataInputStream扩展了DataInputStream以支持随机读
B: 为实现细粒度并行,输入分片(Input Split)应该越小越好
C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片
D: 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
10.
有关MapReduce的输入输出,说法错误的是
A: 链接多个MapReduce作业时,序列文件是首选格式
B: FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目
和大小任意定义
C: 想完全禁止输出,可以使用NullOutputFormat
D: 每个reduce需将它的输出写入自己的文件中,输出无需分片
共 页 第 页
11.
以下哪个方法不是mapper类中的重写方法
A: map()方法
B: run()f方法
C: setup方法
D: clean()方法
12.
关于HDFS的文件写入,正确的是
A: 支持多用户对同一个文件的写操作
B: 用户可以在文件的任意位置进行修改
C: 默认将文件复制成三份存放
D: 复制的文件默认都存在同一机架上
13.
哪种场景适用于HDFS
A: 存储大量小文件
B: 实时读取
C: 需经常修改数据
D: 流式读取
14.
哪个不是HDFS的特点?
A: 高容错
B: 高吞吐量
C: 低延迟读取
D: 大文件存储
15.
哪个模块负责HDFS数据的存储?
A: NameNode
B: DataNode
C: ZooKeeper
D: JobTracker
16.
哪个场景适合使用HDFS?
A: 大量小文件
B: 大文件存储
C: 随机写入
D: 低延迟读取
17.
Hadoop2.0中HDFS 默认 Block Size
A: 32M
B: 64M
C: 128M
D: 256M
18.
HDFS的Block默认保存几份?
A: 3
B: 2
C: 1
D: 不确定
19.
启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、
ResourceManager、NodeManager的命令是()
A:
B:
C:
D:
20.
HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可
靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?
A: 一次写入,少次读
B: 多次写入,少次读
C: 多次写入,多次读
D: 一次写入,多次读
二、多选题(2×5=10分)
1.
Hadoop生态圈子项目非常的庞大,下列属于Hadoop子项目的是()【选三项】
A: Hive
B: Hdfs
C: Zookeeper
共 页 第 页
发布评论