2024年3月24日发(作者:)

项目1 Hadoop基础知识

是由哪个项目发展来的?

答:2002年,开源组织Apache成立开源搜索引擎项目Nutch,但在Nutch开发过

程中,始终无法有效地将计算任务分配到多台计算机上。2004年前后,Google陆续发表

三大论文GFS、MapReduce和BigTable。于是Apache在其Nutch里借鉴了GFS和

MapReduce思想,实现了Nutch版的NDFS和MapReduce。但Nutch项目侧重搜索,

而NDFS和MapReduce则更像是分布式基础架构,因此,2006年,开发人员将NDFS

和MapReduce移出Nutch,形成独立项目,称为Hadoop。

主要有哪些版本?

答:目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel

发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些

发行版均是基于Apache Hadoop衍生出来的。

Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop 1.0,第二代Hadoop

称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,

其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x增加了NameNode HA

等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于

Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于

0.23.x,2.x增加了NameNodeHA和Wire-compatibility两个重大特性。

3.简要描述Hadoop的体系结构,分析1.x与2.x版本间的区别。

答:Hadoop 2.x相比Hadoop 1.x最大的变化是增加了YARN组件,YARN是一个

资源管理和任务调度的框架,主要包含三大模块:ResourceManager(RM)、

NodeManager(NM)和ApplicationMaster(AM)。其中,ResourceManager负责

所有资源的监控、分配和管理;ApplicationMaster负责每一个具体应用程序的调度和协

调;NodeManager负责每一个节点的维护。对于所有的applications,RM拥有绝对的

控制权和对资源的分配权。而每个AM则会和RM协商资源,同时和NodeManager通

信来执行和监控task。

4.简要描述分布式系统的优点有哪些。

答:分布式系统的主要优点是:

(1)经济:微处理机提供了比大型主机更好的性能价格比

(2)速度:分布式系统总的计算能力比单个大型主机更强

(3)固有的分布性:一些应用涉及空间上分散的机器

(4)可靠性:如果一个机器崩溃,整个系统还可以运转

(5)渐增:计算能力可以逐渐增加

项目2 Hadoop安装与配置

1. 练习安装VMware和CentOS?