2024年3月24日发(作者:)
项目1 Hadoop基础知识
是由哪个项目发展来的?
答:2002年,开源组织Apache成立开源搜索引擎项目Nutch,但在Nutch开发过
程中,始终无法有效地将计算任务分配到多台计算机上。2004年前后,Google陆续发表
三大论文GFS、MapReduce和BigTable。于是Apache在其Nutch里借鉴了GFS和
MapReduce思想,实现了Nutch版的NDFS和MapReduce。但Nutch项目侧重搜索,
而NDFS和MapReduce则更像是分布式基础架构,因此,2006年,开发人员将NDFS
和MapReduce移出Nutch,形成独立项目,称为Hadoop。
主要有哪些版本?
答:目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel
发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些
发行版均是基于Apache Hadoop衍生出来的。
Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop 1.0,第二代Hadoop
称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,
其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x增加了NameNode HA
等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于
Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于
0.23.x,2.x增加了NameNodeHA和Wire-compatibility两个重大特性。
3.简要描述Hadoop的体系结构,分析1.x与2.x版本间的区别。
答:Hadoop 2.x相比Hadoop 1.x最大的变化是增加了YARN组件,YARN是一个
资源管理和任务调度的框架,主要包含三大模块:ResourceManager(RM)、
NodeManager(NM)和ApplicationMaster(AM)。其中,ResourceManager负责
所有资源的监控、分配和管理;ApplicationMaster负责每一个具体应用程序的调度和协
调;NodeManager负责每一个节点的维护。对于所有的applications,RM拥有绝对的
控制权和对资源的分配权。而每个AM则会和RM协商资源,同时和NodeManager通
信来执行和监控task。
4.简要描述分布式系统的优点有哪些。
答:分布式系统的主要优点是:
(1)经济:微处理机提供了比大型主机更好的性能价格比
(2)速度:分布式系统总的计算能力比单个大型主机更强
(3)固有的分布性:一些应用涉及空间上分散的机器
(4)可靠性:如果一个机器崩溃,整个系统还可以运转
(5)渐增:计算能力可以逐渐增加
项目2 Hadoop安装与配置
1. 练习安装VMware和CentOS?


发布评论