2024年3月24日发(作者:)
Hadoop论文
内容摘要:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力
进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称
HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提
供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large
data set)的应用程序。HDFS放宽了(relax) POSIX的要求,可以以流的形式访问
(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和
MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计
算。
正文:在课堂上,老师通过教我们使用虚拟机安装Linux系统ubuntu桌面系统,来使用
这款软件,由于在非Windows下使用,对于操作命令不是很熟悉,以及Linux的使用不熟练,
遇到了很多问题。例如网络问题,在VM下,网络可以自行连接也可以和本机共享,在
windows自带的Hyper-v上使用时,就需要注意到网络的配置问题,这款虚拟机不会共享
网络,而VirualBox却可以直接共享。安装好虚拟机和ubuntu系统后,接下来就是通过终
端使用命令进行安装,这个终端和windows下的cmd类似,但是由于很少使用命令行,所以
不熟悉。然后完成Hadoop的安装。为hadoop应用添加一个单独的用户,这样可以把安
装过程和同一台机器上的其他软件分离开来,使得逻辑更加清晰。无论是在单机环境还是
多机环境中,Hadoop均采用SSH来访问各个节点的信息。在单机环境中,需要配置SSH
来使用户能访问localhost的信息。首先需要安装openssh-server。其次是配置SSH使
得Hadoop应用能够实现无密码登录,输入命令切换用户,通过SSH访问localhost来验证
安装是否成功。老师还介绍了,每台机器情况都不一样,出现的问题不同,那么解决问题的方
法就不一样了,例如老师在安装失败时输出了log信息,找到了问题所在就解决了问题。这
让我意识到,Linux系统由于开源所导致的不确定性很高,出现的问题也十分复杂,对于程序
员来说可能
比较好解决,但对于大多数人来说就显得很棘手了。安装完毕,接下来就是配置文件
了,Hadoop的配置文件都放在/Hadoop/conf这个文件夹下面,主要是四个配置文件。配
置好环境后,就可以开始使用了。
Hadoop自立门户:与Nutch若即若离
众所周知,Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web
搜索引擎。Nutch与Hadoop本是同门师兄,从0.X版本开始,为了解决Nutch的海量数
据爬取和存储的需要,Hadoop便自立门户,从Nutch中剥离出来成为一个开源子项目。
Hadoop其实并非一个单纯用于存储的分布式文件系统,而是一个被设计用来在由普通硬
件设备组成的大型集群上执行分布式应用的框架。Hadoop由两部分组成,包括一个分布
式文件系统HDFS和一个MapReduce实现。简而言之,Hadoop的核心目标是为开发分
布式应用提供一个框架。HDFS采用master/slave架构。一个HDFS集群是有一个
Namenode和一定数目的Datanode 组成。HDFS支持传统的层次型文件组织,与大多数
其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。


发布评论