Hadoop论文

系统教程590 更新时间：2026-04-04 13:47:38

2024年3月24日发(作者：)

Hadoop论文

内容摘要:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力

进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称

HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提

供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large

data set)的应用程序。HDFS放宽了(relax) POSIX的要求,可以以流的形式访问

(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和

MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计

算。

正文:在课堂上,老师通过教我们使用虚拟机安装Linux系统ubuntu桌面系统,来使用

这款软件,由于在非Windows下使用,对于操作命令不是很熟悉,以及Linux的使用不熟练,

遇到了很多问题。例如网络问题,在VM下,网络可以自行连接也可以和本机共享,在

windows自带的Hyper-v上使用时,就需要注意到网络的配置问题,这款虚拟机不会共享

网络,而VirualBox却可以直接共享。安装好虚拟机和ubuntu系统后,接下来就是通过终

端使用命令进行安装,这个终端和windows下的cmd类似,但是由于很少使用命令行,所以

不熟悉。然后完成Hadoop的安装。为hadoop应用添加一个单独的用户,这样可以把安

装过程和同一台机器上的其他软件分离开来,使得逻辑更加清晰。无论是在单机环境还是

多机环境中,Hadoop均采用SSH来访问各个节点的信息。在单机环境中,需要配置SSH

来使用户能访问localhost的信息。首先需要安装openssh-server。其次是配置SSH使

得Hadoop应用能够实现无密码登录,输入命令切换用户,通过SSH访问localhost来验证

安装是否成功。老师还介绍了,每台机器情况都不一样,出现的问题不同,那么解决问题的方

法就不一样了,例如老师在安装失败时输出了log信息,找到了问题所在就解决了问题。这

让我意识到,Linux系统由于开源所导致的不确定性很高,出现的问题也十分复杂,对于程序

员来说可能

比较好解决,但对于大多数人来说就显得很棘手了。安装完毕,接下来就是配置文件

了,Hadoop的配置文件都放在/Hadoop/conf这个文件夹下面,主要是四个配置文件。配

置好环境后,就可以开始使用了。

Hadoop自立门户:与Nutch若即若离

众所周知,Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web

搜索引擎。Nutch与Hadoop本是同门师兄,从0.X版本开始,为了解决Nutch的海量数

据爬取和存储的需要,Hadoop便自立门户,从Nutch中剥离出来成为一个开源子项目。

Hadoop其实并非一个单纯用于存储的分布式文件系统,而是一个被设计用来在由普通硬

件设备组成的大型集群上执行分布式应用的框架。Hadoop由两部分组成,包括一个分布

式文件系统HDFS和一个MapReduce实现。简而言之,Hadoop的核心目标是为开发分

布式应用提供一个框架。HDFS采用master/slave架构。一个HDFS集群是有一个

Namenode和一定数目的Datanode 组成。HDFS支持传统的层次型文件组织,与大多数

其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。

本文发布于:2024-03-24，感谢您对本站的认可！

本文链接:https://www.fzithome.com/xitong/1711273678a372147.html

Hadoop论文

发布评论取消回复

最近发表

相关推荐

标签列表

Hadoop论文

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复