2024年3月24日发(作者:)

Nutch相关框架视频教程杨尚川281032878@

Nutch相关框架视频教程

第一讲

1、 通过nutch,诞生了hadoop、tika、gora。

2、 nutch通过ivy来进行依赖管理(1.2之后)。

3、 nutch是使用svn进行源代码管理的。

4、 lucene、nutch、hadoop,在搜索界相当有名。

5、 ant构建之后,生成runtime文件夹,该文件夹下

面有deploy和local文件夹,分别代表了nutch的

两种运行方式。

6、 nutch和hadoop是通过什么连接起来的?通过

nutch脚本。通过hadoop命令把

JobTracker。

提交给hadoop

7、 nutch入门重点在于分析nutch脚本文件。

1 / 44

Nutch相关框架视频教程杨尚川281032878@

第二讲

1、 git来作为分布式版本控制工具,github作为server。

提供免费的私有库。

2、 nutch的提高在于研读文件中

的每一个配置项的实际含义(需要结合源代码理解)。

3、 定制开发nutch的入门方法是研读文件。

4、 命令:

apt-get install subversion

svn co /repos/asf/nutch/tags/release-1.6/

cd release-1.6

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/ 并输入

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

vi release-1.6/conf/ 增加配置

cd ../../release-1.6

2 / 44