2024年3月24日发(作者:)
Nutch相关框架视频教程杨尚川281032878@
Nutch相关框架视频教程
第一讲
1、 通过nutch,诞生了hadoop、tika、gora。
2、 nutch通过ivy来进行依赖管理(1.2之后)。
3、 nutch是使用svn进行源代码管理的。
4、 lucene、nutch、hadoop,在搜索界相当有名。
5、 ant构建之后,生成runtime文件夹,该文件夹下
面有deploy和local文件夹,分别代表了nutch的
两种运行方式。
6、 nutch和hadoop是通过什么连接起来的?通过
nutch脚本。通过hadoop命令把
的
JobTracker。
提交给hadoop
7、 nutch入门重点在于分析nutch脚本文件。
1 / 44
Nutch相关框架视频教程杨尚川281032878@
第二讲
1、 git来作为分布式版本控制工具,github作为server。
提供免费的私有库。
2、 nutch的提高在于研读文件中
的每一个配置项的实际含义(需要结合源代码理解)。
3、 定制开发nutch的入门方法是研读文件。
4、 命令:
apt-get install subversion
svn co /repos/asf/nutch/tags/release-1.6/
cd release-1.6
apt-get install ant
ant
cd runtime/local
mkdir urls
vi urls/ 并输入
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
vi release-1.6/conf/ 增加配置
cd ../../release-1.6
2 / 44


发布评论