搜索引擎 – 另一种网络爬虫到Nutch

来源：互联网收集：自由互联发布时间：2021-06-16

我正在尝试建立一个专门的搜索引擎网站来搜索有限数量的网站。我想出的解决办法是：使用Nutch作为网页爬虫，使用Solr作为搜索引擎，前端和站点逻辑用Wicket编码。问题是，我发现

我正在尝试建立一个专门的搜索引擎网站来搜索有限数量的网站。我想出的解决办法是：

>使用Nutch作为网页爬虫，
>使用Solr作为搜索引擎，
>前端和站点逻辑用Wicket编码。

问题是，我发现Nutch相当复杂，它是一个很大的软件来定制，尽管事实上，一个详细的文档(书籍，最近的教程等)根本不存在。

现在问题：

>对网站的洞穴想法有任何建设性的批评？
>有没有一个很好的，简单的替代Nutch(作为网站的爬行部分)？

谢谢

Scrapy是一个抓取网站的python库。它相当小(与Nutch相比)，并设计用于有限的站点爬行。它有一个Django类型的MVC风格，我发现很容易定制。

相关文章