我正在尝试建立一个专门的搜索引擎网站来搜索有限数量的网站。我想出的解决办法是: 使用Nutch作为网页爬虫, 使用Solr作为搜索引擎, 前端和站点逻辑用Wicket编码。 问题是,我发现
>使用Nutch作为网页爬虫,
>使用Solr作为搜索引擎,
>前端和站点逻辑用Wicket编码。
问题是,我发现Nutch相当复杂,它是一个很大的软件来定制,尽管事实上,一个详细的文档(书籍,最近的教程等)根本不存在。
现在问题:
>对网站的洞穴想法有任何建设性的批评?
>有没有一个很好的,简单的替代Nutch(作为网站的爬行部分)?
谢谢
Scrapy是一个抓取网站的python库。它相当小(与Nutch相比),并设计用于有限的站点爬行。它有一个Django类型的MVC风格,我发现很容易定制。