当前位置 : 主页 > 网络推广 > seo >

搜索引擎 – 另一种网络爬虫到Nutch

来源:互联网 收集:自由互联 发布时间:2021-06-16
我正在尝试建立一个专门的搜索引擎网站来搜索有限数量的网站。我想出的解决办法是: 使用Nutch作为网页爬虫, 使用Solr作为搜索引擎, 前端和站点逻辑用Wicket编码。 问题是,我发现
我正在尝试建立一个专门的搜索引擎网站来搜索有限数量的网站。我想出的解决办法是:

>使用Nutch作为网页爬虫,
>使用Solr作为搜索引擎,
>前端和站点逻辑用Wicket编码。

问题是,我发现Nutch相当复杂,它是一个很大的软件来定制,尽管事实上,一个详细的文档(书籍,最近的教程等)根本不存在。

现在问题:

>对网站的洞穴想法有任何建设性的批评?
>有没有一个很好的,简单的替代Nutch(作为网站的爬行部分)?

谢谢

Scrapy是一个抓取网站的python库。它相当小(与Nutch相比),并设计用于有限的站点爬行。它有一个Django类型的MVC风格,我发现很容易定制。
网友评论