我需要开发一个垂直搜索引擎作为网站的一部分.搜索引擎的数据来自特定类别的网站.我想为此我需要一个爬虫爬行几个(几百个)站点(在特定的业务类别中)并提取产品和服务的内容和
关于如何编写这样的爬虫和提取器的任何想法.我使用通常的ruby库编写了一些爬虫和内容提取器,但不是一个完整的搜索引擎.我猜,爬虫不时醒来并从网站上下载页面.当然,将遵循通常的礼貌行为,例如检查机器人排除规则.内容提取器可以在读取页面后更新数据库.如何同步爬虫和提取器?它们应该紧密集成?
Nutch构建于Lucene之上,并且已经实现了一个爬虫和几个文档解析器.您还可以 hook it to Hadoop获得可扩展性.