为垂直搜索引擎开发爬虫和刮刀

来源：互联网收集：自由互联发布时间：2021-06-16

我需要开发一个垂直搜索引擎作为网站的一部分.搜索引擎的数据来自特定类别的网站.我想为此我需要一个爬虫爬行几个(几百个)站点(在特定的业务类别中)并提取产品和服务的内容和

我需要开发一个垂直搜索引擎作为网站的一部分.搜索引擎的数据来自特定类别的网站.我想为此我需要一个爬虫爬行几个(几百个)站点(在特定的业务类别中)并提取产品和服务的内容和URL.其他类型的页面可能无关紧要.大多数网站都很小或很小(最多几百页).该产品具有10到30个属性.

关于如何编写这样的爬虫和提取器的任何想法.我使用通常的ruby库编写了一些爬虫和内容提取器,但不是一个完整的搜索引擎.我猜,爬虫不时醒来并从网站上下载页面.当然,将遵循通常的礼貌行为,例如检查机器人排除规则.内容提取器可以在读取页面后更新数据库.如何同步爬虫和提取器？它们应该紧密集成？

Nutch构建于Lucene之上,并且已经实现了一个爬虫和几个文档解析器.
您还可以 hook it to Hadoop获得可扩展性.

相关文章