我们可以告诉机器人抓取或不抓取我们在robot.txt中的网站.另一方面,我们可以控制Google网站管理员的抓取速度(Google机器人抓取网站的程度).我想知道是否可以通过robots.txt限制抓取工具的
我的意思是接受机器人抓取页面,但限制他们的存在时间或页面或大小!
不是我找到的. Robots.txt是一个放置您希望机器人包含或排除的目录或文件的地方.如果有一种方式它还不标准.请记住,创建机器人的人选择是否尊重robots.txt,并非所有机器人(“坏机器人”)都尊重此文件.目前,如果存在降低爬行速度,站点时间等的设置,则它将基于bot,而不是标准化为robots.txt值.
更多信息:http://www.robotstxt.org/robotstxt.html