特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

如何设置让网站禁止被爬虫收录

来源：互联网收集：自由互联发布时间：2021-12-09

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候

　　网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。

　　以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

　　1、通过 robotstxt 文件屏蔽

　　可以说 robotstxt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)，给出以下建议：

　　Useragent Baiduspider

　　Disallow /

　　Useragent Googlebot

　　Disallow /

　　Useragent GooglebotMobile

　　Disallow /

　　Useragent GooglebotImage

　　Disallow/

　　Useragent MediapartnersGoogle

　　Disallow /

　　Useragent AdsbotGoogle

　　Disallow /

　　UseragentFeedfetcherGoogle

　　Disallow /

　　Useragent Yahoo Slurp

　　Disallow /

　　Useragent Yahoo Slurp China

　　Disallow /

　　Useragent YahooAdCrawler

　　Disallow /

　　Useragent YoudaoBot

　　Disallow /

　　Useragent Sosospider

　　Disallow /

　　Useragent Sogou spider

　　Disallow /

　　Useragent Sogou web spider

　　Disallow /

　　Useragent MSNBot

　　Disallow /

　　Useragent iaarchiver

　　Disallow /

　　Useragent Tomato Bot

　　Disallow /

　　Useragent

　　Disallow /

　　2、通过 meta tag 屏蔽

　　在所有的网页头部文件添加，添加如下语句：

　　3、通过服务器(如：Linux/nginx )配置文件设置

　　直接过滤 spider/robots 的IP 段。

　　以上就是《SEO优化之如何设置让网站禁止被爬虫收录》的全部内容，仅供站长朋友们互动交流学习，SEO优化是一个需要坚持的过程，希望大家一起共同进步。

上一篇：为什么蜘蛛抓取过网站却依旧没有收录呢?什么原因导致的?
下一篇：没有了

如何设置让网站禁止被爬虫收录

相关文章