当前位置 : 主页 > 网络安全 > 测试自动化 >

性能 – 如何在不干扰真实用户的情况下阻止来自我网站的坏机器人?

来源:互联网 收集:自由互联 发布时间:2021-06-22
我想保留一些不好的刮刀(也就是通过defintition忽略robots.txt的坏机器人)窃取内容并消耗我网站的带宽.同时,我不想干扰合法用户的用户体验,也不想阻止表现良好的僵尸程序(如Googlebot)索引
我想保留一些不好的刮刀(也就是通过defintition忽略robots.txt的坏机器人)窃取内容并消耗我网站的带宽.同时,我不想干扰合法用户的用户体验,也不想阻止表现良好的僵尸程序(如Googlebot)索引网站.

这里已经描述了处理这个问题的标准方法:Tactics for dealing with misbehaving robots.但是,在该主题中提出和提出的解决方案并不是我想要的.

一些坏机器人通过tor或僵尸网络连接,这意味着他们的IP地址是短暂的,可能属于使用受感染计算机的人.

因此,我一直在考虑如何改进行业标准方法,让知识产权黑名单中的“误报”(即人类)再次访问我的网站.一个想法是完全停止阻止这些IP,而是要求他们在被允许访问之前通过CAPTCHA.虽然我认为CAPTCHA是合法用户的PITA,但使用CAPTCHA审查可疑的坏机器人似乎比完全阻止对这些IP的访问更好.通过跟踪完成CAPTCHA的用户会话,我应该能够确定他们是否是人(并且应该从黑名单中删除他们的IP),或者是足够智能的机器人来解决CAPTCHA,将他们放在更黑的列表中.

然而,在我开始实施这个想法之前,我想问一下这里的好人,如果他们预见到任何问题或弱点(我已经知道一些CAPTCHA已被打破 – 但我认为我将能够处理) .

我相信的问题是验证码是否存在可预见的问题.在我深入研究之前,我还想谈谈你如何计划抓住机器人用验证码挑战它们. TOR和代理节点定期更改,因此需要不断更新IP列表.您可以使用 Maxmind作为基准的代理地址列表.您还可以找到更新所有TOR节点地址的服务.但并非所有坏机器人都来自这两个载体,因此您需要找到其他方法来捕捉机器人.如果你添加速率限制和垃圾邮件列表,那么你应该得到超过50%的坏机器人.其他策略实际上必须围绕您的网站进行定制.

现在来谈谈Captchas的问题.首先,有像http://deathbycaptcha.com/这样的服务.我不知道我是否需要详细说明那个,但它会让你的方法变得毫无用处.人们绕过Captcha的许多其他方式都在使用OCR软件. Captcha击败OCR越好,对用户来说就越难.此外,许多Captcha系统使用客户端cookie,有人可以解决一次,然后上传到他们所有的机器人.
我认为最着名的是Karl Groves的28种击败Captcha的方法. http://www.karlgroves.com/2013/02/09/list-of-resources-breaking-captcha/

为了完全披露,我是Distil Networks的联合创始人,这是一个阻止僵尸程序的SaaS解决方案.我经常将我们的软件推广为一个更复杂的系统,而不仅仅是使用验证码并自己构建它,因此我对您的解决方案的有效性的看法是有偏见的.

网友评论