去年,我审查了一种通过将浏览器伪装为Googlebot来在Experts-Exchange网站上加载所有内容的方法。或更准确地说,是浏览器的用户代理标头。
该网站阻止了未注册用户访问该网站上的内容,但允许googlebot访问该内容。
显然,如今,类似的故事正在互联网上流行,它采用了更为详细的方法,详细介绍了必须被识别为Googlebot的步骤。
如果有问题的网站检查Cookie,使用Javascript进行检测或比较IP以确保其确实在Google的IP范围内,仅将User-Agent字符串更改为Googlebot是不够的。
仅修改User-Agent可能会获得对某些网站的访问权限,但其他网站则可能无法正常工作,因为它们会执行其他检查。
Google Bot用户代理
这是重要的五个因素:
IP:使用Google翻译浏览该网站。您可以选择使用网络代理或常规代理,也可以使用匿名器Tor或虚拟专用网络来达到相同的效果。
用户代理:使用Firefox扩展用户代理切换器,并添加有关Googlebot的信息。
Javascript:使用“ 无脚本”之类的Firefox扩展程序在您访问的网站上将其关闭(或更确切地说,阻止任何JavaScript程序自动运行)
Cookies:使用Firefox扩展Cookie安全工具阻止网站尝试设置的Cookie。
Referrer:使用Firefox扩展RefControl禁用Referrer。
请记住,使用某些选项而不是全部使用可能就足够了。根据网站的不同,您可能只需要更改用户代理或IP即可访问内容。您唯一可以找到的就是使用各种设置对其进行测试。
描述该技术的网站目前处于关闭状态,因为它无法处理Digg和其他网站发送给它的大量访问者。
更新:网站再次启动,您再次找到了所有相关信息。
更新2:网站再次关闭,不太可能再次启动。我已经删除了链接,但是上面的信息应该足以帮助您入门。
您始终需要做的一件事就是将浏览器的用户代理设置为Googlebot。如果这还不够的话,您可能需要利用pf(上面列出的其他四个因素中的一些)来使其起作用。