现在的位置: 首页 > 网文分享 > 电脑应用 > 正文
可恶的蜘蛛
2012年07月26日 电脑应用 ⁄ 共 1401字 评论数 32 ⁄ 被围观 6,469+

这里说的蜘蛛不是一般意义上的节肢动物蜘蛛,而是指自动抓取网页内容的机器人Robots,搜索引擎蜘蛛的简称。搜索引擎蜘蛛即Search Engine Spider,是一个很形象的名字。把互联网比喻成一张蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。搜索引擎蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网,那么搜索引擎蜘蛛就可以用这个原理把互联网上所有节点的网页都抓取下来。

好吧,既然这些蜘蛛的作用这么大,应该是站长们所非常喜欢的才对。因为有蜘蛛爬过,表明你的网站、网页还是受青睐的,会增加搜索引擎的收录数量,还是能够给你的网站带来不少流量的。可惜,这些蜘蛛对我来说,就像是噩梦。因为它几乎没有给我带来任何 IP,反倒是将我的流量消耗殆尽。想想看一个日均只在50左右的站,一天的流量竟然达到1G以上,有时甚至达到2G。这也太令人匪夷所思了,太坑人了!

website band

website ip

问题既然出现了,从浏览 Apache 日志开始,一步步排查吧。

1、首先发现日志中存在大量 dnspod 的相关记录,问其客服,说我开了他们提供的监控服务,可能导致流量过大的情况。好吧,撤掉监控,只保留 dns 解析服务,其他一律删除。结果是流量问题还没解决。

2、其次能看到的全是一些蜘蛛的爬行记录了,这其中尤其以搜狗的最为厉害,几乎是每分钟都有数次爬行记录。好吧通过填写 robots.txt 文件屏蔽之,貌似不起作用,于是通过修改 .htaccess 文件直接将其 ip 屏蔽,好像效果还行,没有看到那个 ip 的蜘蛛爬行记录了。可惜流量还是超标,还是不正常。

3、最后实在是没辙了,修改 robots.txt 文件只允许百度蜘蛛和谷歌蜘蛛,其余全部屏蔽,而且将 ip 屏蔽的范围进一步扩大,只要遇到同一时间段反复爬行的蜘蛛一律屏蔽。因为这是刚放上去的,似乎效果还是没有立竿见影啊。

最近被这些个蜘蛛,弄得头都大了。幸好西门大官人免费将我的流量上限一而再再而三的扩大,否则我的小站早就被挂起了,在此先表示感谢。好吧,最后列出一些蜘蛛名称,让大家欣赏一番,以便以后遇到类似的情况加以参考。话说不知各位朋友有没有遇到类似的情况,明明站点访问量不高,但蜘蛛什么的却爬行过多,导致流量异常超标的情况,如有,也请告知,总之问题是要解决的啊,先谢谢大家了。

  • google蜘蛛: googlebot
  • 百度蜘蛛:baiduspider
  • yahoo蜘蛛:slurp
  • bing蜘蛛:bingbot
  • 搜狗蜘蛛:Sogou web spider/4.0
  • 搜搜蜘蛛:Sosospider、Sosoimagespider
  • 云壤蜘蛛:yrspider
  • 即刻蜘蛛:JikeSpider
  • 有道蜘蛛:YodaoBot
  • 俄罗斯搜索引擎:YandexBot/3.0
  • 未知蜘蛛:archive.org_bot
  • 未知蜘蛛:ProCogBot/1.0
  • 未知蜘蛛:AcoonBot/4.11.1
  • 未知蜘蛛:MJ12bot
  • 未知蜘蛛:WCH Web Spider
  • 未知蜘蛛:MLBot
  • 未知蜘蛛:AhrefsBot/3.1
  • 未知蜘蛛:Ezooms/1.0 bot

上面所列的还只是爬行过我的网站的蜘蛛,此外还有众多蜘蛛未曾光临,可见互联网是多么大的一张网啊,上面的蜘蛛自然也是不计其数。真是几多欢喜几多愁啊!



目前有 32 条留言 其中:访客:32 条, 博主:0 条

  1. myfeng : 2012年07月30日21:55:37  11楼

    唉 我的小站点没啥流量…


    • 管理员
      admin : 2012年07月30日21:57:17  地下1层

      彼此彼此 我也没什么流量

      • myfeng : 2012年07月30日22:33:05  地下2层

        回的挺快 以后夺过来转转 给你加点流量 哈哈

  2. 西门 : 2012年07月31日00:30:39  12楼

    这种情况不会一直都存在的,之后会变好的


    • 管理员
      admin : 2012年07月31日07:57:55  地下1层

      好吧 只要暂时不加价。。。

  3. 黑涩的猪 : 2012年07月31日13:39:49  13楼

    你是不是遇到恶意蜘蛛了,我一天100IP
    蜘蛛每天一次,也上不去100M蜘蛛流量


    • 管理员
      admin : 2012年07月31日13:41:40  地下1层

      所以觉得奇怪啊 这两天一直维持才1G 左右 实在不懂

      • 黑涩的猪 : 2012年07月31日13:48:36  地下2层

        你试用一下CloudFlare,那个带防恶意蜘蛛功能

  4. 焚云日 : 2012年08月09日10:49:51  14楼

    送访问量最实惠,哈哈!!


    • 管理员
      admin : 2012年08月09日12:34:29  地下1层

      Thank you!欢迎常来


如果觉得文章或者网站对您有帮助请点击 向TA付款 捐赠作者或者点击下面的分享按钮支持作者

更多

给我留言

留言无头像?

无觅相关文章插件,快速提升流量

×