124.115.0的IP段访问频繁造成网站空间负载过荷:限制搜搜蜘蛛抓取频率的参考方法

近日来,很多站长都反映,124.115.0段的IP大量出现在网站LOG记录中,访问次数非常频繁,造成网站服务器CPU使用率上升,消耗大量资源。志文工作室同样受此IP段访问的干扰,以至于有限的空间总是资源紧张网站打开速度明显减慢。
根据IP地址查询得知,此IP是陕西省 西安市(电信机房) 电信,并非百度、谷歌等搜索引擎的蜘蛛爬虫。该IP段一般被日志记录为普通用户访问,多数站长认为是采集器、群发软件等,纷纷将此IP禁止访问。
其实据查这个IP段是腾讯SOSO的爬虫。目前SOSO新闻使用的IP是124.115.1段,与124.115.0段是同一个机房。大家都知道,以前用搜搜的时候都会提示搜索结果来自谷歌,这是因为搜搜的搜索技术来自于谷歌。但是自2009年9月李开复从谷歌辞职时,腾讯搜搜与谷歌的合作即已经到期,搜搜正式推出了自己的独立搜索引擎。
上面提到的这个IP段正是SOSO现在爬取页面的服务器群。
据观察统计该IP段地址列表为:

124.115.0.14
124.115.0.15
124.115.0.16
124.115.0.17
124.115.0.18
124.115.0.19
124.115.0.20
124.115.0.21
124.115.0.22
124.115.0.23
124.115.0.24
124.115.0.25
124.115.0.26
124.115.0.27
124.115.0.100
124.115.0.101
124.115.0.102
124.115.0.103
124.115.0.104
124.115.0.105
124.115.0.106
124.115.0.107
124.115.0.108
124.115.0.109
124.115.0.110
124.115.0.111
124.115.0.138
124.115.0.139
124.115.0.140
124.115.0.141
124.115.0.142
124.115.0.156
124.115.0.157
124.115.0.158
124.115.0.159
124.115.0.160
124.115.0.161
124.115.0.162
124.115.0.163
124.115.0.164
124.115.0.165
124.115.0.166
124.115.0.167
124.115.0.168
124.115.0.169
124.115.0.170
124.115.0.171

如果你的网站访问量小,空间(或服务器)能够承受的住,那么,你大可不必担心,蜘蛛抓取页面当然是站长们希望的。但是如果这种抓取确实是影响到了站点的正常运行,你就不得不采取点措施了。下面让志文工作室来帮助你分析一些可行的参考解决方案。
我们知道使用Google 网站管理员工具可以诊断和管理Googlebot 抓取网站的频率,这是SEO搜索引擎优化人员要了解和关注的,善用之将取得事半功倍的效果。但是对于其他搜索引擎的蜘蛛,我们可以怎么办呢?
一种方法是,如许多站长那样,在管理后台限制该IP段的访问,不过你可能又害怕这样会使站点的页面收录受到太大的影响,这样你可以尝试只限制统计到的IP中的一部分。
另一种方法是,你可以通过给腾讯Soso发过邮件要求降低搜搜蜘蛛的访量,其客服邮件地址为:sosospider@tencent.com。据说这样做是能够得到有效的回复的。
当然或许你很在意去发这样的邮件,那么还有其他办法,就是通过书写robots.txt进行限制和引导搜搜的蜘蛛sosospider。
比如你可以这样书写来控制蜘蛛抓取频率:
User-agent:*
Crawl-delay:400
意思为控制大概每400秒抓取一次。实际上同时抓取的不同服务器IP段蜘蛛很多,所以事实上抓取频率是少于400秒的,具体设置为多少,你可以根据自己站点的实际情况考虑。但是并不是所有的搜索引擎均支持Crawl-delay属性。此外,合适的书写robots.txt来控制蜘蛛的抓取,但书写robot也有一定的技巧,如果你对如何书写robots不太了解,可以参考下面这篇文章,这里介绍的很详细:
网站针对搜索引擎收录控制设置:robots.txt和Robots META标签应用详解
http://lzw.me/default.asp?id=1088

点赞 (0)
  1. 以前还真没注意这个东西。
    [reply=任侠,2010-05-11 09:42 AM]关于蜘蛛抓取的问题,对于小的虚拟主机来说需要考虑的是比较多的,涉及到负载问题[/reply]

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Captcha Code