新浪博客屏蔽百度谷歌等搜索引擎蜘蛛的抓取将会带来什么

如果你关注了今天的新闻,可能你已经看到了这个到处传播转载的新闻,8月13日有人发现新浪博客在其robots.txt(http://blog.sina.com.cn/robots.txt)文件添加了禁止百度蜘蛛访问抓取的命令,屏蔽百度的蜘蛛爬虫,禁止百度蜘蛛获取新浪博客的网页信息。这就意味着,通过新浪博客获取百度外链的方式将不可取了。志文工作室通过访问新浪博客的robots.txt,发现新闻报道情况基本属实,但是该robots限制的不只是百度,而是所有搜索引擎的抓取收录。新浪博客的robots.txt内容摘录如下:(如果你不知道robots.txt并想详细了解,可参考该篇文章:网站针对搜索引擎的收录控制:robots.txt和Robots META标签应用详解

#####################################################
#  SINA BLOG 禁止搜索引擎收录配置文件
#  文件:     ~/robots.txt
#  编写:     阿狼
#  日期:     2005-03-24
#####################################################

#开放百度的搜索引擎的User-Agent代码,*表示所有###########
User-agent: Baiduspider

#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/

#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *

#临时限制对所有目录的禁止抓取
Disallow: /

#限制不能搜索的目录,Disallow: 为空时开放所有目录####
##Disallow: /admin/
##Disallow: /include/
##Disallow: /html/
##Disallow: /queue/
##Disallow: /config/

#开放搜索的目录有####################################
#  /
#  /advice/
#  /help/
#  /lm/
#  /main/
#  /myblog/

#搜索引擎User-Agent代码对照表########################
#  搜索引擎                User-Agent代码
#  AltaVista               Scooter
#  Infoseek                Infoseek
#  Hotbot                  Slurp
#  AOL Search              Slurp
#  Excite                  ArchitextSpider
#  Google                  Googlebot
#  Goto                    Slurp
#  Lycos                   Lycos
#  MSN                     MSNBOT
#  Netscape                Googlebot
#  NorthernLight           Gulliver
#  WebCrawler              ArchitextSpider
#  Iwon                    Slurp
#  Fast                    Fast
#  DirectHit               Grabber
#  Yahoo Web Pages         Googlebot
#  Looksmart Web Pages     Slurp
#  Baiduspider             Baidu

我们都知道,很多人利用新浪做镜像博客、做网站等的推广,其实新浪屏蔽百度等搜索蜘蛛的抓取对这样的一些博客会带来一些影响,但却不是最主要的。我们看到的新闻评论说,因为有很多人利用新浪博客做推广,所以新浪屏蔽百度将会带来的减少无价值内容的产生。其实这种看法是片面的,它只说了一个方面,但是没有考虑这将会给互联网带来的更严重的后果。我们都知道,新浪有很多的名人博客、原创博客,每天的原创产出内容数以万计。这样真正的问题就很明显了,或许你已经察觉到了问题真正的严重性。

当这些原创博客的内容百度、谷歌等搜索引擎不能够抓取时,那些针对百度等搜索引擎做的垃圾站就有机可乘了,这才是问题的重点。当初淘宝屏蔽了百度,之后大批的站长将目标转向淘宝,到现在每天采集淘宝店铺内容的网站仍然数不胜数。采集不被允许百度蜘蛛抓取的内容放到自己的网站上,然后让百度抓取自己的网站,这样这些内容就相当于自己网站的原创文章了,网站被搜索引擎大量收录会带来大量的访问流量,从而能够带来巨大的广告等利益,这是众多垃圾站不断产出的主要原因。所以不难预计,如果新浪博客一直如此屏蔽百度蜘蛛等搜索引擎的抓取的话,那么它将会遭遇和淘宝网站类似的境况。这样互联网无价值内容的产生不是减少,而是必将会增加的更多。

所以新浪博客屏蔽百度,将不一定会给其本身带多少有利之处,但是对互联网带来的负面影响,必会是重大的。