如果你关注了今天的新闻,可能你已经看到了这个到处传播转载的新闻,8月13日有人发现新浪博客在其robots.txt(http://blog.sina.com.cn/robots.txt)文件添加了禁止百度蜘蛛访问抓取的命令,屏蔽百度的蜘蛛爬虫,禁止百度蜘蛛获取新浪博客的网页信息。这就意味着,通过新浪博客获取百度外链的方式将不可取了。志文工作室通过访问新浪博客的robots.txt,发现新闻报道情况基本属实,但是该robots限制的不只是百度,而是所有搜索引擎的抓取收录。新浪博客的robots.txt内容摘录如下:(如果你不知道robots.txt并想详细了解,可参考该篇文章:网站针对搜索引擎的收录控制:robots.txt和Robots META标签应用详解 )
##################################################### # SINA BLOG 禁止搜索引擎收录配置文件 # 文件: ~/robots.txt # 编写: 阿狼 # 日期: 2005-03-24 ##################################################### #开放百度的搜索引擎的User-Agent代码,*表示所有########### User-agent: Baiduspider #限制不能搜索的目录,Disallow: 为空时开放所有目录#### Disallow: /admin/ Disallow: /include/ Disallow: /html/ Disallow: /queue/ Disallow: /config/ #限制的搜索引擎的User-Agent代码,*表示所有########### User-agent: * #临时限制对所有目录的禁止抓取 Disallow: / #限制不能搜索的目录,Disallow: 为空时开放所有目录#### ##Disallow: /admin/ ##Disallow: /include/ ##Disallow: /html/ ##Disallow: /queue/ ##Disallow: /config/ #开放搜索的目录有#################################### # / # /advice/ # /help/ # /lm/ # /main/ # /myblog/ #搜索引擎User-Agent代码对照表######################## # 搜索引擎 User-Agent代码 # AltaVista Scooter # Infoseek Infoseek # Hotbot Slurp # AOL Search Slurp # Excite ArchitextSpider # Google Googlebot # Goto Slurp # Lycos Lycos # MSN MSNBOT # Netscape Googlebot # NorthernLight Gulliver # WebCrawler ArchitextSpider # Iwon Slurp # Fast Fast # DirectHit Grabber # Yahoo Web Pages Googlebot # Looksmart Web Pages Slurp # Baiduspider Baidu
我们都知道,很多人利用新浪做镜像博客、做网站等的推广,其实新浪屏蔽百度等搜索蜘蛛的抓取对这样的一些博客会带来一些影响,但却不是最主要的。我们看到的新闻评论说,因为有很多人利用新浪博客做推广,所以新浪屏蔽百度将会带来的减少无价值内容的产生。其实这种看法是片面的,它只说了一个方面,但是没有考虑这将会给互联网带来的更严重的后果。我们都知道,新浪有很多的名人博客、原创博客,每天的原创产出内容数以万计。这样真正的问题就很明显了,或许你已经察觉到了问题真正的严重性。
当这些原创博客的内容百度、谷歌等搜索引擎不能够抓取时,那些针对百度等搜索引擎做的垃圾站就有机可乘了,这才是问题的重点。当初淘宝屏蔽了百度,之后大批的站长将目标转向淘宝,到现在每天采集淘宝店铺内容的网站仍然数不胜数。采集不被允许百度蜘蛛抓取的内容放到自己的网站上,然后让百度抓取自己的网站,这样这些内容就相当于自己网站的原创文章了,网站被搜索引擎大量收录会带来大量的访问流量,从而能够带来巨大的广告等利益,这是众多垃圾站不断产出的主要原因。所以不难预计,如果新浪博客一直如此屏蔽百度蜘蛛等搜索引擎的抓取的话,那么它将会遭遇和淘宝网站类似的境况。这样互联网无价值内容的产生不是减少,而是必将会增加的更多。
所以新浪博客屏蔽百度,将不一定会给其本身带多少有利之处,但是对互联网带来的负面影响,必会是重大的。
加油 不错哦 学习学习
没有研究过这个呢!!
我去搜索新浪博客,还是能搜索到很多名人的博客。
新浪屏蔽掉蜘蛛,有个说法是,防止网页快照对其产生不利影响。
百度是流氓,会提供抓取接口的。。
之前我的班级网用过这方法··
新浪屏蔽百度,不晓得有演的哪一出~
网站做大了
人家就不需要依靠搜索引擎得到什么了。
我觉得没必要屏蔽。应该不会一直屏蔽下去。
百度怎么了?新浪VS百度,鹿死谁手?
[face_02]新浪靠着微博牛起来了。垃圾站又要疯涨了哦。是不是他们有个什么盟约要一起反百度啊?
[reply=任侠,2010-08-16 08:32 AM]新浪屏蔽的不只是百度,而是所有的搜索引擎,对robots懂一点的人都能看出来,这条新闻传递的信息其实是一种误导,却被众多网站大量转载[/reply]
风物长宜放眼量。
以后baidu全部是些垃圾信息了
[reply=任侠,2010-08-15 07:34 PM]垃圾信息一直存在,只是以后互联网重复内容可能要越来越多了[/reply]
刚刚看到,新浪真的走了这一步!
[reply=任侠,2010-08-15 07:35 PM]恩,新浪博客的rotbots里写的注释是临时设置,以后会不会看情况去掉该限制也不一定[/reply]