新浪博客屏蔽百度谷歌等搜索引擎蜘蛛的抓取将会带来什么

16,465次阅读
14 条评论

共计 1891 个字符,预计需要花费 5 分钟才能阅读完成。

提醒:本文最后更新于2017-03-03 16:32,文中所关联的信息可能已发生改变,请知悉!

如果你关注了今天的新闻,可能你已经看到了这个到处传播转载的新闻,8月13日有人发现新浪博客在其robots.txt(http://blog.sina.com.cn/robots.txt)文件添加了禁止百度蜘蛛访问抓取的命令,屏蔽百度的蜘蛛爬虫,禁止百度蜘蛛获取新浪博客的网页信息。这就意味着,通过新浪博客获取百度外链的方式将不可取了。志文工作室通过访问新浪博客的robots.txt,发现新闻报道情况基本属实,但是该robots限制的不只是百度,而是所有搜索引擎的抓取收录。新浪博客的robots.txt内容摘录如下:(如果你不知道robots.txt并想详细了解,可参考该篇文章:网站针对搜索引擎的收录控制:robots.txt和Robots META标签应用详解

#####################################################
# SINA BLOG 禁止搜索引擎收录配置文件
# 文件: ~/robots.txt
# 编写: 阿狼
# 日期: 2005-03-24
#####################################################
#开放百度的搜索引擎的User-Agent代码,*表示所有###########
User-agent: Baiduspider
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: /
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
##Disallow: /admin/
##Disallow: /include/
##Disallow: /html/
##Disallow: /queue/
##Disallow: /config/
#开放搜索的目录有####################################
# /
# /advice/
# /help/
# /lm/
# /main/
# /myblog/
#搜索引擎User-Agent代码对照表########################
# 搜索引擎 User-Agent代码
# AltaVista Scooter
# Infoseek Infoseek
# Hotbot Slurp
# AOL Search Slurp
# Excite ArchitextSpider
# Google Googlebot
# Goto Slurp
# Lycos Lycos
# MSN MSNBOT
# Netscape Googlebot
# NorthernLight Gulliver
# WebCrawler ArchitextSpider
# Iwon Slurp
# Fast Fast
# DirectHit Grabber
# Yahoo Web Pages Googlebot
# Looksmart Web Pages Slurp
# Baiduspider Baidu

我们都知道,很多人利用新浪做镜像博客、做网站等的推广,其实新浪屏蔽百度等搜索蜘蛛的抓取对这样的一些博客会带来一些影响,但却不是最主要的。我们看到的新闻评论说,因为有很多人利用新浪博客做推广,所以新浪屏蔽百度将会带来的减少无价值内容的产生。其实这种看法是片面的,它只说了一个方面,但是没有考虑这将会给互联网带来的更严重的后果。我们都知道,新浪有很多的名人博客、原创博客,每天的原创产出内容数以万计。这样真正的问题就很明显了,或许你已经察觉到了问题真正的严重性。

当这些原创博客的内容百度、谷歌等搜索引擎不能够抓取时,那些针对百度等搜索引擎做的垃圾站就有机可乘了,这才是问题的重点。当初淘宝屏蔽了百度,之后大批的站长将目标转向淘宝,到现在每天采集淘宝店铺内容的网站仍然数不胜数。采集不被允许百度蜘蛛抓取的内容放到自己的网站上,然后让百度抓取自己的网站,这样这些内容就相当于自己网站的原创文章了,网站被搜索引擎大量收录会带来大量的访问流量,从而能够带来巨大的广告等利益,这是众多垃圾站不断产出的主要原因。所以不难预计,如果新浪博客一直如此屏蔽百度蜘蛛等搜索引擎的抓取的话,那么它将会遭遇和淘宝网站类似的境况。这样互联网无价值内容的产生不是减少,而是必将会增加的更多。

所以新浪博客屏蔽百度,将不一定会给其本身带多少有利之处,但是对互联网带来的负面影响,必会是重大的。

正文完
 0
任侠
版权声明:本站原创文章,由 任侠 于2010-08-15发表,共计1891字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(14 条评论)
验证码
网赚培训班 评论达人 LV.1
2011-01-27 17:55:49 回复

加油 不错哦 学习学习

     中国浙江省宁波市电信
airmaxtrainer 评论达人 LV.1
2010-09-03 22:57:29 回复

没有研究过这个呢!!

     中国安徽省合肥市电信
西门 评论达人 LV.1
2010-08-20 19:19:17 回复

我去搜索新浪博客,还是能搜索到很多名人的博客。

     中国湖北省武汉市电信
RayChow 评论达人 LV.1
2010-08-19 21:41:49 回复

新浪屏蔽掉蜘蛛,有个说法是,防止网页快照对其产生不利影响。

     中国安徽省宣城市电信
龙崽 评论达人 LV.1
2010-08-19 08:13:37 回复

百度是流氓,会提供抓取接口的。。

     中国江苏省盐城市电信
Zk 评论达人 LV.1
2010-08-18 22:40:54 回复

之前我的班级网用过这方法··

     中国广东省惠州市电信
威言威语 评论达人 LV.4
2010-08-17 20:58:45 回复

新浪屏蔽百度,不晓得有演的哪一出~

     中国上海上海市电信
小酷 评论达人 LV.1
2010-08-17 01:53:33 回复

网站做大了
人家就不需要依靠搜索引擎得到什么了。

     中国河南省南阳市联通
朵未 评论达人 LV.1
2010-08-16 21:36:27 回复

我觉得没必要屏蔽。应该不会一直屏蔽下去。

     中国浙江省丽水市电信
木本无心 评论达人 LV.4
2010-08-16 19:15:25 回复

百度怎么了?新浪VS百度,鹿死谁手?

     中国福建省南平市电信
junofeeng 评论达人 LV.1
2010-08-16 09:01:01 回复

[face_02]新浪靠着微博牛起来了。垃圾站又要疯涨了哦。是不是他们有个什么盟约要一起反百度啊?
[reply=任侠,2010-08-16 08:32 AM]新浪屏蔽的不只是百度,而是所有的搜索引擎,对robots懂一点的人都能看出来,这条新闻传递的信息其实是一种误导,却被众多网站大量转载[/reply]

     中国山东省临沂市联通
黄伟涛 评论达人 LV.1
2010-08-16 08:50:18 回复

风物长宜放眼量。

     中国广东省深圳市电信
蜘蛛 评论达人 LV.1
2010-08-15 20:50:31 回复

以后baidu全部是些垃圾信息了
[reply=任侠,2010-08-15 07:34 PM]垃圾信息一直存在,只是以后互联网重复内容可能要越来越多了[/reply]

     中国湖南省长沙市电信
醉美点金 评论达人 LV.1
2010-08-15 05:24:10 回复

刚刚看到,新浪真的走了这一步!
[reply=任侠,2010-08-15 07:35 PM]恩,新浪博客的rotbots里写的注释是临时设置,以后会不会看情况去掉该限制也不一定[/reply]

     中国浙江省宁波市电信