新浪博客屏蔽百度谷歌等搜索引擎蜘蛛的抓取将会带来什么 如果你关注了今天的新闻,可能你已经看到了这个到处传播转载的新闻,8月13日有人发现新浪博客在其robots.txt(http://blog.sina.com.cn/robots.txt)文件添加了禁止百度蜘蛛访问抓取的命令,屏蔽百度的蜘蛛爬虫,禁止百度蜘蛛获取新浪博客的网页信息。这就意味着,通过新浪博客获取百度外链的方式将不可取了。志文工作室通过访问新浪博客的robots.txt,发现新闻报道情况 原创随笔 任侠 2010-08-15 16613 热度 14评论
124.115.0的IP段访问频繁造成网站空间负载过荷:限制搜搜蜘蛛抓取频率的参考方法 近日来,很多站长都反映,124.115.0段的IP大量出现在网站LOG记录中,访问次数非常频繁,造成网站服务器CPU使用率上升,消耗大量资源。志文工作室同样受此IP段访问的干扰,以至于有限的空间总是资源紧张网站打开速度明显减慢。 根据IP地址查询得知,此IP是陕西省 西安市(电信机房) 电信,并非百度、谷歌等搜索引擎的蜘蛛爬虫。该IP段一般被日志记录为普通用户访问,多数站长认为是采集器、群发软件等 网站建设 任侠 2010-04-30 6575 热度 1评论
网站针对搜索引擎收录控制:robots.txt和Robots META标签应用详解 搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 目前搜索引擎一般都是按照网站 网站建设 任侠 2010-01-26 7824 热度 5评论