Robots－志文工作室

标签： Robots 的文章列表

共3篇文章

新浪博客屏蔽百度谷歌等搜索引擎蜘蛛的抓取将会带来什么

如果你关注了今天的新闻，可能你已经看到了这个到处传播转载的新闻，8月13日有人发现新浪博客在其robots.txt(http://blog.sina.com.cn/robots.txt)文件添加了禁止百度蜘蛛访问抓取的命令，屏蔽百度的蜘蛛爬虫，禁止百度蜘蛛获取新浪博客的网页信息。这就意味着，通过新浪博客获取百度外链的方式将不可取了。志文工作室通过访问新浪博客的robots.txt，发现新闻报道情况

原创随笔
任侠
2010-08-15
18062 热度
14评论

124.115.0的IP段访问频繁造成网站空间负载过荷：限制搜搜蜘蛛抓取频率的参考方法

近日来，很多站长都反映，124.115.0段的IP大量出现在网站LOG记录中，访问次数非常频繁，造成网站服务器CPU使用率上升，消耗大量资源。志文工作室同样受此IP段访问的干扰，以至于有限的空间总是资源紧张网站打开速度明显减慢。根据IP地址查询得知，此IP是陕西省西安市(电信机房) 电信，并非百度、谷歌等搜索引擎的蜘蛛爬虫。该IP段一般被日志记录为普通用户访问，多数站长认为是采集器、群发软件等

网站建设
任侠
2010-04-30
7020 热度
1评论

124.115.0的IP段访问频繁造成网站空间负载过荷：限制搜搜蜘蛛抓取频率的参考方法

网站针对搜索引擎收录控制：robots.txt和Robots META标签应用详解

搜索引擎都有自己的“搜索机器人”(ROBOTS)，并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被ROBOTS抓取而公开。为了解决这个问题，ROBOTS开发界提供了两个办法:一个是robots.txt，另一个是The Robots META标签。目前搜索引擎一般都是按照网站

网站建设
任侠
2010-01-26
8506 热度
5评论