php判断网站访问来路是否为搜索引擎机器人的方法

10,501次阅读

共计 1020 个字符，预计需要花费 3 分钟才能阅读完成。

提醒：本文最后更新于2021-02-09 08:59，文中所关联的信息可能已发生改变，请知悉！

有时我们需要对网站访客来路进行识别，针对真实用户与搜索引擎作不同动作实现，那么首先就需要判断是否为搜索引擎。php判断方法非常简单，通过过滤$_SERVER['HTTP_USER_AGENT'] 参数即可进行识别，以下是摘录某开源程序的相关源码：

 private function getRobot()
{
    if (empty($_SERVER['HTTP_USER_AGENT']))
    {
        return false;
    }
    
    $searchEngineBot = array(
        'googlebot'=>'google',
        'mediapartners-google'=>'google',
        'baiduspider'=>'baidu',
        'msnbot'=>'msn',
        'yodaobot'=>'yodao',
        'youdaobot'=>'yodao',
        'yahoo! slurp'=>'yahoo',
        'yahoo! slurp china'=>'yahoo',
        'iaskspider'=>'iask',
        'sogou web spider'=>'sogou',
        'sogou push spider'=>'sogou',
        'sosospider'=>'soso',
        'spider'=>'other',
        'crawler'=>'other',
    );
    
    $spider = strtolower($_SERVER['HTTP_USER_AGENT']);
    foreach ($searchEngineBot as $key => $value)
    {  
        if (strpos($spider, $key)!== false)
        {
            return $value;
        }
    }
    
    return false;
}
 
public function isRobot()
{
    if($this->getRobot()!==false)
    {
        return true;
    }
    return false;
}

正文完

php 搜索引擎机器人访客来路

发表至： PHP 学习中心

2012-12-20

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

php浏览器模拟：用于多线程处理的curl_multi一族函数使用介绍

php中文数组排序：非GBK编码的中文数组排序

vc中播放音乐错误：设备的名称已被此应用程序用作别名,请使用唯一的别名

SQL Server 2005在建立与服务器的连接时出错“不允许远程连接可能会导致此失败”解决方法

PHP学习入门第一天

四级名师考前最后预测08.6四级作文题

调研报告的撰写：调研报告与调查报告的区别及其写作技巧、样本及格式要求

2010年考研的建议，激情燃烧岁月的开始

淘掌门淘宝客程序迁移新浪sae平台方法步骤简要

php生成二维码方法及二维码名片的生成格式vcard介绍

评论（一条评论）

免费php空间评论达人 LV.1

2013-02-15 03:18:13 回复

那要不是百度google等著名引擎的蜘蛛怎么判断呢？比如我做的一个bt搜索站 http://bt.pekdo.com 怎么判断类似这样小站的的蜘蛛？
[reply=任侠,2013-02-21 12:57 AM]搜索引擎的蜘蛛一般都会在http头里添加独特的标识，其他类型的蜘蛛可以'spider'=>'other', 'crawler'=>'other', 来进行判断。至于你说的搜索站，不是标准的搜索引擎，在未知其信息的情况下，只能当做普通的来源网站处理[/reply]

中国北京北京市联通

php判断网站访问来路是否为搜索引擎机器人的方法

Iframe 与 SameSite：Iframe 中设置 cookie 失败的原因及解决方案

基于 acme.sh 和 dnspod API 自动生成与续期泛域名SSL证书

基于开源项目在 NAS 上搭建一个私有的每日早报服务，每天一分钟，知晓天下事！

跨域请求异常：The ‘Acess-Control-Allow-Origin’ header contains multiple values ‘, ”. but only one is allowed

IOS：Xcode 15 IOS 17 Simulator 模拟器下载失败的解决办法

免费电影网站的另一种打开方式：批量下载、边看边播不卡顿、支持 Docker 部署、永久免费！

使用 RSS 订阅：个人高效阅读知识补充指南

高性能 Python 包管理器 uv 的安装与使用

Dify 工作流执行自定义代码报错：`Run failed: error: operation not permitted`

Python 环境管理工具 Miniconda 的安装、配置与使用

	private function getRobot()
	{
	if (empty($_SERVER['HTTP_USER_AGENT']))
	{
	return false;
	}

	$searchEngineBot = array(
	'googlebot'=>'google',
	'mediapartners-google'=>'google',
	'baiduspider'=>'baidu',
	'msnbot'=>'msn',
	'yodaobot'=>'yodao',
	'youdaobot'=>'yodao',
	'yahoo! slurp'=>'yahoo',
	'yahoo! slurp china'=>'yahoo',
	'iaskspider'=>'iask',
	'sogou web spider'=>'sogou',
	'sogou push spider'=>'sogou',
	'sosospider'=>'soso',
	'spider'=>'other',
	'crawler'=>'other',
	);

	$spider = strtolower($_SERVER['HTTP_USER_AGENT']);
	foreach ($searchEngineBot as $key => $value)
	{
	if (strpos($spider, $key)!== false)
	{
	return $value;
	}
	}

	return false;
	}

	public function isRobot()
	{
	if($this->getRobot()!==false)
	{
	return true;
	}
	return false;
	}