非正则的PHP中文英文特殊字符符号过滤方法

任侠
电脑基础
2012-09-04
11958热度
2评论

目录

对于中英文特殊符号的匹配过滤，在少量的文本查找时，使用正则表达式方法简单方便，但是面对大文本的处理则性能瓶颈将导致其无法实用。此时使用逐字符替换方法则是速度性能最快的。

下面为PHP实现的中英文字符过滤方法，仅供参考。

1. PHP实现中文特殊字符转换与英文字符过滤

XML/HTML代码

/*
中英文特殊字符转换与过滤
*/
function clear_punctuation($str)
{
$arr = array(
'０' => '0', '１' => '1', '２' => '2', '３' => '3', '４' => '4',
'５' => '5', '６' => '6', '７' => '7', '８' => '8', '９' => '9',
'Ａ' => 'A', 'Ｂ' => 'B', 'Ｃ' => 'C', 'Ｄ' => 'D', 'Ｅ' => 'E',
'Ｆ' => 'F', 'Ｇ' => 'G', 'Ｈ' => 'H', 'Ｉ' => 'I', 'Ｊ' => 'J',
'Ｋ' => 'K', 'Ｌ' => 'L', 'Ｍ' => 'M', 'Ｎ' => 'N', 'Ｏ' => 'O',
'Ｐ' => 'P', 'Ｑ' => 'Q', 'Ｒ' => 'R', 'Ｓ' => 'S', 'Ｔ' => 'T',
'Ｕ' => 'U', 'Ｖ' => 'V', 'Ｗ' => 'W', 'Ｘ' => 'X', 'Ｙ' => 'Y',
'Ｚ' => 'Z', 'ａ' => 'a', 'ｂ' => 'b', 'ｃ' => 'c', 'ｄ' => 'd',
'ｅ' => 'e', 'ｆ' => 'f', 'ｇ' => 'g', 'ｈ' => 'h', 'ｉ' => 'i',
'ｊ' => 'j', 'ｋ' => 'k', 'ｌ' => 'l', 'ｍ' => 'm', 'ｎ' => 'n',
'ｏ' => 'o', 'ｐ' => 'p', 'ｑ' => 'q', 'ｒ' => 'r', 'ｓ' => 's',
'ｔ' => 't', 'ｕ' => 'u', 'ｖ' => 'v', 'ｗ' => 'w', 'ｘ' => 'x',
'ｙ' => 'y', 'ｚ' => 'z',
'（' => '', '）' => '', '〔' => '', '〕' => '', '【' => '',
'】' => '', '〖' => '', '〗' => '', '“' => '', '”' => '',
'‘' => '', '’' => '', '｛' => '', '｝' => '', '《' => '',
'》' => '',
'％' => '', '＋' => '', '—' => '', '－' => '', '～' => '',
'：' => '', '。' => '', '、' => '', '，' => '', '、' => '',
'；' => '', '？' => '', '！' => '', '…' => '', '‖' => '',
'”' => '', '’' => '', '‘' => '', '｜' => '', '〃' => '',
'　' => '', '＄'=>'', '＠'=>'', '＃'=>'', '＾'=>'', '＆'=>'', '＊'=>'',
'(' => '', ')' => '', '[' => '', ']' => '', '`' => '', '{' => '', '~' => '',
'}' => '', '<' => '', '>' => '', '%' => '', '+' => '', '-' => '', ':' => '',
'.' => '', ';' => '', '?' => '', '!' => '', '|' => '', '$' => '', '@' => '',
'#' => '', '^' => '', '&' => '', '*' => '', '\' => '','"' => '', ''' => '',
'=' => '', '/' => '', ' ' => ''
);
return strtr($str, $arr);
}

2. PHP中文双字节字符转换为英文字符

XML/HTML代码

/*
中文字符转换为英文字符
*/
function make_semiangle($str)
{
$arr = array('０' => '0', '１' => '1', '２' => '2', '３' => '3', '４' => '4',
'５' => '5', '６' => '6', '７' => '7', '８' => '8', '９' => '9',
'Ａ' => 'A', 'Ｂ' => 'B', 'Ｃ' => 'C', 'Ｄ' => 'D', 'Ｅ' => 'E',
'Ｆ' => 'F', 'Ｇ' => 'G', 'Ｈ' => 'H', 'Ｉ' => 'I', 'Ｊ' => 'J',
'Ｋ' => 'K', 'Ｌ' => 'L', 'Ｍ' => 'M', 'Ｎ' => 'N', 'Ｏ' => 'O',
'Ｐ' => 'P', 'Ｑ' => 'Q', 'Ｒ' => 'R', 'Ｓ' => 'S', 'Ｔ' => 'T',
'Ｕ' => 'U', 'Ｖ' => 'V', 'Ｗ' => 'W', 'Ｘ' => 'X', 'Ｙ' => 'Y',
'Ｚ' => 'Z', 'ａ' => 'a', 'ｂ' => 'b', 'ｃ' => 'c', 'ｄ' => 'd',
'ｅ' => 'e', 'ｆ' => 'f', 'ｇ' => 'g', 'ｈ' => 'h', 'ｉ' => 'i',
'ｊ' => 'j', 'ｋ' => 'k', 'ｌ' => 'l', 'ｍ' => 'm', 'ｎ' => 'n',
'ｏ' => 'o', 'ｐ' => 'p', 'ｑ' => 'q', 'ｒ' => 'r', 'ｓ' => 's',
'ｔ' => 't', 'ｕ' => 'u', 'ｖ' => 'v', 'ｗ' => 'w', 'ｘ' => 'x',
'ｙ' => 'y', 'ｚ' => 'z',
'（' => '(', '）' => ')', '〔' => '[', '〕' => ']', '【' => '[',
'】' => ']', '〖' => '[', '〗' => ']', '“' => '[', '”' => ']',
'‘' => '[', '’' => ']', '｛' => '{', '｝' => '}', '《' => '<',
'》' => '>',
'％' => '%', '＋' => '+', '—' => '-', '－' => '-', '～' => '-',
'：' => ':', '。' => '.', '、' => '\', '，' => '.', '、' => '.',
'；' => ';', '？' => '?', '！' => '!', '…' => '-', '‖' => '|',
'”' => '"', '’' => '`', '‘' => '`', '｜' => '|', '〃' => '"',
'　' => ' ', '＄'=>'$', '＠'=>'@', '＃'=>'#', '＾'=>'^', '＆'=>'&', '＊'=>'*');
//foreach($arr as $k=>$v)
//echo $v;
return strtr($str, $arr);
}

3. PHP正则表达式过滤英文标点符号

XML/HTML代码

$pattern = "/[ '.,:;*?~`!@#$%^&+=-)(<>{}]|]|[|/|\|"||/";
$content = preg_replace($pattern, '', $content); //英文符号过滤

LanYu说道：

2025年03月16日 2:32 上午

Google Chrome 134.0.0.0 Windows 10 x64 Edition
我发现这个鼠标很无聊哎（我不同意此审美），取消掉吧

回复
中国奶茶网说道：

2012年10月11日 5:19 下午

字符过滤起来很有意思的。。。很考验脑力。

回复

Theme By Document. 豫ICP备11007008号-3