php函数substr、mb_substr、mb_strcut截取中文比较

  •   
  • 4911
  • PHP
  • 7
  • super_dodo
  • 2014/11/28

php函数substr、mb_substr、mb_strcut截取中文比较

一、函数说明

1
2
3
4
substr、mb_substr、mb_strcut这三个函数都用来截取字符串,所不同的是:
substr是最简单的截取,无法适应中文;
mb_substr是按字来切分字符串
mb_strcut是按字节来切分字符串,截取中文都不会产生半个字符的现象。

这三个函数的前三个参数完全一致,即:
第一个参数是操作对象
第二个参数是截取的起始位置
第三个参数是截取的数量
mb_substr和mb_strcut还有第四个参数:第四个参数可以根据不同的字符集进行设置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
//对待一个UTF8的中文字符是3个长度   
//对待一个gbk的中文字符是2个长度   
header("content-Type:text/html;charset=utf-8");   
     
//设置内部编码   
mb_internal_encoding('UTF-8');   
     
//测试    
$cn_str="钓鱼岛是中国的hehe";   
$en_str="this is just a test";   
     
     
//使用substr   
echo substr($cn_str,0,3).'<br/>'; //钓   
echo substr($en_str,0,3).'<br/><br/>';   //thi   
     
     
//使用mbsubstr()   
echo "mb_substr-3:".mb_substr($cn_str,0,3).'<br/>';   //钓鱼岛    按照字来划分    
echo "substr-3:".substr($cn_str,0,3).'<br/>';//钓   按照字节来划分     
echo "mb_strcut-3:".mb_strcut($cn_str,0,3).'<br/><br/>'; //钓   按照字节来划分   
   
   
echo "mb_substr-4:".mb_substr($cn_str,0,4).'<br/>';   //钓鱼岛    按照字来划分 
echo "substr-4:".substr($cn_str,0,4).'<br/>'; //钓   按照字节来划分(出现乱码)     
echo "mb_strcut-4:".mb_strcut($cn_str,0,4).'<br/><br/>'; //钓   按照字节来划分(不会出现乱码)   
   
   
echo strlen($cn_str).'<br/>';   //26   
echo mb_strlen($cn_str).'<br/>'//12   
echo iconv_strlen($cn_str).'<br/>';//26   
  

三、结论
substr、mb_strcut表现都不够理想,mb_substr可以正常使用,但前提是要安装php扩展库,否则就要自己写一个适应各种情况的截取函数了。

PHP substr()函数可以分割文字,但要分割的文字如果包括中文字符往往会遇到问题,这时可以用mb_substr()/mb_strcut这个函数,mb_substr() /mb_strcut的用法与substr()相似,只是在mb_substr()/mb_strcut最后要加入多一个参数,以设定字符串的编码,需要在php.ini中把php_mbstring.dll打开。

1
2
3
4
5
6
7
8
echo mb_substr('我们都是好孩子hehe',0,9);
//输出:我们都
//以三个字节为一个中文,这就是utf-8编码的特点
 
现在我们加上字符集utf-8
echo mb_substr('我们都是好孩子hehe',0,9,'utf-8');
//输出:我们都是好孩子he
//加上utf-8字符集说明,所以,是以一个字为单位来截取的

下面是ecshop里面的截取UTF-8编码下字符串的函数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
function sub_str($str, $length = 0, $append = true){
    $str = trim($str);
    $strlength = strlen($str);
  
    if($length == 0 || $length >= $strlength){
        return $str//截取长度等于0或大于等于本字符串的长度,返回字符串本身
    }elseif($length < 0){  //如果截取长度为负数
        $length = $strlength + $length;//那么截取长度就等于字符串长度减去截取长度
        if($length < 0){
            $length = $strlength;//如果截取长度的绝对值大于字符串本身长度,则截取长度取字符串本身的长度
        }
    }
  
    if(function_exists('mb_substr')){
        $newstr = mb_substr($str, 0, $length, EC_CHARSET);
    }elseif(function_exists('iconv_substr')){
        $newstr = iconv_substr($str, 0, $length, EC_CHARSET);
    }else{
        //$newstr = trim_right(substr($str, 0, $length));
        $newstr = substr($str, 0, $length);
    }
  
    if($append && $str != $newstr){
        $newstr .= '...';
    }
    return $newstr;
 }
 
&#91;/php&#93;
 
 
dodo自己用的相对完美的,截取后加...
&#91;php&#93;
//截取字符串的长度 如果长度大于给定的值则增加...
public function _mb_substr($str, $len=10){
    $str_len = mb_strlen($str, 'UTF-8'); //此处传入编码,建议使用utf-8
    $str = preg_replace("#<.+?>#is","",$str);     //去除HTML标签
    if($str_len > $len){
        $new_str = mb_substr($str, '0', $len,'utf-8') . '...';
    }else{
        $new_str = $str;
    }
    return $new_str;
}

四十年后的一天,孙子问我:“奶奶,为什么你的大拇指老是在抖?”我用颤抖的右手抚摸着孙子的头:“因为奶奶年轻的时候流行一种朋友圈和空间的东西,里面有个活动叫点赞。”