php截取字符串之截取utf8或gbk编码的中英文字符串示例

2015-01-24信息快讯网

php中自带strlen是返回的字节数,对于utf8编码的中文返回时3个,不满足需求,下面给大家提供一个方法来完成这样的功能

微博的发言有字数限制,其计数方式是,中文算2个,英文算1个,全角字符算2个,半角字符算1个。
php中自带strlen是返回的字节数,对于utf8编码的中文返回时3个,不满足需求。
mb_strlen 可以根据字符集计算长度,比如utf8的中文计数为1,但这不符合微博字数限制需求,中文必须计算为2才可以。
google了下,找到一个discuz中截取各种编码字符的类,改造了下,已经测试通过.其中参数$charset 只支持gbk与utf-8。

$a = "s@@你好";
var_dump(strlen_weibo($a,'utf-8'));

结果输出为8,其中字母s计数为1,全角@计数为2,半角@计数为1,两个中文计数为4。源码如下:

function strlen_weibo($string, $charset='utf-8')
{
    $n = $count = 0;
    $length = strlen($string);
    if (strtolower($charset) == 'utf-8')
    {
        while ($n < $length)
        {
            $currentByte = ord($string[$n]);
            if ($currentByte == 9 ||
                $currentByte == 10 ||
                (32 <= $currentByte && $currentByte <= 126))
            {
                $n++;
                $count++;
            } elseif (194 <= $currentByte && $currentByte <= 223)
            {
                $n += 2;
                $count += 2;
            } elseif (224 <= $currentByte && $currentByte <= 239)
            {
                $n += 3;
                $count += 2;
            } elseif (240 <= $currentByte && $currentByte <= 247)
            {
                $n += 4;
                $count += 2;
            } elseif (248 <= $currentByte && $currentByte <= 251)
            {
                $n += 5;
                $count += 2;
            } elseif ($currentByte == 252 || $currentByte == 253)
            {
                $n += 6;
                $count += 2;
            } else
            {
                $n++;
                $count++;
            }
            if ($count >= $length)
            {
                break;
            }
        }
        return $count;
    } else
    {
        for ($i = 0; $i < $length; $i++)
        {
            if (ord($string[$i]) > 127)
            {
                $i++;
                $count++;
            }
            $count++;
        }
        return $count;
    }
}

访问编码后的中文URL返回404错误的解决方法
PHP获取一个字符串中间一部分字符的方法
php中隐形字符65279(utf-8的BOM头)问题
PHP解码unicode编码的中文字符代码分享
php mb_substr()函数截取中文字符串应用示例
两种设置php载入页面时编码的方法
PHP自带函数给数字或字符串自动补齐位数
完美的2个php检测字符串是否是utf-8编码函数分享
PHP中遇到BOM、<feff>编码导致json_decode函数无法解析问题
支持生僻字且自动识别utf-8编码的php汉字转拼音类
php smarty truncate UTF8乱码问题解决办法
php自动识别文件编码并转换为UTF-8的方法
php 判断网页是否是utf8编码的方法
php使用websocket示例详解
php实现快速排序的三种方法分享
php数组编码转换示例详解
php中3种方法删除字符串中间的空格
php实现文件编码批量转换
关于js和php对url编码的处理方法
设置php页面编码的两种方法示例介绍
php通过字符串调用函数示例
PHP 字符串长度判断效率更高的方法
php判断字符串在另一个字符串位置的方法
PHP字符串中特殊符号的过滤方法介绍
基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)
php中文乱码怎么办如何让浏览器自动识别utf-8
PHP 正则判断中文UTF-8或GBK的思路及具体实现
php解析xml提示Invalid byte 1 of 1-byte UTF-8 sequence错误的处理方法
php字符编码转换之gb2312转为utf8
PHP截断标题且兼容utf8和gb2312编码
JoshChen_web格式编码UTF8-无BOM的小细节分析
如何使用PHP批量去除文件UTF8 BOM信息
©2014-2024 dbsqp.com