在任意字符集下正常显示网页的方法二(续)
2015-01-24信息快讯网
前几天写了一篇在任意字符集下正常显示网页的方法,里面介绍的很简单,就是把前128个字符以外的字符集都用 NCR 来表示,但是具体怎么转化我没有介绍,因为当时我觉得太简单了。但是后来发现有人问这个问题,这里就详细说明一下。
首先第一步是要把源字符集的字符串转化为 UTF-16 字符集,做这一步是因为 UTF-16 字符集中的每个字符都是两个字节,后面处理起来很容易,而如果在源字符集上直接做处理则很复杂。源字符集可以从原网页中的 meta 标签中获得,也可以单独指定,我的程序是让用户在表单中指定源字符集,因为我不能保证用户提交的文件就一定是 HTML 文件(其他文件也是可以的,比如这个 WordPress 的汉化包源文件是个 po 文件,它里面的内容也可以这样处理),而且即使是 HTML 文件,里面也不一定就有用于指定字符集的 meta 标签,所以通过表单单独指定字符集比较保险。你可能会觉得将一种字符集转化为另一种字符集很复杂,确实如此,如果自己来实现的话,确实非常麻烦,但是用 PHP 来做却很容易,因为它里面已经包含这样的函数了,你可以通过 iconv 函数很容易的来实现各种字符集之间的转化,如果你的机器上没有安装 iconv 扩展,你也可以使用 mb_convert_encoding 函数,如果 Multibyte String 扩展也没有安装,那就没办法了,因为你要自己实现那么多种编码的转化基本上是不可能的,除非你是顶级大牛!推荐使用 iconv,因为这个效率高,支持的字符集也更多。
做完上面那一步之后,接下来是以每两个字节为单位对字符串进行处理。这两个字节直接转化为数字就是 xxxx; 中的 xxxxx,如果这个数字小于 128 就直接使用这个字符(注意这里就变成单字节了),否则就使用 xxxx; 的形式。这里有一点要注意,就是当这个数字是 65279(16 进制的 0xFEFF)时,请把它忽略掉,因为这个是 Unicode 编码中的传输控制字符,而我们现在的字符串已经只有 iso-8859-1 编码中的前 128 个字符了,所以我们不需要它了。
好了,基本思路就是这样,下面是实现的程序:
下载: nochaoscode.php
<?php function nochaoscode($encode, $str) { $str = iconv($encode, "UTF-16BE", $str); for ($i = 0; $i < strlen($str); $i++,$i++) { $code = ord($str{$i}) * 256 + ord($str{$i + 1}); if ($code < 128) { $output .= chr($code); } else if ($code != 65279) { $output .= "".$code.";"; } } return $output; } ?>
函数的参数中,$encode 是源字符集,$str 是需要进行转化的字符串。返回结果是转化以后字符串。
补充:今天 Legend 告诉我一种更简单的方法,就是直接利用 mb_convert_encoding 函数。因为 mb_convert_encoding 支持一种叫做 HTML-ENTITIES 的编码格式,也就是 NCR 编码。用它就更简单了。
PHP 设置MySQL连接字符集的方法
DW中链接mysql数据库时,建立字符集中文出现乱码的解决方法
php实现网站插件机制的方法
网页游戏开发入门教程三(简单程序应用)
网页游戏开发入门教程二(游戏模式+系统)
PHP 批量删除数据的方法分析
php pack与unpack 摸板字符字符含义
php 网页游戏开发入门教程一(webgame+design)
PHP字符串 ==比较运算符的副作用
Ha0k 0.3 PHP 网页木马修改版
全世界最小的php网页木马一枚 附PHP木马的防范方法
PHP 字符串分割和比较
php面向对象全攻略 (八)重载新的方法
PHP 字符截取 解决中文的截取问题,不用mb系列
php 不同编码下的字符串长度区分
PHP 上传文件的方法(类)
PHP 变量定义和变量替换的方法
经典的PHPer为什么被认为是草根?
在任意字符集下正常显示网页的方法一
php中支持多种编码的中文字符串截取函数!
php中判断一个字符串包含另一个字符串的方法
php之字符串变相相减的代码
php下使用无限生命期Session的方法
PHP实现多服务器session共享之NFS共享的方法
用PHP实现多服务器共享SESSION数据的方法
php网页后退不再出现过期
个人站长制做网页常用的php代码
php中的一个中文字符串截取函数
用PHP动态生成虚拟现实VRML网页
将RTF格式的文件转成HTML并在网页中显示的代码