Encode::TW - 台湾地区中文编码
use Encode qw/encode decode/;
$big5 = encode("big5", $utf8); # loads Encode::TW implicitly
$utf8 = decode("big5", $big5); # ditto
该模块实现了台湾和香港使用的传统中文字符集编码。支持的编码如下。
Canonical Alias Description
--------------------------------------------------------------------
big5-eten /\bbig-?5$/i Big5 encoding (with ETen extensions)
/\bbig5-?et(en)?$/i
/\btca-?big5$/i
big5-hkscs /\bbig5-?hk(scs)?$/i
/\bhk(scs)?-?big5$/i
Big5 + Cantonese characters in Hong Kong
MacChineseTrad Big5 + Apple Vendor Mappings
cp950 Code Page 950
= Big5 + Microsoft vendor mappings
--------------------------------------------------------------------
要详细了解如何在代码中使用该模块,请参见 Encode。
出于大小方面的考虑,EUC-TW
(扩展 Unix 字符集)、CCCII
(中文信息交换码)、BIG5PLUS
(CMEX 的 Big5+) 和 BIG5EXT
(CMEX 的 Big5e) 在 CPAN 上以 Encode::HanExtra 的名称单独发布。该模块还包含额外的中国地区编码。
由于原始的 big5
编码 (1984) 在任何地方都不受支持(glibc 和基于 DOS 的系统使用 big5
代表 big5-eten
;微软使用 big5
代表 cp950
),因此我们有意将 big5
设为 big5-eten
的别名,后者是原始 big5 的事实上的超集。
CNS11643
编码文件不完整。对于常见的 CNS11643
操作,请在 Encode::HanExtra 中使用 EUC-TW
,它包含平面 1-7。
ASCII 区域 (0x00-0x7f) 在所有编码中都保留,即使这与 Unicode 联盟的映射冲突。