深入图解字符集与字符集编码（九）

flysnowxg 2014-12-06

展开全文

前面的一些篇章更多谈论了Unicode的相关话题，虽然也有提到GBK等编码，但都没细说，这里打算系统说一下。GB系列包括GB2312，GBK，GB18030.

前面已经提过，GB=Guo Biao=国标=国家标准，至于所谓的2312就是一编号了，没有其它特别的意义，18030类似。GBK没有编号，所以它实际上并不是国家标准，只是一个事实标准，GBK中K指“扩展”的意思。

最早的是GB2312，我们从它开始说起。

GB2312

以下为一简介（官方文档见：http://gbread.sac.gov.cn/bzzyReadWebApp/standardresources.action?m=readFile&bzNum=GB%202312-1980&flag=1，用IE打开，它要安装一个ActiveX我插呀件~）：

GB 2312-1980，全称《信息交换用汉字编码字符集基本集》，由国家标准总局于1980年3月9号发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范，也包括其他的符号、字母、日文假名等，共7445个图形字符，其中汉字占6763个。

上述官网地址无法下载，如果你想下载，可试下这个ftp://ftp.oreilly.com/examples/cjkvinfo/AppE/gb2312.pdf（比标准方案多增加了一些字符）

作为一个编码字符集而言，前面也曾说到，它采用了所谓的二维区位编号，下面是一个概览图：

它是一个94*94的表格，理论上有94*94=8836个空间。

横的叫区，竖的叫位，总共94个区，区和位的编号都从1开始。可以看到粗略有三大部分。

94个区

1. 中间黑色的主体部分即是汉字区了，具体为16-87区，共87-16+1=72个区，理论空间为72*94=6768.

从上图中可以看到中间有5个编码为空白（中间靠右边部分，D7FA-D7FE），所以总共有6768-5=6763个汉字。

一级汉字与二级汉字：

第16－55区：一级汉字，3755个（以拼音字母排序）
第56－87区：二级汉字，3008个（以部首笔画排序）

2. 最下面的88-94区是有待进一步标准化的空白区。

3. 关于前面的01-15区，下图为概览图左上角的局部放大图：

1. 01-09区为符号、字母、日文假名等，部分区还有空白位。

03区即是对应ASCII字符的全角字符区。输入法的全角模式下输入的即是这些字符。

2. 10-15区也是有待进一步标准化的空白区。

各区的一个具体情况：

第01区：中文标点、数学符号以及一些特殊字符
第02区：序号
第03区：全角西文字符
第04区：日文平假名
第05区：日文片假名
第06区：希腊字母表
第07区：俄文字母表
第08区：中文拼音字母表
第09区：制表符号
第10－15区：未定义
第16－55区：一级汉字（以拼音字母排序）
第56－87区：二级汉字（以部首笔画排序）
第88－94区：未定义

区位码

在上图中还标出了一个汉字“啊”，它就是GB2312方案中的天字第一号汉字，它处于16区01位上，所以它的区位码即是1601.

所谓区位码就是这一94*94的大表格中的行号与列号了，均从1开始编号。

第一个字符0101为“全角空格”（图中显示为SP（space））。

国标码

将区位码的区和位分别加上32（=0x20）就得到了国标码。

“啊”的区位码是16-01，分别加32，得到16+32-01+32=48-33，即是国标码。当然，你通常应该写成16进制，48-33即是0x30-0x21，所以3021即是“啊”十六进制的国标码，使用两字节保存，30为高字节，21为低字节。如下：

GB2312方案规定，对上述表中任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示。

如上图所示，只用了7位，这即是说最高位就是0了。

但为何不直接采用区位码呢？为什么要加32呢？你也许还记得前面说到ASCII时，前面32个字符是控制码，中文系统自然也不能少了这些控制码，为了不与这些控制码冲突，加上32就能跳过它们了。

一字节有128个空间，128-32=96，实际上，ASCII中第127个也是控制码（DEL，删除），再减去就还有95个有效位，再加上区位从1开始，又损失了一位，所以最终只有94个有效位了，这也是前面为何是一个94*94的表格。

国标码的定位实际应该是与ASCII一致的，是作为国家信息交换的标准码。从设计上看，它并没打算兼容ASCII，它已经把ASCII中的字符收录了过来，不过是作为所谓的全角字符来看待，但全角英文显示效果其实是很差的，下面是全角英文的一个示例：

ｈｅｌｌｏ，ｗｏｒｌｄ

显得非常不紧凑，最终，一种能兼容ASCII的存储方案得到了广泛采纳，这就是所谓的机内码了。

机内码

将国标码高低字节分别加上0x80（=128）就得到了机内码（有时又叫交换码）。128的二进制形式为10000000，加128，简单地讲，就是把国标码最高位置成1.至于为什么要这样呢？我想你应该也清楚了，就是要兼容ASCII，ASCII最高位为0，国标码加128后，高低字节的最高位都成了1，这样就与ASCII区分开来。

将“啊”的国标码3021分别加上0x80，0x30+0x80=0xB0，0x21+0x80=0xA1，所以B0A1即是机内码。

如果从区位码算起，那么则是加上0x20+0x80=32+128=160=0xA0，也即区位码的区和位分别直接加上0xA0即可得到机内码，如下图所示：

如果你新建一个文本文件，录入“啊”字，以GB2312编码方式保存（使用GBK即可，它兼容GB2312），再用十六进制查看，你会发现使用的是机内码：

使用代码的测试也可验证这一点：

1	`@Test` `public` `void` `testAh()` `throws` `UnsupportedEncodingException { String ah =` `"啊"; assertThat(DatatypeConverter.printHexBinary(ah.getBytes("GB2312"))).isEqualTo("B0A1"); }`

虽然我们常把GB2312称为国标码，但我们应该清楚，实际存储使用的是机内码，通常说到GB2312编码时指的就是这个机内码了。它能兼容ASCII，是一种变长的编码方案，对ASCII中的字符（也即所谓的“半角西文字符”）采用一字节编码，最高位为0；对区位表中的字符采用两字节编码，且每字节最高位均为1，以此区分。

自然，全角英文字符就是两字节编码了，跟汉字是一样的。

下面是一个混合了汉字，半角字母a和全角字母ａ的编码示例，共5个字节：

我们说GB2312是一个变长编码方案，是站在其兼容ASCII编码角度而言，就其方案标准本身定义的字符而言，它是一个双字节定长编码方案。

你可能会想，那国标码还有什么用？

我个人觉得，国标码既然称为中文信息交换的标准码，必然要成为“机内”码才有意义，只不过由于各种原因，最终未能如愿。早期的一些系统或者一些小型的嵌入式系统或许采纳了它做为“机内”码。当然以上为个人猜测，仅供参考。

另：我在前面的一些文章中谈到区位码时把它与机内码混为一谈，特此更正。

下面是三种码在256*256坐标中的位置的一个示意图：

GBK

GBK是对GB2312的一个扩展，兼容GB2312，因此也兼容ASCII，也是一个变长编码方案。下面是一个简介：

GBK总体编码范围为8140-FEFE，首字节在81-FE 之间，尾字节在40-FE 之间，总计23940 个码位，共收入21886个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号883 个。

GBK是国家有关部门与一些信息行业企业等一起合作推出的方案，但并未作为国家标准发布，只是一个事实上的标准，一个过渡方案，为GB18030标准作的一个准备。

首字节（lead byte）

下面是Windows Code page: 936 (GBK)，第一字节的概况（来自http://msdn.microsoft.com/en-US/goglobal/cc305153.aspx）

Code page 936实质上是GBK到UTF-16编码的一个转换表，图中字符下面标注的四位16进制数字即是UTF-16编码

1. 上面部分是兼容ASCII单字节编码。

2. 下面阴影部分是双字节编码中的第一个字节，表中作为超链接，可以点击进去查看具体内容。

注：0x80(=128)被用于欧元符。（图中小圆框部分）0xFF则保留，实际共有128-2=126块。

另：新的GB18030标准使用双字节编码欧元符号，去掉了这个单字节编码。

第二字节

前面说到“啊”的机内码是B0A1，我们点击B0（上图中红色小框部分）去查看一下（来自http://msdn.microsoft.com/en-US/goglobal/gg675356）：

1. “啊”位于A1处，所以它是兼容GB2312的。而前面的那些字符就是GBK扩展的了。

“啊”下面的554A即是它的UTF-16编码。GBK与UTF-16之间编码的转换只能通过查表实现。

2. 第二字节从0x40开始，不是从0x00也不是从0x80开始。表格只有12行。

因为不是从0x80开始，这意味着第二字节最高位也可能是0.这点与GB2312不同，GB2312确保了无论是高低字节最高位均是1。

3. 另外0x7F和0xFF两处保留未定义。

所以实际有12*16-2=192-2=190个字符。注：并非所有的块里面都是190个字符，也有不少是少于190的。

粗略估算可得126*190=23940，所以GBK也就是两万多个字符这样子。

GBK还是UTF-8？

GBK使用两字节保存中文，也能兼容ASCII，而对常用汉字，UTF-8都是采用三字节编码，因此无论是全中文还是中英文混合的情况，GBK保存的效率都要好于UTF-8.

这也不奇怪，毕竟是亲生的。

但它也有些不好的地方，比如它不能支持一些国际性的文字，在国际化，通用性方面它肯定不如UTF-8；就汉字而言，由于容量空间的限制，它也无法收录更多的汉字了。

所以，怎么选择，自己看着办。

GB18030

GB18030前后发布了两个标准，最新的是2005年发布的GB 18030-2005（《信息技术中文编码字符集》），2000年还有一版GB18030-2000，更多了解可参考百度百科http://baike.baidu.com/view/889058.htm，官网见http://gbread.sac.gov.cn/bzzyReadWebApp/standardresources.action?m=readFile&bzNum=GB 18030-2005&flag=1，（注：这个文件比较大）

对于多数用户而言，无需了解太多，这里也不打算详细介绍，下面是一些简介（针对最新的GB18030-2005）：