点阵字体显示系列之二：汉字显示 | 迟思堂工作室

求知881 2015-10-16

展开全文

免责声明：

本文是作者在研究过程中的一篇文章，本着互联网共享、自由(free，应该不是“免费”)之精神发布于此。作者才疏学浅，孤陋寡闻，能力有限，对文中出现的术语及概念的描述多有不当之处，由于本文并非学术报告及论文，不对这些概念性东西进行深入调研，如需权威性解释，请自行查阅相关文献。文中错误的地方，欢迎在文后留言，趁作者还有激情研究之时，大家一直探讨，共同学习，天天向上。

计算机中存在许多种格式的编码，比如ASCII、GB2312、GBK、UTF-8，等等。汉字以“内码”的形式存储于计算机中。对于汉字的处理，有三种不同情况，一为汉字的输入，比如常用的拼音输入、五笔输入；二为汉字的存储，即以某一编码存储于计算机中，比如GB2312、utf-8；三为汉字的显示，比如网页(及其它如MS Word等软件)中显示的各种字体，如宋体、黑体。

如无特别说明，本文所说的字库，指“点阵字库”，大小为16*16，共占32字节空间，编码格式为GB2312。汉字库所用的文件为“HZK16”，该文件可以从网络下载。下方出现“汉字”的地方，可以理解为“中文字符”，即GB2312中的所有出现的字符。本文重点讲述汉字在终端中的显示(这是废话，题目都说了是“汉字显示”了)，并附带讲述一下中英文混合显示，英文的显示不在此文讲述，如感兴趣，可以查看这篇文章：点阵字体显示系列之一：ASCII码字库的显示。网上关于汉字字库显示的文章可用“泛滥”一词形容，因此，也不多这一篇文章了。

“点阵字库”，应该是与“矢量字库”相对应，搞过单片机的可能会对点阵屏比较熟悉。当年，为了在点阵屏上显示个汉字，搞了很久，从买点阵屏，到画板，到写程序，到调试，苦功下了不少(电子店里每种点阵屏封装不同，需要自己测试，还需要自己画电路板)，结果还是不如人意，此后对点阵屏心有余悸——正如数据结构一样。不过在触摸屏上显示汉字，硬件方面的东西不用管，省了不少费事——这是后话，暂且按下不提(何况在编写此文时还未动手实践呢)。

关于GB2312不详细描述了，网上资料很多。GB2312将所收录的字符分为94 个区，编号为01区至94区；每个区收录94 个字符(但不一定就是94个)，编号01位至94 位。GB2312 的每一个字符都由与其唯一对应的区号和位号所确定。一个汉字(或GB2312中的字符)占用两个字节，由前一字节可得到“区号”(或者说前一字节为“区号”，取决于这两个字节是什么)，由后一字节可得到“位号”(或者说后一字节为“位号”)。例如，GB2312中第一个汉字“啊”，编号为16 区01 位(1601)，内码为0xB0A1。

GB2312 字符集的区位分布表：

区号字数字符类别

01 94 一般符号

02 72 顺序号码

03 94 拉丁字母

04 83 日文假名

05 86 Katakana

06 48 希腊字母

07 66 俄文字母

08 63 汉语拼音符号

09 76 图形符号

10-15 备用区

16-55 3755 一级汉字，以拼音为序

56-87 3008 二级汉字，以笔划为序

88-94 备用区

完整的GB2312简体中文编码表可以在这个地址查看：http://www./yetanothertest/GB2312-80.html。里面出现的十六进制是内码，并非区位号。

关于内码、国标码、区位码

区位码是GB2312已经分好了的，区位码分别加上0x20就是对应的国标码，国标码再加上0x80就是对应内码。而内码就是在GB2312简体中文编码表看到的十六进制数据。区位号用十进制表示，而内码用十六进制表示，这些东西应试即可，写代码的了解一下就行了。

显示一个汉字就是搜索字库文件HZK16，找到这个汉字，而后读取这个位置的32个字节，再显示出来。

1、打开字库文件

字库文件为HZK16，当然使用fopen函数了。

2、搜索汉字(寻址)

了解了汉字区位码、内码的一些概念后，就可以知道如何找到这个汉字了。在我们输入汉字中，汉字已经在计算机中以某种编码形式存在了，以GB2312为例，如下面语句：

unsigned char incode[] = “啊”;

那么，incode将占用3个字节，前面说了，一个汉字占2个字节，最后一个字节是“”。如果分别打印incode[0]和incode[1]的话，将得到0xb0，0xa1这两个数。它便是“啊”的内码。当然，这是GB2312编码，如果是UTF-8，又不一样了。不信的话，可以使用百度和google分别搜索“啊”，查看浏览器地址栏出现的十六进制数(使用百度搜索“啊”，地址栏有“wd=%B0%A1”字样，其中的B0、A0便是GB2312编码中“啊”的内码)。

题外话：经常在VC6.0下写代码的可能会经常碰到“烫烫烫烫烫烫烫烫”这个东西。有资料显示，VC6.0下，未手动初始化的内存(数组)，编译器会自动初始化为0xcc的，而两个0xcc就是中文“烫”的内码。

那么如何得到区号和位号？前面说了，区位号加上0x20是国标码，国标码加上0x80就是内码，则区位号等于内码减去0xa0。如下：

qh = incode[0] – 0xa0;

wh = incode[1] – 0xa0;

得到了区号和位号，还不行，还要知道如何在HZK16这个文件中找到“啊”这个汉字的偏移量。计算公式如下：

offset = ( 94*(qh-1) + (wh-1) ) * 32;

得到的偏移量便是HZK16文件中“啊”的偏移量。经过计算，知道offset为0xb040，用hexdump看一下这个地址的32个字节数据：

$ hexdump -C HZK/HZK16 | grep b0400000b040 00 04 2f 7e f9 04 a9 04 aa 14 aa 7c ac 54 aa 54 |../~…….|.T.T|

这种数据不直观，将这些数据以二进制形式写出来，16个二进制一行，将得到如下数据：

00000000000000100 // 0x00 0x0400101111001111110

11111001000000100

10101001000000100

10101010000010100

10101010001111100

10101100001010100

10101010001010100

10101001001010100

11101001001110100

10101101001010100

00001010000000100

00001000000000100

00001000000010100

00001000000001100

如果将其中的“0”用空格替换，则效果如下(因网页问题有所调整(就是将原来的1个空格替换成2个空格)，字符外观一致，但与实际数据不一致。最好在记事本或notepad++中显示)：

11 1111 111111

11111 1 1

1 1 1 1 1

1 1 1 1 1 1

1 1 1 1 11111

1 1 11 1 1 1

1 1 1 1 1 1 1

111 1 1 111 1

1 1 11 1 1 1 1

1 1 1

1 1

1 1 1

1 11

这个便是传说的“啊”字了。

总结一下，汉字在计算机中是内码，内码-0xa0a0等于区位号(用十进制表示，就是第xx区yy位)，内码-0x8080就是国标码(十六进制)，而(区码-1)*94 + (位码-1)就是“字库码”——即这个汉字在字库文件中的偏移量。找到了这个偏移量，就可读取数据，显示出来了。

3、显示

如何显示呢？从前面的演示应该有所体会，就是将读到的数据中，为1的就是某种字符打印，为0的就打印空格。为方便起见，统一使用星号(“*”)打印。这个打印当然是逐位打印了，就是对每个字节都进行判断。在下面代码中将会看到。

完整的代码如下：

/***************************************************字符集编码统一为gb2312，即源代码文件保存格式为gb2312(notepad++下显示为“ANSI”)，

编译环境的字符集编码为gb2312，如果不是，可能得不到预期效果

多个汉字

* ************************************************/

#include<stdio.h>#include<unistd.h>

#include<sys/stat.h>

#include<sys/types.h>

#include<fcntl.h>

#include<stdlib.h>

#include<errno.h>

#include<string.h>

/* for debug */

#define DEBUG

#ifdef DEBUG

#define debug(fmt, …) printf(fmt, ##__VA_ARGS__)

#else

#define debug(fmt, …)

#endif

#if 0

/* 啊的一种 */

unsigned char a[] = {

0x00,0x08,0x0F,0x7C,0xE9,0x08,0xAA,0x08,0xAC,0xE8,0xAA,0xA8,0xAA,0xA8,0xAA,0xA8,

0xEA,0xE8,0xAE,0x08,0x08,0x08,0x08,0x08,0x08,0x28,0x08,0x10,0x00,0x00,

};

/* 啊的另一种 */

unsigned char b[] = {

0x00, 0x04, 0x2f, 0x7e, 0xf9, 0x04, 0xa9, 0x04, 0xaa, 0x14, 0xaa, 0x7c, 0xac, 0x54, 0xaa, 0x54,

0xaa, 0x54, 0xa9, 0x54, 0xe9, 0x74, 0xad, 0x54, 0x0a, 0x04, 0x08, 0x04, 0x08, 0x14, 0x08, 0x0c,

};

#endif

void display_font(char *mat)

{

int i, j, k;

for(j=0;j<16;j++)

{

for(i=0;i<2;i++) /* 一个汉字占两个字节 */

{

for(k=0;k<8;k++)

{

/* 逐位相与，为1者打印 */

if(mat[j*2+i] & (0x80>>k))

//if(b[j*2+i] & (0x80>>k)) // 测试HZK16文件中的二进制

printf(“*”);

else

printf(” “);

}

printf(“n”);

}

int main()

{

int i;

unsigned char incode[] = “啊”; /* 字符集编码为gb2312下可显示该汉字 */

unsigned char qh,wh;

unsigned long offset;

FILE *HZK;

char *mat;

if((HZK=fopen(“HZK16″,“rb”))==NULL)

{

perror(“Can’t Open HZK16″);

exit(0);

}

mat=(char *)malloc(32);

memset(mat,0,32);

for (i = 0; i< sizeof(incode)-1; i+=2)

{

qh = incode[i] – 0xa0;

wh = incode[i+1] – 0xa0;

debug(“code : %x %xn”, incode[i], incode[i+1]);

offset = ( 94*(qh-1) + (wh-1) ) * 32; /* 寻址 */

debug(“code : %x %x %xn”, incode[i], incode[i+1], offset);

fseek(HZK,offset,SEEK_SET);

fread(mat,32,1,HZK);

display_font(mat);

}

free(mat);

fclose(HZK);

return 0;

}

代码运行效果：

$ ./a.outcode : b0 a1

code : b0 a1 b040

* **** ******

***** * *

* * * * *

* * * * * *

* * * * *****

* * ** * * *

* * * * * * *

*** * * *** *

* * ** * * * *

* * *

* *

* * *

* **

这个代码可以打印多个汉字，当使用如下赋值语句时

unsigned char incode[] = “我顶”;

打印效果如下：

$ ./a.out

code : ce d2

code : ce d2 216e0

* *

*** * *

**** * *

* * *

***************

* *

* * *

* * * *

** **

** *

** * * *

* * *

* * * *

* **

code : b6 a5

code : b6 a5 f740

* *********

****** *

* * *

* ********

* * *

* * * *

* *

* * * **

* * *

** *

既然能显示汉字了，那么能不能将中文、英文放在一起，混合显示呢？答案是肯定的。从GB2312简体中文编码表可以看到，这种编码是从A1A0开始的，与ASCII码完全没有交集。就是说，先判断所要显示的字符，如果大于0xa0，肯定是GB2312里面的，小于应该就是ASCII码了(仅考虑GB2312编码及ASCII码，其它不涉及)。那么程序就应该比较简单了。不过代码中有一个严重的bug，因为代码是按两个字节进行处理的，如果连续出现的英文字符不是2的倍数，其后的字符就乱了。现在就不拿出来献丑了，等解决了，再拿出来。由于各种网页行距、字与字之间间隔不太相同，如果文中效果显示不好，请移步这里查看：中文、英文字库显示效果。

参考资料：

1、一些概念性的东西，可以自行搜索，如“内码”、“区位码”、“点阵字库”、“矢量字库”等等。

2、CU的一个帖子，本次研究主要以此为基础：http://bbs./thread-1997845-1-1.html。

3、汉字字库文件，如HZK16等等，直接使用搜索引擎搜索“HZK16”，应该有下载链接的。

4、关于计算机编码详细资料，可以搜索“信息传递、编码和计算机表示”系列文章。如http://blog.csdn.net/FreeWave/archive/2010/04/13/5482359.aspx讲述了GB2312编码。

本文固定链接: http://www./programming-under-linux/dot-font-hz.html