分享

第四章 汉字信息处理基础知识

 梦中家园 2010-09-05
第四章 汉字信息处理基础知识

要用计算机来处理文字,就必须解决如何把文字输入计算机并在计算机中存储、加工,以及进行适当处理后再输出的问题。计算机的文字信息处理过程见P77的图 4.1

4.1.2 汉字编码标准

ASCII 码是英文字符的编码标准。

国标码(也称汉字的交换码),是用01代码串表示汉字,在汉字系统和通信系统之间交换信息用的汉字编码标准,全称为《信息交换用汉字编码字符集》(GB 231280),共有字符7445个,分为两级,一级为3755个,按汉语拼音的顺序排列,二级3008个,按部首和笔画排列。扩展国标码(GBK)是在国标码的基础上加大了收字范围,有20902个汉字。Windows 中装入了GBK 的全部汉字和符合GBKGB2317—80的输入法。

1、国标码GB 2312—80)表由94行(0-93)和94列(0-93)构成,行和列分别用7位二进制码表示(即双七位二进制表示法),第一个七位(第一字节)表示行号,第二字节表示列号,行号和列号共同定义一个字符,常用十六进制表示。见P78 4.2

2、区位码:国标码可表示成区位码的形式。将行号称为区号,列号称为位号,有94个区和94个位,区、位号均用十进制数表示。故可以用4位十进制数表示一个汉字。

  区位码转换为国标码的规则为:十进制的区号和位号分别转换成十六进制数+2020H

区位码也是一种汉字输入法(具有唯一性)。

3、机内码:计算机内部的汉字代码,不同的计算机系统中使用的机内码是不同的。在微型机中多采用两字节代码作为机内码。

国标码转换为机内码的规则为:十六进制国标码+8080H ,即:置国标码的两个字节的最高位为1即可。

4.1.3 汉字输入法

汉字输入可分为整字、字素和编码三大类。

①大键盘整字输入:采用一字一键的输入方法。在专业系统(如电子照排)等某些特定的场合使用。

②字素输入:直接利用ASCII码标准键盘,把字素刻在键帽上,将汉字分解后按一般的笔顺键入。如五笔画。

③编码输入法:按照汉字的语音、字形等特征用ASCII码字符给汉字编码,从标准键盘上输入汉字。是用得最普遍的一种。流行的有拼音码、自然码、表形码、五笔字型码、首尾码、国标区位码、仓颉码和电报码等十几种。

音码:以语音特征来编码的方案(适合一般用户);形码:以字型特征来编码的方案(适合专业录入人员);音型混合码:两者兼具的编码方案。

4.1.4 汉字字模库

汉字输出方式主要有两种:显示和打印。     汉字显示原理见P814.4

在计算机中通常用点阵来描述。即把汉字看成一个用一组二进制数表示的二维图形,“1”是有点,“0”是无点。若干个代码串就表示整个汉字的点阵信息。

字模(字形码):一个汉字点阵信息的二进制代码串称为汉字的字模。

字模库(简称字库):所有汉字和各种符号的点阵信息就组成汉字的字库。

软字库:存放在软盘或硬盘上的字库。

硬字库(也称汉卡):存放在可擦除只读存储器(EPROM)或只读存储器(Mask—ROM)中。

小结:英文字符存储在计算机中,采用标准为ASCII码,每个英文字符占用1个字符节

汉字存储在计算机中,采用标准为国标码,机器内部存放的是机内码,每个汉字占2个字节。

汉字或英文字符的输出,用汉字的字形码(即字模)

例:如果使用1616点阵的汉字库,8000个汉字用多少个字节来存放?

一个汉字用1616/8=32B来存放,8000个汉字用80001616/8=256000个字节来存放。

掌握P804.1,对汉字点阵类型每个汉字所占用字节数的计算方法。

4.1.5汉字显示输出 及4.1.6汉字打印输出在P81,了解

42   微机汉字汉字信息处理系统的构成和使用(主要掌握下面两大点即可)

1、启动汉字输入系统:鼠标单击任务栏右下角的输入法按钮“En”,然后在弹出的菜单上选择所需的输入法。

2、输入法间的切换:1)中英文切换:      <Ctrl>+<Space>(空格键)。

                   2)中文输入法切换:  <Ctrl>+<Shift>(有的机器是Alt+Shift

                   3)全角与半角切换:  <Shift>+<Space>

4)中英文标点符号切换:<Ctrl>+ <.> 

其它内容自己看看,了解即可。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多