2024年3月25日发(作者:)

汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。汉字区位码

的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混

淆。为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),

还需与基本ASCII码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上20H,

在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表

示一个汉字需要占两个字节,分别 称为高位字节和低位字节,这两位字节的机内码按如下

规则表示:

高位字节=区码+20H+80H(或区码+A0H)

低位字节=位码+20H+80H(或位码+AOH)

由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所

以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。

例如,汉字“啊”的区位码为1601,区码和位码分别用十六进制表示即为1001H,它的机

内码的高位字节为B0H,低位字节为A1H,机内码就是B0A1H。

2603 = 1A03H 区位码

+ A0A0H

= BAA3H 机内码

[

本帖最后由

rossini23

2006-10-11 13:28

编辑

]

计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传

送的过程就是汉字编码转换的过程。

汉字交换码:汉字信息处理系统之间或通信系统之间传输信息时,对每一个汉字所规定的统一编码,我国

已指定汉字交换码的国家标准“信息交换用汉字编码字符集——基本集”,代号为GB 2312—80,又称为“国

标码”。

国标码:所有汉字编码都应该遵循这一标准,汉字机内码的编码、汉字字库的设计、汉字输入码的转换、

输出设备的汉字地址码等,都以此标准为基础。GB 2312—80就是国标码。该码规定:一个汉字用两个字

节表示,每个字节只有7位,与ASCII码相似。

区位码:将GB 2312—80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每

一列称为一个“位”,编号为0l~94,这样得到GB 2312—80的区位图,用区位图的位置来表示的汉字编码,

称为区位码。

机内码:为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字

节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国

标码具有极简单的对应关系。

汉字机内码、国标码和区位码三者之间的关系为:区位码(十进制)的两个字节分别转换为十六进制后加

20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国

标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加

A0H得到对应的机内码。

1、区位码和国标码 (1)国标:1981年,我国制订了“中华人们共和国国家标

准信息交换汉字编码”,代号为“GB2312-80”。 (2)区位码:按国标规定,汉

字编码表有94行94列,其行号01~94称为区号,列号01~94称为位号。一个汉

字所在的区号和位号简单地组合在一起就构成了这个汉字的区位

码。 GB2312-80 区位码=区号+位号(采用十进制) 符:2391 例1:

汉字“啊”处于16区的01位,则其区位码为1601。 (3)国标码:又称为“交

换码”,它是在不同汉字处理系统间进行汉字交换时所使用的编码。国标码采用

两个字节表示,它与区位码的关系是:国标码高位字节=(区号)16+(20)16 国标

码低位字节=(位号)16+(20)16 例2:汉字“啊”的区位码为1601,则其国标码

为(3021)16。 2、汉字内码(机内码) (1)概念:在计算机内部表示汉字的代

码。 (2)特点:汉字内码采用两个字节,一个汉字占两个ASCII字符;汉字内

码最高位为1,ASCII码最高位为0 (3)汉字内码与区位码的关系:汉字内码高

位字 ...

GB2312-1980 信息交换用汉字编码字符集 基本集

GB11383-1989 信息处理 信息交换用八位代码结构和编码规则

GB2311-1990 信息处理 七位和八位编码字符集代码扩充技术

GB12345-1990 信息交换用汉字编码字符集 辅助集

GB13000.1-1993 信息技术 通用多八位编码字符集(UCS)第一部分

GBK-1995 技术规范指导性文件 《汉字内码扩展规范(GBK)1.0版

GB18030-2000 信息技术 信息交换用汉字编码字符集 基本集的扩充

上面是我国颁布并实施的有关编码方案

-后面为发布年份 和名称

GB2312共收录6763个简体汉字,是一般输入法的默认编码

GBK共收录21004个汉字(包括简体和繁体),是字库庞大的输入法的首选编码

BIG5 即通常说的大五码,是港台地区使用的繁体中文编码规格。

GB18030 分别以单字节、双字节和四字节进行编码。兼容了GBK和GB2312。当然也支

持繁体中文