2024年3月25日发(作者:)
汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。汉字区位码
的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混
淆。为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),
还需与基本ASCII码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上20H,
在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表
示一个汉字需要占两个字节,分别 称为高位字节和低位字节,这两位字节的机内码按如下
规则表示:
高位字节=区码+20H+80H(或区码+A0H)
低位字节=位码+20H+80H(或位码+AOH)
由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所
以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。
例如,汉字“啊”的区位码为1601,区码和位码分别用十六进制表示即为1001H,它的机
内码的高位字节为B0H,低位字节为A1H,机内码就是B0A1H。
2603 = 1A03H 区位码
+ A0A0H
= BAA3H 机内码
[
本帖最后由
rossini23
于
2006-10-11 13:28
编辑
]
计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传
送的过程就是汉字编码转换的过程。
汉字交换码:汉字信息处理系统之间或通信系统之间传输信息时,对每一个汉字所规定的统一编码,我国
已指定汉字交换码的国家标准“信息交换用汉字编码字符集——基本集”,代号为GB 2312—80,又称为“国
标码”。
国标码:所有汉字编码都应该遵循这一标准,汉字机内码的编码、汉字字库的设计、汉字输入码的转换、
输出设备的汉字地址码等,都以此标准为基础。GB 2312—80就是国标码。该码规定:一个汉字用两个字
节表示,每个字节只有7位,与ASCII码相似。
区位码:将GB 2312—80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为0l~94;每
一列称为一个“位”,编号为0l~94,这样得到GB 2312—80的区位图,用区位图的位置来表示的汉字编码,
称为区位码。
机内码:为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字
节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国
标码具有极简单的对应关系。
汉字机内码、国标码和区位码三者之间的关系为:区位码(十进制)的两个字节分别转换为十六进制后加
20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国
标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加
A0H得到对应的机内码。
1、区位码和国标码 (1)国标:1981年,我国制订了“中华人们共和国国家标
准信息交换汉字编码”,代号为“GB2312-80”。 (2)区位码:按国标规定,汉
字编码表有94行94列,其行号01~94称为区号,列号01~94称为位号。一个汉
字所在的区号和位号简单地组合在一起就构成了这个汉字的区位
码。 GB2312-80 区位码=区号+位号(采用十进制) 符:2391 例1:
汉字“啊”处于16区的01位,则其区位码为1601。 (3)国标码:又称为“交
换码”,它是在不同汉字处理系统间进行汉字交换时所使用的编码。国标码采用
两个字节表示,它与区位码的关系是:国标码高位字节=(区号)16+(20)16 国标
码低位字节=(位号)16+(20)16 例2:汉字“啊”的区位码为1601,则其国标码
为(3021)16。 2、汉字内码(机内码) (1)概念:在计算机内部表示汉字的代
码。 (2)特点:汉字内码采用两个字节,一个汉字占两个ASCII字符;汉字内
码最高位为1,ASCII码最高位为0 (3)汉字内码与区位码的关系:汉字内码高
位字 ...
GB2312-1980 信息交换用汉字编码字符集 基本集
GB11383-1989 信息处理 信息交换用八位代码结构和编码规则
GB2311-1990 信息处理 七位和八位编码字符集代码扩充技术
GB12345-1990 信息交换用汉字编码字符集 辅助集
GB13000.1-1993 信息技术 通用多八位编码字符集(UCS)第一部分
GBK-1995 技术规范指导性文件 《汉字内码扩展规范(GBK)1.0版
GB18030-2000 信息技术 信息交换用汉字编码字符集 基本集的扩充
上面是我国颁布并实施的有关编码方案
-后面为发布年份 和名称
GB2312共收录6763个简体汉字,是一般输入法的默认编码
GBK共收录21004个汉字(包括简体和繁体),是字库庞大的输入法的首选编码
BIG5 即通常说的大五码,是港台地区使用的繁体中文编码规格。
GB18030 分别以单字节、双字节和四字节进行编码。兼容了GBK和GB2312。当然也支
持繁体中文


发布评论