2024年3月11日发(作者:)

前言

由于工作的需要,参考了好多资料整理出来一份计算机汉字处理报告,不敢独享,希

望与大家共享。Ziggler

现代计算机技术虽然先进,但大多数人只知录入GB-2313字符集内的6763个简体汉字,

对包含21003个简繁体汉字的GBK字符集的文字录入、字体 显示就已不甚了解(市面上

绝大多数所谓的繁体字体,其实采用的是GB2313字符集简体字的编码,用字体显示为繁体

字,而不是直接用GBK字符集中繁体字 的编码,错误百出)。而汉字总数至少有近10万

个,目前计算机能处理的,也有70244个,已非一般人所能知能用了。

由于汉字总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确

的数字。据估计,汉字数量达到11万左右。

这里所说的七万多汉字,是指UNICODE超大字集全部七万多中日韩汉字。(注:Unicode

是指用两个字节表示每个字符的字符编码方案。)

那一般计算机能够显示多少个汉字呢?比如大陆这边普遍安装简体Windows系统,而

简体windows以宋体为系统字型,宋体支持GBK编码,所以能显示20902个汉字。

要显示71564个汉字,可以采取多种方案,如:宋体-方正超大字符集+新细明体EXTB、

宋体-方正超大字符集+中易宋体EXTB、宋体GB18030+新细明体ExtB、宋体18030+宋体

ExtB等等。

中文字符集、编码

字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符

集是多个字符的集合,字符集 种类较多,每个字符集包含的字符个数不同。

计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储

各种文字。

中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机

最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。

以下是常见的一些字符集介绍,部分字符集中包括编码介绍。

GB2312 字符集

1.名称的由来

GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中

国国家标准总局发布,1981年5月1日实施。

2.特点

GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,

基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

3.包含内容

GB2312

收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语

拼音符号、汉语注音字母,共 7445个图形字符。其中包括6763个汉字,其中一级汉字3755

个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔

字母在内的682个全角字符。

4.技术特征

(1)分区表示:

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称

为区位码。

各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区

二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。

(2)双字节表示

两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高

字节” ,而称第二字节为“低字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加

上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

5.编码举例

以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,

在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计

算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。

BIG5 字符集

1.名称的由来

又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁

(Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。

Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、

王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆

的GB2312编码亦未有收录繁体中文字。

2.特点

Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符

集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

3.字符编码方法

Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字

节”,第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围

0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及特殊符号,

另外于0xA259-0xA261,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;

0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是

先按笔划再按部首排序。

4.Big5 的局限性

尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言

用字、化学及生物科等用字,没有包含日文平假名及片假名字母。

例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用

字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也

没有收录到Big5之中。

GBK字符集

又称大字符集(GB=GuóBiāo国标,K=扩展),包含以上两种字符集汉字,收入21003个

汉字,882个符号,共计 21885个字符,包括了中日韩(CJK)统一汉字20902个、扩展A集

(CJK Ext-A) 中的汉字52个。Windows 9598简体中文 版就带有这个文件。宋体、

隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、 Arial Unicode MS、

MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音

等输入法,能够 录入如镕镕炁夬喆嚞姤赟赟䶮龑昳堃慜靕臹等GBK简繁体汉字。

GB18030 字符集

1.名称的由来

GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国

政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上

发布的软件必须符合本标准

2.特点

GB 18030字符集标准的出台经过广泛参与和论证,来自国内外知名信息技术行业的公

司,信息产业部和原国家质量技术监督局联合实施。

GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符

集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了 27484个汉字,

覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等

东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0

版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符

编码标准(GB2312,GB13000.1)兼容。

3.编码方法

GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0

×00至0×7F码(对应于ASCII码的相应码)。双字节部分,首字节码从0×81至0×FE,尾

字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0

×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130

到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码

码位均为0×30至0×39。

4.包含的内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意

文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。 四字节

部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部

字符。

方正超大字符集

包含GB18030字符集、CJK Ext-B中的36862个汉字,共计64395个汉字。宋体-方正

超大字符集支持这个 字符集的显示。Microsoft Office XP或2003就自带有这个字体。若要

单独安装字体,选择:自定义安装→选择应用程序的高级自定义 →Microsoft Office→Office

共享功能→中文字体→中文超大字符集字体,点左键选择“从本机运行全部程序”,其馀内容

用左键点击选择 不安装。

Unicode字符集

1.名称的由来

Unicode 字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位

编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的

字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990

年开始研发,1994年正式公布,最新版本是2005年3月31日的Unicode 4.1.0。

2.特征

Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并

且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

3.编码方法

Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母

“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

4.UTF-8 编码

UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format,即把

Unicode转做某种格式的意思。

UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的

Unicode能够在现存的处理单字节的系统上正确传输。

UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,

重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅

助平面字符则使用4字节。

5.UTF-16 和 UTF-32 编码

UTF -32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案,UTF-16 使

用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码;UTF-32 即将每

一个 Unicode 代码点表示为相同值的 32 位整数。

汉字构形资料库2.3版

内含楷书字形60082个、小篆11100个、楚系简帛文字2627个、金文3459个、甲骨文

177个、异体字12768组。可以安装该程序,亦可以解压后使用其中的字体文件,对于整理

某些古代文献十分有用。

字符集包含汉字简表

字符集

GB-2312字符集

GBK字符集

汉字个数

6763个简体汉字,715个符号,总计

7478个字符

21003个简繁体汉字,882个符号,共

计21885个字符

BIG5字符集

GB18030字符集

收入13060个繁体汉字,808个符号,

总计13868个字符

GBK字符集 + CJK Ext-A = 27533个

汉字(CJK-A中有52字与GBK中的汉字重复,

但内码不同,在计总数时不算在内)

包含GB18030字符集、CJK Ext-B中

的36862个汉字,共计64395个汉字

计有:CJK统一汉字20902个,

CJK Ext-A 6582个,Ext-B 42711个,共计

70195个汉字

20902个汉字 (包含在GBK字符集中)

6582个汉字 (包含在GB18030字符集中)

42711个汉字

方正超大字符集

Unicode字符集

Unicode字符集,CJK

Unicode字符集,CJK Ext-A

Unicode字符集,CJK Ext-B

各种编码范围表

编码

GB2312

Big5

GBK

GB18030

汉字编码范围

范围: 0xA1A1(41377) - 0xFEFE(65278)

汉字范围: 0xB0A1(45217) - 0xF7FE(63486)

第一字节编码范围为0xA1~0xF9,第二字节编

码范围为0x40~0x7E与0xA1~0xFE

0x8140-0xfefe

编码是变长的,其二字节部分与GBK兼容;

四字节部分是扩充的字形、字位,其编码范

围是首字节0x81-0xfe、二字节0x30-0x39、

三字节0x81-0xfe、四字节0x30-0x39

汉字u4E00-u9FA5 UNICODE

中文字体

字体是描述文字在显示器或者打印机上面呈现的效果的一种数据,也叫字

库。

Windows中一般都是使用TrueType字体,每个中文版Windows操作系统均默

认安装了宋体、仿宋、黑体和楷体四种字体。

1、华文彩云、华文琥珀、华文隶书、华文新魏 、华文行楷

6763

2、楷体_GB2312、仿宋_GB2312 6763

3、方正舒体 9690 方正姚体 9826

4、幼圆、黑体、隶书、宋体、新宋体 21003

5、华文楷体、华文仿宋、华文宋体、华文细黑、华文中宋

21003

6、FZNew XiuLi-Z11 方正新秀丽繁体(旧字形) 15290

方正书宋、楷体、仿宋、黑体-GBK 21003

7、北师大说文小篆

北师大说文重文 11100个 (PDF文本)

此两款字体包含在“汉字构形资料库”中。

8、宋体-18030、新宋体-18030 21003+ 6582 = 27533

9、MS Song 书同文楷体 21003+ 6582 = 27533 (同

FZKai-Z03方正楷体简体版)

10、FZKai-Z03 方正楷体21003+ 6582 = 27533

此外还造了近5000个在古籍中较常使用的汉字,共计32000编码汉字,能显示八卦六十四

卦符号。下载简体中文版的是大陆标准楷体的写法,下载繁体中文版的是台湾教育部楷体的

写法,两个字体都是相同的文件名、字体名,除非更改字体名称,否则没有办法两个同时安

装。

11、宋体-方正超大字符集

21003+6582+36862=64395 (MS Office XP2003 自带)

支持包“Surrogate更新”:

/downloads/?displaylang=zh-cn&FamilyID=1A8B048

F-C76F-4E55-A0CF-E695CEF87C81

12、UniSongGBK1.01 宋体-全汉字集(简体中文版)71564

13、UniSongBig51.01 宋体-全汉字集(繁体中文版)71564

中文输入法

1、 微软拼音输入法2003 (可录入GBK简繁体汉字

21003个) MS Office 2003自带

2、王码五笔18030

(可录入GB18030汉字27533个)

(内含王码拼音2002,可录入GBK汉字21003个)

3、海峰五笔输入法9.0版 (可录入70244个汉字)

字体文件:UniFonts。内含:采采卷耳制作的宋体全汉字集。

4、菩提五笔Unicode单字版 (可录入70244个汉字)

5、新概念五笔输入法 (可录入70244个汉字)

中文字符集、编码、字体、输入法对照表

字符集 编码 字体 输入法 备注

收入汉字6763

个,符号715个,

总计7478个字

符。所谓的繁体

字体,其实采用

的是 GB2312

字符集简体字

的编码,用字体

显示为繁体字,

而不是直接用

GBK字符集中

繁体字的编码

收入13060个繁

体汉字,808个

符号,总计

13868个字符,

目前普遍使用

于台湾、香港等

地区。

GBK字符集,

又称大字符集

(GB=GuóBiāo

国标,K=扩展),

包含以上两种

字符集汉字,收

入21003个汉

字,882个符号,

共计 21885个

字符,包括了中

日韩(CJK)统一

汉字20902个、

扩展A集

(CJK Ext-A) 中

的汉字52个。

GB2312 GB2312 楷体-GB2312、仿宋-

大多数输入法

GB2312、华文行楷等

市面上绝大多数字体

支持显示这个字符集

BIG5 BIG5 台湾教育部标准宋体

楷体等港台大多数字

体支持这个字符集的

显示。

大多数输入法

GBK Windows 9598简体

中文 版就带有这个

文件。宋体、

隶书、黑体、幼圆、

华文中宋、华文细黑、

华文楷体、标楷体

(DFKai-SB)、

Arial Unicode MS、

MingLiU、PMingLiU

等字体支持显示这个

字符集。

微软拼音输入

法2003、全拼、

紫光拼音等输

入法,能够 录

入如镕镕炁夬

喆嚞姤赟赟䶮

龑昳堃慜靕臹

等GBK简繁

体汉字。

GB18030 GB18030 宋体-18030、方正楷

体 (FZKai-Z03)、书同

文楷体(MS Song)、香

港华康标准宋体

(DFSongStd)、华康香

港标准楷体、华康楷

书体、New Gulim、

CERG Chinese Font,

以及微软

Windows Vista操作系

统提供的宋黑楷仿宋

等字体亦支持这个字

符集的显示。

方正超大字符

宋体-方正超大字符

集支持这个 字符集

的显示。

Microsoft Office XP

或2003就自带有这

个字体。若要单独安

装字体,选择:自定

义安装→选择应用程

序的高级自定义 →

Microsoft Office→

Office共享功能→中

文字体→中文超大字

符集字体,点左键选

择“从本机运行全部

程序”,其余内容用左

键点击选择不安装

可以用王码五包含GBK字符

笔18030录入。 集、

CJK Ext-A 全部

6582个汉字,共

计27533个汉

字。Windows 98

支持这个字符

集,以下的字符

集则不支持。

海峰五笔、 新

概念五笔、仓

颉输入法世纪

版、新版的微

软新注音、仓

颉输入

法 6.0 版(单码

功能)等输入

法录入

方正超大字符

集,包含

GB18030字符

集、CJK Ext-B

中的36862个汉

字,共计64395

个汉字。。

Unicode Unicode SimSun- ExtB(宋体)、

UTF-8 MingLiU-ExtB(细明

UTF-16

体)能显示全部Ext-B

UTF-32

汉字。至今尚无单独

一款字体能够显示全

部70195个汉字;

UniSongGBK1.01 宋

体-全汉字集、

UniSongGBK1.01 宋

体-全汉字集;

海峰五笔、 新

概念五笔、仓

颉输入法世纪

版、新版的微

软新注音、仓

颉输入

法 6.0 版(单码

功能)等输入

法录入

涵盖了世界上

主要语文的字

符,其中包 括

简繁体汉字,计

有:CJK统一汉

字20902个,

CJK Ext-A 6582

个,Ext-B 42711

个,共计70195

个汉字。Ext-C

还有2万多个汉

字。