2024年5月27日发(作者:)
汉字计算机中的表示
汉字计算机中的
一、前言
众所周知,英文是拼音文字,一个不超过128种字符的字符集,
就可满足英文处理的需要。汉字是平面结构,字数多,字形复杂、长
期被认为不便于计算机存储和处理,因而常有一些知名人士主张用拼
音文字来取代汉字。经过我国科技工作者的不懈努力,这一问题已得
到了较好的解决,我国已经具备了成熟的汉字信息处理方法,并且得
到了广泛应用。二、汉字在计算机中表示方法。
用计算机处理汉字,首先要解决汉字在计算机里如何表示的问题,
即汉字编码问题。根据统计,在人们日常生活交往中,包括社会生活、
经济、科学技术交流等方面,经常使用的汉字约有四、五千个。汉字
字符集是一个很大的集合,至少需要用两个字节作为汉字编码的形式。
原则上,两个字节可以表示256×256=65536 种不同的符号,作为汉
字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,
如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两
字节汉字编码方案,只用了两个字节的低7位。这个方案可以容纳
128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个
字节中都不能再用32个控制功能码和码值为32的空格以及127的操
作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的
字数是:94×94=8836个。
国家根据汉字的常用程度定出了一级和二级汉字字符集,并规定
了编码。国家标准局于1981年公布了国家标准GB2312-80,即信息
交换用汉字编码字符集基本集,其中共收录汉字和图形符号(682个)
7445个。
每一个汉字或符号都用两个字节表示。其中每一个字节的编码取
值范围都是从20H 到7EH,即十进制写法的33到126,这与ASCII
编码中可打印字符的取值范围一样,都是94个。因为这样两个字节可
以表示的不同字符总数为8 836个。而国标码字符集共有7 445个字
符,所以在上述编码范围中实际上还有一些空位。
汉字国标码作为一种国家标准,是所有汉字编码都必须遵循的统
一标准,但由于国标码每个字节的最高位都是“0”,与国际通用的标
准ASCII码无法区分。例如,“天”字的国标码是01001100
01101100 ,即两个字节分别是十进制的76 108 ,十六进制的4CH
6CH。而英文字符“L”和“1”的ASCII码也恰好是76和108,因此,
如果内存中的两个字节76和108,就难以确定到底是汉字”天“字,
还是英文字符“L”和“1”。显然,国标码必须进行某种变换才能在
计算机内部使用。常见的用法是将两个字节的最高位设定为1(低7位
采用国标码)。例如,汉字“天”字的机内码是11001100
11101100 ,写成十六进制是CCH ECH。即十进制的204 236。但这
种用法对国际通用性以及ASCII码在通信传输时加奇偶检验位等都是
不利的,因而还有改进的必要。
目前,汉字编码的标准还没有完全统一。在我国台湾,港澳地区
多用BIG-5码,世界其它地区的汉字文化圈中也存在一些其它的汉字
编码方案。这就造成了各种汉字处理系统之间无法通用的局面。为使
世界上包括汉字在内的各种文字的编码走上标准化、规范化的道路,
1992年5月国际标准化组织ISO通过了ISO/IEC10640,即《通用多八
位编码集(UCS)》,同时我国也制定了新的国家标准GB13000-
1993(简称CJK字符集)。全国信息标准化技术委员会在此基础上发
布了《汉字扩展内规范》,其中收集了中国、日本、韩国三国汉字共
20 902个(简称GBK字符集),可以在很大程序上满足汉字处理的要
求。
2000年3月17日,信息产业部和国家技术监督局联合公布了国
家标准GB 18030-2000《信息技术、信息交换用汉字编码字符集、基
本集的扩充》(简称CJK字符集),并宣布GB 18030为国家强制性
标准,自发布之日起实施,过渡期到2000年12月31日止。
GB 18030是GB 2312的扩展,共收录了2.7万个汉字,采用单/
双/四字节混合编码,与现有绝大多数操作系统、中文平台在内码一级
兼容,可支持现有的应用系统;在字汇上则与GB 13000.1-1993兼容,
并包容了其中收录的所有汉字、藏、蒙、维等少数民族文字,以及世
界上几乎所有的语言文字,为中文信息在因特网上的传输和交换提供
了保障。该标准的实施将为制定统一的应用软件中文接口标准规范创
造条件。
三、汉子的输入方法及优缺点
电脑是老外发明的,键盘是为打ABC而设计的,用电脑打中文,
曾经是一个大难题,曾经被老外看作中国实现信息化的一头拦路虎。
自从电脑传入中国来,多少人在日以继夜地研究汉字输入的方法?随
着电脑的普及,随着时间的推移,一种种输入法出现了,据说汉字输
入法申请专利的就有500多种。
目前,几百种汉字输入法,按输入工具而分,可分为键盘输入法
(英文字母和数字键盘)和非键盘(鼠标、语音、手写)输入法。
键盘输入法
缺点:易学难输不实用,如当今流行的QQ拼音,搜狗拼音等输
入法。
难学易输难普及,如王永民教授的五笔输入法。
优点:准确,输入错误率小,成本低。
非键盘输入法
扫描输入法:将文稿通过扫描仪输入到电脑,再用转换软件(如
清华大学的OCR)转换为文本。
光笔输入法:用专用笔在一写字屏上写入汉字,通过软件转换成
文本。
声音输入法:先引进标准的声音库,再通过话筒将文稿读入机器
与之对应后由软件转换成文本。
缺点:当前技术水平有限,输入错误率高,成本高。
优点:输入速度快,效率高。
四、汉字输入法的科学性
发明一种汉字输入法其实不难,但要发明一种社会一致认可的输
入法就确实很难了。这条路上有多少人在探索和追求,“引无数英雄
竞拆腰”。国家电子部有专门的中文信息处理开放实验室,民间有汉
字编码协会,老外有微软专门设立了中国研究开发中心中文技术部,
摩托罗拉手机也搞了个摩托罗拉按键输入法。考量一个输入法好坏的
标准,只有8个字:易学、好记、快打、规范。四者必须统一。易学
难输(如拼音)不实用,难学易输(如五笔)难普及。
汉字输入法是一种工具,工具不需要多,实用就行了,就象吃饭,
中国人只用筷子,西方人只用刀叉,仅此一种。工具太多,往往无所
适从,例如:学习打字选择哪种输入呢?学校推广输入法,那一种符
合语文教学规范呢?
由于输入法太多,已经给中国人带来了新的麻烦。没有汉字输入
法,计算机难在中国普及,没有统一的输入法,也影响了计算机在中国的普
及,影响了中国人的工作和生活。国家为什么不统一一个汉字输入法
呢?实在也为难,选择什么输入法好呢?目前面市的各种笔和码,总
是有较大的缺憾,总是不完美,如其匆促选定,那也坑害百姓,还是
慢慢等待吧!
市场在呼唤,汉字在呼唤,祖国和人民也在呼唤!
发布评论