研制汉字电脑的迫切性
http://www.chancezoo.com/
陕西省气象局 张时钊
文明社会以前的人类文明分散在四个地方(应该再加中美洲的玛雅):从中国黄河流域开始,向西依次是印度恒河流域,中东的两河流域及地中海沿岸的尼罗河流域。然后是希腊、罗马。18世纪,科技中心在法国。19世纪已转到“日不落帝国”――大不列颠。文明社会中心从这经度0度开始,20世纪再向西120度,转到了美国(严格按经度算,是在洛杉矶和西雅图,而不是纽约、华盛顿)。现在美国走下坡路的苗头已经呈现。21世纪应该是中国的实际。刚好再向西120度,经济文化中心应落在北京。但新世纪已不是机器、电气的时代,而是电脑、网络的时代。可是电脑是舶来品,我们现在还只是被动地使用。而老跟在人家的屁股后面,难有成就。好在旧电脑科技似乎已经发展到顶峰,缺陷也逐渐暴露。我们应该甩开人家的衣钵,只取已有的好技术,从零创建我们自己的东西。研制真正的汉字电脑可能是其第一步。本文仅分点论述研制汉字电脑的迫切性。
一、从发展我国IT业来看
㈠、英文阻碍电脑在中国普及。现在便宜的电脑比彩电、冰箱还便宜,几乎家家都买得起。大部分家庭都是给上学的孩子买电脑,不买电脑的大多是因为没有人能学会用。政府、单位差不多都配有电脑,但绝大部还只用来打字、玩游戏。这些电脑骨子里都是英文电脑,虽然现在都可以处理中文。中文软件也很多,绝大部分操作电脑的,只是死板地使用这些中文软件,出了点问题就没办法了。它不像其他电器,试试有限的几个键就能摸索会的。电器出现异常的情况数量有限,而且现象特殊。电脑出现异常不知其数,难以预料,多数没有特殊现象,只是显示不同的提示信息。可是它们常常是英文的,不懂英文的看不懂。不要说没学过英文,或者虽然学过,但早已忘掉了的年纪大一点的父辈,就像我这样自学英文40年,近20年与电脑打交道,平常还常看看英文书的,见到大片英文信息也很头痛。当然,我们要普及外语,新世纪的人至少要会一门外语。西方人懂几国语言,比我们中国人懂几种方言,难不了多少,而要我们学会一门拼音语系的语言,确实比较困难。现在已开始重视从小孩子时开始抓外语学习。但是,如果是用这个办法来推广电脑的话,未免太慢了。普及英语的工作做得最好,也要几十年才见效。而在这几十年里,电脑软件可能已经发展了十多代,硬件也可能发展5代以上,我们能等待吗?老跟在别人屁股后面是不行的,我们必须开发出真正的中文电脑。再用12亿人民的聪明才智,定能短时间内发展出完全属于自己的信息技术,水平远远超过人家。这样反过来,外国人倒要学中文,用汉字电脑,中文就成为世界性的了。
㈡、英文影响我国软件业的发展。现在IT产业的重中之重,是软件产业。硬件当然也要发展提高,但光有高水平的硬件,没有相应的软件也是白搭。相反的,在原有硬件的水平下,只要软件充分发展,水平高,也能发挥前所未有的作用。这就是说,现有的软件,远没有用完,可能也用不完硬件的潜力。而软件完全是脑力的无形产品,不像硬件,必须有一定的物质条件,才能生产出有形的硬件来。我国人口世界第一,中国人智商之高也是公认的,硬件落后,软件应该不会落后吧。如果说教育水平影响软件业,我们的教育水平应该不比印度差,但软件业却比不上后起的印度。它们的软件出口挣大钱,软件人员出口也很吃香。究其原因,是印度曾是英国的殖民地,二三百年的殖民地被奴役的生活(全国在英国统治下也达百年)使印度人的英文基础比我们好。这样,我们和印度实际上不在一条起跑线上。我们当然不可能去走人家的老路。但要整体提高国人的英文水平,又不是短时间内能办到的。只要少数人研制出完全脱离英文的汉字电脑,12亿人民个个都很容易投身于软件开发,必可发展出独特而丰富的软件业,自立于世界之林,甚或领先于世界。
㈢、使用英文电脑,使用外国人的软件,还影响我们国家的安全。因为现在互连网已使世界成为一个地球村。人类的活动都逐步转移到网上,包括政府的活动。现在大家都用微软的视窗操作系统,要花钱且不说,使用它还要注册,要把自己的信息传到美国去。您或许可以使用虚伪的注册信息,但您要真正使用电脑,总要把真实情况输入到电脑里,并用电脑处理。人家的软件就可以用一点点窃听程序埋伏在一般软件或操作系统中,自动地收集情报。现在的软件都很大很复杂,而这种像病毒一样的小程序,又没有病毒的可觉察的表现,特别隐秘,不能发现,防不胜防。曾传说,甚至在CPU中都曾埋伏着这种窃听器。这样看,我们使用英文电脑、英文软件,就把自己完全暴露给人家,这是多么危险啊。实际上电脑本没有中文、英文之分,它用的是二进制信号。只不过首先在美国发明,由使用英文的外国人使用并发展软件,所以这些信号都用英文字母表示。从各种门电路及芯片引脚的名称,汇编语言的助记符到高级语言的命令,应用程序的提示和输出信息,都用英文。作为二进制信息的代号、助记符、命令名称等等,显然都可以改成中文,用汉字表示。开始时,硬件做不到这一点。因为无论在显示屏上显示或打印机输出,文字都是由点阵图形产生的。英文,包括标点符号及其他符号,90多个即足够了,每个笔划都简单,而中文则要成千上万个复杂的汉字点阵图形。仅在稍后硬件发展后,可以做成汉卡,才能存到电脑内并可快速输出。现在我们要研究可以只由少数笔划来生成汉字,而笔划种类比英文字母的个数(52个)更少,更不成问题。成问题的是软件系统十分复杂,要从根子开始把英文字母都换掉,工作量十分巨大。但是为了我们祖国和民族,这份工作值得做,可能最终还是不得不做的。
二、从国家、民族和文化前途看
㈠、汉字必须植根在电脑上。人类个体为了生存必须组成社会、民族,而维系社会或民族的纽带则首推语言和文字。我们中华民族是世界上最大、历史最悠久最稳固的民族,其中汉字起了决定性的作用。而方块汉字又是世界上唯一的、最独特而优秀的文字。曾经有一段时期,认为它落后,不适合信息处理,而现在有越来越多的事实和理由证明,她是最适于信息处理、最有效果最先进的文字。关于她的优势,留待另一处讨论。有生命力的文字,必须能继续发展。英文及其他拼音文字,已形成只有少数字母的格局。其发展只能由字母线性排列形成新单词。单词和词组越来越长,有时还难以表示越来越丰富的事物和思想。太长、太臃肿,效率更低,必然要采用缩略语。因为只有这么几个字母,只有这有限的组合,所以重复太多。一个缩略语竟可以指几十种事物,分不清楚,且与它的原词组联系很差。当然也可能出现新符号、新字母,但这一定要经过很长的时间。字母少而固定,这是它的长处,适应于电脑的少数键位,并且只需要少数的字模。汉字恰恰没有这个特性,每个汉字不可能安排在少数的键位上。难于输入,也难于显示。前者最后用编码的方法解决,后者则用很大的字模字库来解决。编码时需要研究汉字拆分,这时首先注意到传统字典所用的部首。部首加上必要的一些独体字,可以组合出所有的汉字来。可惜它们的数量仍然太多,使得这一途径没有发展起来。大陆的汉字字模是一字一个,不到7000的显示字库都达260KB。只有台湾朱邦复开发的汉字系统,采用拼字的方法,只要160KB的字库,就可生成1000万种字形。在汉字输入方法上,是把部首等按形状近似加以归并,使总数降到26个左右,然后用英文字母进行编码。编码方案追求的是一种记忆量最少的归并方法和编码规则,使得编码码长短而重码率低。用这种方法把汉字和计算机联系起来,或者说植根于计算机,永远有三个缺点:必须通过英文;必须有大字库、字模;不能自然而快速地造新字。我们必须另外寻找更好的把汉字植根于电脑的方法。
㈡、汉字植根于电脑的方式,决定未来汉字的发展前途。据考证,我们的汉字已有5-6千年历史。汉字发展除有内在规律外,承载汉字的介质的改变有较大的影响。开始的时候,是用小棍子刻在陶土做的容器表面上,再烧制成陶器。这时文字较低级,更近于图画,显然在软的泥面上画图也较方便。到发明了青铜器后,金属利器可以在龟板和骨片上刻字了,直到后来刻再竹片上。因为介质是长形的,且表面弯曲成筒状,刻字从上到下,比较容易,所以形成汉字竖行书写。介质较硬,难以刻成图形,所以各类近似的图形消失了,逐渐形成以横、竖、点、撇、捺等笔划为主的方形汉字。其中隶体的“蚕头燕尾”,显然最适合于竹片上刻写。而楷书、草书,只有在有了毛笔之后才有可能发展起来。三千多年来,文字载体已变了数次,以横竖点撇捺为主的30来种笔划已经固定。以后文字的载体应该逐渐以电脑为主了。电脑上可以画任意图形,而且文字将不会主要靠手书写,将来的汉字字形似乎会完全自由地发展。但是文字发展还有自身内在的规律。出现毛笔以后,主要是为了写字快而发展出草体,即使如此,主体汉字字形及笔划类型,基本没变。相信在电脑这种载体上,这些特点应该仍会基本保持不变。目前汉字植根电脑的方式是字模加编码。字模是专业人员按已存在的字形设计的,而设计编码是纯粹是为了方便输入汉字。这些都是少数专业人员干的事。虽然造一个新字的字模不很难,但一般人不会去造一个全新的字形,造出来后也难以进入所有电脑的汉字系统里,不能流通供大家使用。过去用笔写,则很容易写出一个新字,大家模仿使用并逐渐改进推广。我们说过,英文的字母已基本固定,造新字母较难,而产生出一个新单词是很容易的,实际上也时时在进行着。我国汉字的情况是,造新词与造英文单词一样快,而新汉字的出现并推广自然要慢得多,但比英文字母就不知容易多少倍, 如每发现一个新化学元素几乎都要造一个新字。大部分新汉字是用形声法由偏旁部首合成的。偏旁部首大部在左边,也有在上边,另一些是在它的内部、右上部、左下部,还有少数是在其左下部写新的部分。这些已有一些固定的规律,这些规律比起英文只在其前面加前缀或后面加后缀形成的线性结构复杂得多。这就是汉字的二维结构。实际上,30来种笔划之间的关系也有一些规律性。把这些规律性总结出来,固定下来,那么按线性顺序排列的笔划,也就会形成一定的二维平面的方块字了。这套规律,就是汉字植根于电脑的新方式,根据这种约定的办法,任何人都可敲敲键盘就很容易地创造出新字来。这样的新字是由固定的笔画组成的,不依赖于字库,就能够交流推广。显然,这种汉字植根于电脑的方式,影响汉字的未来发展。
㈢、必须在新技术条件下,形成一套最优化的植根于电脑的方式。在我国五千年的汉字发展过程中有几次由个人或由国家进行的划时代的工作:总结过去的成就,奠定日后的发展基础。进入电脑时代,1980年由国家制定的国标码,即使它也不是十全十美的,但其作用十分巨大,使得20年来中文的信息处理得以有序地进行。至于字模的建立,字形的改进,其重要性要差一点。而编码输入法,其重要性不亚于国标码,如果汉字仍难于输入电脑,国标码也无用武之地。由于输入法较难标准化,至今还在百家争鸣,没有统一,也没有最好的。现在要研制汉字电脑,要求汉字植根于电脑的方式要再深入几个层次:只由键盘输入少量的笔划,电脑就可组合出完整的汉字来。参照以前成功的经验,国家只定国标码,再由大家开发各种输入法;现在也可以先由国家规定近30个笔划标准,然后由大家分别研究由笔划组字的规律,开发出相应的软件,由它快速地形成方块汉字。为了利用原有的键盘,笔划数最好是26个。应该包括一些结构码,在笔划组字不合规律时用它们来指定结构。像过去研究编码方案追求重码率低一样,这里应追求结构码少,最好是不用结构码。由笔划组成部首、部件或独体字,然后又由它们组成新字,个别复杂的字,可能有几级这样的合成过程。所有这一切,都要由软件来处理。这里看起来很困难,似乎没有可能。我们记得近20年前,汉字输入瓶颈没有解决时,也感到似乎没有可能,悲观到要淘汰汉字的地步。当时谁能料到2-3年内竟涌现出三四百种编码方案,问题竟解决了。相信在新一层的研究中,智慧的祖国人民也能很好地解决这一难题。我在84年开发的袖珍机PC-1500无字库汉字系统,可以说是第一个成功的尝试,它说明这条路是走得通的。
三、抓紧时机,研制汉字电脑
㈠、扭转中文信息化的研究方向,从研究编码转到研究如何由笔划组字的方案上来。上面已充分论述,这不仅是普及电脑,增强国力国威的需要,也是在新技术下进一步发展汉字文化的需要。后者是汉字发展自身的要求。汉字编码的研究,已历时20年,应该说差不多已经到底了。现在还有新编码方案推出,说他的方法多么好,可以不必学习,不必记忆。早有编码的权威人士曾说过,这是不可能的。不可能有一种编码可以不学习,不要记规则。能够学得容易些,少记一些,已是很不容易了。在那些编码的说明中,对几个举例的汉字,是很容易的,但是实际一用,无一不是需要大量死记硬背的。有的宣传,他的编码多么有效,码长甚至降到一字一码的程度。这完全是不科学的欺骗。只用26的字母键,一码一字只能输入26个汉字,2码一字只能输入26*26=676个汉字。所以要能输入全部国标1-2级汉字6768个汉字,至少要三个键(三码一字)。利用一些没有汉字对应的空码来对应词组或句子,可以降低实际的平均码长。但是,即使全部用词组或整句输入,除非只限用有限的词组和句子,否则是做不到一字一码的。如果限用26个句子或26篇文章,还可以做到一码一句或一码一篇文章,岂非更快。但是如果所有汉字的任意组合都有意义,都是可能的话,例如用来输入人名时(实际上这时也有许多组合是不会出现的),就没法降低输入汉字的平均键数。只有在写文章时,可以降低键数。输入任何一篇文章时,它所用的词语总是有限的。并且有些词句重复率很高,只要第一次正确输入后,把它指给某些键,以后就可以一键输入。这样有可能把平均键数降低到1或1以下。但这应该是编辑软件的功能,而不是汉字输入法的功能。所以我认为,汉字输入法的这篇“文章”已经做到头了,不要再在这上面花工夫了。应该立即转到研究笔划组字上来,解决“线性排列的笔划码,如何自动地正确地组成二维结构的方块字”这个新问题。只要国家定出一个汉字笔划的标准,一定能吸引国人发挥才智,像当年解决汉字输入瓶颈一样,解决这个新“瓶颈”。
㈡、从底层开始研制汉字电脑,现在正是好时机,再不能拖了。这是我们的最终目标。上面说的解决组字瓶颈,只是为这一目标服务的方法。要试验解决那个瓶颈,可以在现有的BIOS和操作系统下进行。等问题解决后,就可用到我们所说的汉字电脑上。那个问题没解决,研制汉字电脑是比较难的。首先,在BIOS中就要放汉字字库。如果汉字仍用二个字节的机内码表示,那么所有命令、指令或助记符等,都要2-4个字节以上。研制汉字电脑,实际上就是开发自己的BIOS和操作系统软件。这与前一个问题是不同的,也可以独立解决之。我说现在正是好时机,就是指解决这个问题。现在的操作系统,几乎是微软一统天下。现在它正遇到了挑战,内外都有问题。内部是:为了照顾向下兼容,操作系统版本发展太快,变得十分臃肿,充满无用的垃圾。外部呢?在社会政策上,它要维持垄断地位,推行捆绑销售,在美国本土就受到司法指控;在国外,也树敌颇多,只不过敢怒不敢言而已。在技术上,LINUX的开放系统逐渐壮大,将逐步挤掉它。可惜LINUX不是我国土产。LINUX是在微软一统天下时杀出来的。现在微软已出现裂痕,我国难道不能杀出一支新军来?问题可能因为国人妄自鄙薄,不想从根子上创造我国自己的。也可能时因为国家领导没有及时引导和作出新的策略和政策,鼓励研制自己的电脑。开始可以是低档的,但只要是开放的可扩充的,可以低价销售。因为是汉字电脑,家家都会买,快速普及,再逐步提高。软件一旦有一点改进,大家都可以立即升级。只要维持这样的政策,高效能的汉字电脑很快就会诞生。
㈢、抓紧时机,研制真正的汉字电脑。我一开头就说,世界古代文明,从我们黄河流域开始,一直向西,经过恒河流域,两河流域,尼罗河流域最后到希腊、罗马。18世纪是法国,19世纪是英国,20世纪向西120经度到美国。这两个世纪,使英文成为世界性文字。俗话说:十年财主轮来做。21世纪再向西120度,就该落到我们北京。21世纪应该是中国的世纪,汉字的世纪。但是,21世纪是信息社会,使用的信息工具是电脑,我们再也不能使用英文电脑,让英文扼制我国IT的普及、提高,影响国家的安全和威望。现在,世界霸权主义美国,已发展到顶峰,开始走下坡路,电脑软件垄断大王微软也发展到顶峰,开始碰到了麻烦,我们正应该抓住际遇,开发自己的独一无二的排除一切软件垃圾和英文的汉字电脑,我们可以也必须做到这点。
2001.11.29
陕西省气象局 张时钊 邮编:710015
Email:MZSGLS@pub.xaonline.com
MZSGLS@263.net
http://www.chancezoo.com/
陕西省气象局 张时钊
文明社会以前的人类文明分散在四个地方(应该再加中美洲的玛雅):从中国黄河流域开始,向西依次是印度恒河流域,中东的两河流域及地中海沿岸的尼罗河流域。然后是希腊、罗马。18世纪,科技中心在法国。19世纪已转到“日不落帝国”――大不列颠。文明社会中心从这经度0度开始,20世纪再向西120度,转到了美国(严格按经度算,是在洛杉矶和西雅图,而不是纽约、华盛顿)。现在美国走下坡路的苗头已经呈现。21世纪应该是中国的实际。刚好再向西120度,经济文化中心应落在北京。但新世纪已不是机器、电气的时代,而是电脑、网络的时代。可是电脑是舶来品,我们现在还只是被动地使用。而老跟在人家的屁股后面,难有成就。好在旧电脑科技似乎已经发展到顶峰,缺陷也逐渐暴露。我们应该甩开人家的衣钵,只取已有的好技术,从零创建我们自己的东西。研制真正的汉字电脑可能是其第一步。本文仅分点论述研制汉字电脑的迫切性。
一、从发展我国IT业来看
㈠、英文阻碍电脑在中国普及。现在便宜的电脑比彩电、冰箱还便宜,几乎家家都买得起。大部分家庭都是给上学的孩子买电脑,不买电脑的大多是因为没有人能学会用。政府、单位差不多都配有电脑,但绝大部还只用来打字、玩游戏。这些电脑骨子里都是英文电脑,虽然现在都可以处理中文。中文软件也很多,绝大部分操作电脑的,只是死板地使用这些中文软件,出了点问题就没办法了。它不像其他电器,试试有限的几个键就能摸索会的。电器出现异常的情况数量有限,而且现象特殊。电脑出现异常不知其数,难以预料,多数没有特殊现象,只是显示不同的提示信息。可是它们常常是英文的,不懂英文的看不懂。不要说没学过英文,或者虽然学过,但早已忘掉了的年纪大一点的父辈,就像我这样自学英文40年,近20年与电脑打交道,平常还常看看英文书的,见到大片英文信息也很头痛。当然,我们要普及外语,新世纪的人至少要会一门外语。西方人懂几国语言,比我们中国人懂几种方言,难不了多少,而要我们学会一门拼音语系的语言,确实比较困难。现在已开始重视从小孩子时开始抓外语学习。但是,如果是用这个办法来推广电脑的话,未免太慢了。普及英语的工作做得最好,也要几十年才见效。而在这几十年里,电脑软件可能已经发展了十多代,硬件也可能发展5代以上,我们能等待吗?老跟在别人屁股后面是不行的,我们必须开发出真正的中文电脑。再用12亿人民的聪明才智,定能短时间内发展出完全属于自己的信息技术,水平远远超过人家。这样反过来,外国人倒要学中文,用汉字电脑,中文就成为世界性的了。
㈡、英文影响我国软件业的发展。现在IT产业的重中之重,是软件产业。硬件当然也要发展提高,但光有高水平的硬件,没有相应的软件也是白搭。相反的,在原有硬件的水平下,只要软件充分发展,水平高,也能发挥前所未有的作用。这就是说,现有的软件,远没有用完,可能也用不完硬件的潜力。而软件完全是脑力的无形产品,不像硬件,必须有一定的物质条件,才能生产出有形的硬件来。我国人口世界第一,中国人智商之高也是公认的,硬件落后,软件应该不会落后吧。如果说教育水平影响软件业,我们的教育水平应该不比印度差,但软件业却比不上后起的印度。它们的软件出口挣大钱,软件人员出口也很吃香。究其原因,是印度曾是英国的殖民地,二三百年的殖民地被奴役的生活(全国在英国统治下也达百年)使印度人的英文基础比我们好。这样,我们和印度实际上不在一条起跑线上。我们当然不可能去走人家的老路。但要整体提高国人的英文水平,又不是短时间内能办到的。只要少数人研制出完全脱离英文的汉字电脑,12亿人民个个都很容易投身于软件开发,必可发展出独特而丰富的软件业,自立于世界之林,甚或领先于世界。
㈢、使用英文电脑,使用外国人的软件,还影响我们国家的安全。因为现在互连网已使世界成为一个地球村。人类的活动都逐步转移到网上,包括政府的活动。现在大家都用微软的视窗操作系统,要花钱且不说,使用它还要注册,要把自己的信息传到美国去。您或许可以使用虚伪的注册信息,但您要真正使用电脑,总要把真实情况输入到电脑里,并用电脑处理。人家的软件就可以用一点点窃听程序埋伏在一般软件或操作系统中,自动地收集情报。现在的软件都很大很复杂,而这种像病毒一样的小程序,又没有病毒的可觉察的表现,特别隐秘,不能发现,防不胜防。曾传说,甚至在CPU中都曾埋伏着这种窃听器。这样看,我们使用英文电脑、英文软件,就把自己完全暴露给人家,这是多么危险啊。实际上电脑本没有中文、英文之分,它用的是二进制信号。只不过首先在美国发明,由使用英文的外国人使用并发展软件,所以这些信号都用英文字母表示。从各种门电路及芯片引脚的名称,汇编语言的助记符到高级语言的命令,应用程序的提示和输出信息,都用英文。作为二进制信息的代号、助记符、命令名称等等,显然都可以改成中文,用汉字表示。开始时,硬件做不到这一点。因为无论在显示屏上显示或打印机输出,文字都是由点阵图形产生的。英文,包括标点符号及其他符号,90多个即足够了,每个笔划都简单,而中文则要成千上万个复杂的汉字点阵图形。仅在稍后硬件发展后,可以做成汉卡,才能存到电脑内并可快速输出。现在我们要研究可以只由少数笔划来生成汉字,而笔划种类比英文字母的个数(52个)更少,更不成问题。成问题的是软件系统十分复杂,要从根子开始把英文字母都换掉,工作量十分巨大。但是为了我们祖国和民族,这份工作值得做,可能最终还是不得不做的。
二、从国家、民族和文化前途看
㈠、汉字必须植根在电脑上。人类个体为了生存必须组成社会、民族,而维系社会或民族的纽带则首推语言和文字。我们中华民族是世界上最大、历史最悠久最稳固的民族,其中汉字起了决定性的作用。而方块汉字又是世界上唯一的、最独特而优秀的文字。曾经有一段时期,认为它落后,不适合信息处理,而现在有越来越多的事实和理由证明,她是最适于信息处理、最有效果最先进的文字。关于她的优势,留待另一处讨论。有生命力的文字,必须能继续发展。英文及其他拼音文字,已形成只有少数字母的格局。其发展只能由字母线性排列形成新单词。单词和词组越来越长,有时还难以表示越来越丰富的事物和思想。太长、太臃肿,效率更低,必然要采用缩略语。因为只有这么几个字母,只有这有限的组合,所以重复太多。一个缩略语竟可以指几十种事物,分不清楚,且与它的原词组联系很差。当然也可能出现新符号、新字母,但这一定要经过很长的时间。字母少而固定,这是它的长处,适应于电脑的少数键位,并且只需要少数的字模。汉字恰恰没有这个特性,每个汉字不可能安排在少数的键位上。难于输入,也难于显示。前者最后用编码的方法解决,后者则用很大的字模字库来解决。编码时需要研究汉字拆分,这时首先注意到传统字典所用的部首。部首加上必要的一些独体字,可以组合出所有的汉字来。可惜它们的数量仍然太多,使得这一途径没有发展起来。大陆的汉字字模是一字一个,不到7000的显示字库都达260KB。只有台湾朱邦复开发的汉字系统,采用拼字的方法,只要160KB的字库,就可生成1000万种字形。在汉字输入方法上,是把部首等按形状近似加以归并,使总数降到26个左右,然后用英文字母进行编码。编码方案追求的是一种记忆量最少的归并方法和编码规则,使得编码码长短而重码率低。用这种方法把汉字和计算机联系起来,或者说植根于计算机,永远有三个缺点:必须通过英文;必须有大字库、字模;不能自然而快速地造新字。我们必须另外寻找更好的把汉字植根于电脑的方法。
㈡、汉字植根于电脑的方式,决定未来汉字的发展前途。据考证,我们的汉字已有5-6千年历史。汉字发展除有内在规律外,承载汉字的介质的改变有较大的影响。开始的时候,是用小棍子刻在陶土做的容器表面上,再烧制成陶器。这时文字较低级,更近于图画,显然在软的泥面上画图也较方便。到发明了青铜器后,金属利器可以在龟板和骨片上刻字了,直到后来刻再竹片上。因为介质是长形的,且表面弯曲成筒状,刻字从上到下,比较容易,所以形成汉字竖行书写。介质较硬,难以刻成图形,所以各类近似的图形消失了,逐渐形成以横、竖、点、撇、捺等笔划为主的方形汉字。其中隶体的“蚕头燕尾”,显然最适合于竹片上刻写。而楷书、草书,只有在有了毛笔之后才有可能发展起来。三千多年来,文字载体已变了数次,以横竖点撇捺为主的30来种笔划已经固定。以后文字的载体应该逐渐以电脑为主了。电脑上可以画任意图形,而且文字将不会主要靠手书写,将来的汉字字形似乎会完全自由地发展。但是文字发展还有自身内在的规律。出现毛笔以后,主要是为了写字快而发展出草体,即使如此,主体汉字字形及笔划类型,基本没变。相信在电脑这种载体上,这些特点应该仍会基本保持不变。目前汉字植根电脑的方式是字模加编码。字模是专业人员按已存在的字形设计的,而设计编码是纯粹是为了方便输入汉字。这些都是少数专业人员干的事。虽然造一个新字的字模不很难,但一般人不会去造一个全新的字形,造出来后也难以进入所有电脑的汉字系统里,不能流通供大家使用。过去用笔写,则很容易写出一个新字,大家模仿使用并逐渐改进推广。我们说过,英文的字母已基本固定,造新字母较难,而产生出一个新单词是很容易的,实际上也时时在进行着。我国汉字的情况是,造新词与造英文单词一样快,而新汉字的出现并推广自然要慢得多,但比英文字母就不知容易多少倍, 如每发现一个新化学元素几乎都要造一个新字。大部分新汉字是用形声法由偏旁部首合成的。偏旁部首大部在左边,也有在上边,另一些是在它的内部、右上部、左下部,还有少数是在其左下部写新的部分。这些已有一些固定的规律,这些规律比起英文只在其前面加前缀或后面加后缀形成的线性结构复杂得多。这就是汉字的二维结构。实际上,30来种笔划之间的关系也有一些规律性。把这些规律性总结出来,固定下来,那么按线性顺序排列的笔划,也就会形成一定的二维平面的方块字了。这套规律,就是汉字植根于电脑的新方式,根据这种约定的办法,任何人都可敲敲键盘就很容易地创造出新字来。这样的新字是由固定的笔画组成的,不依赖于字库,就能够交流推广。显然,这种汉字植根于电脑的方式,影响汉字的未来发展。
㈢、必须在新技术条件下,形成一套最优化的植根于电脑的方式。在我国五千年的汉字发展过程中有几次由个人或由国家进行的划时代的工作:总结过去的成就,奠定日后的发展基础。进入电脑时代,1980年由国家制定的国标码,即使它也不是十全十美的,但其作用十分巨大,使得20年来中文的信息处理得以有序地进行。至于字模的建立,字形的改进,其重要性要差一点。而编码输入法,其重要性不亚于国标码,如果汉字仍难于输入电脑,国标码也无用武之地。由于输入法较难标准化,至今还在百家争鸣,没有统一,也没有最好的。现在要研制汉字电脑,要求汉字植根于电脑的方式要再深入几个层次:只由键盘输入少量的笔划,电脑就可组合出完整的汉字来。参照以前成功的经验,国家只定国标码,再由大家开发各种输入法;现在也可以先由国家规定近30个笔划标准,然后由大家分别研究由笔划组字的规律,开发出相应的软件,由它快速地形成方块汉字。为了利用原有的键盘,笔划数最好是26个。应该包括一些结构码,在笔划组字不合规律时用它们来指定结构。像过去研究编码方案追求重码率低一样,这里应追求结构码少,最好是不用结构码。由笔划组成部首、部件或独体字,然后又由它们组成新字,个别复杂的字,可能有几级这样的合成过程。所有这一切,都要由软件来处理。这里看起来很困难,似乎没有可能。我们记得近20年前,汉字输入瓶颈没有解决时,也感到似乎没有可能,悲观到要淘汰汉字的地步。当时谁能料到2-3年内竟涌现出三四百种编码方案,问题竟解决了。相信在新一层的研究中,智慧的祖国人民也能很好地解决这一难题。我在84年开发的袖珍机PC-1500无字库汉字系统,可以说是第一个成功的尝试,它说明这条路是走得通的。
三、抓紧时机,研制汉字电脑
㈠、扭转中文信息化的研究方向,从研究编码转到研究如何由笔划组字的方案上来。上面已充分论述,这不仅是普及电脑,增强国力国威的需要,也是在新技术下进一步发展汉字文化的需要。后者是汉字发展自身的要求。汉字编码的研究,已历时20年,应该说差不多已经到底了。现在还有新编码方案推出,说他的方法多么好,可以不必学习,不必记忆。早有编码的权威人士曾说过,这是不可能的。不可能有一种编码可以不学习,不要记规则。能够学得容易些,少记一些,已是很不容易了。在那些编码的说明中,对几个举例的汉字,是很容易的,但是实际一用,无一不是需要大量死记硬背的。有的宣传,他的编码多么有效,码长甚至降到一字一码的程度。这完全是不科学的欺骗。只用26的字母键,一码一字只能输入26个汉字,2码一字只能输入26*26=676个汉字。所以要能输入全部国标1-2级汉字6768个汉字,至少要三个键(三码一字)。利用一些没有汉字对应的空码来对应词组或句子,可以降低实际的平均码长。但是,即使全部用词组或整句输入,除非只限用有限的词组和句子,否则是做不到一字一码的。如果限用26个句子或26篇文章,还可以做到一码一句或一码一篇文章,岂非更快。但是如果所有汉字的任意组合都有意义,都是可能的话,例如用来输入人名时(实际上这时也有许多组合是不会出现的),就没法降低输入汉字的平均键数。只有在写文章时,可以降低键数。输入任何一篇文章时,它所用的词语总是有限的。并且有些词句重复率很高,只要第一次正确输入后,把它指给某些键,以后就可以一键输入。这样有可能把平均键数降低到1或1以下。但这应该是编辑软件的功能,而不是汉字输入法的功能。所以我认为,汉字输入法的这篇“文章”已经做到头了,不要再在这上面花工夫了。应该立即转到研究笔划组字上来,解决“线性排列的笔划码,如何自动地正确地组成二维结构的方块字”这个新问题。只要国家定出一个汉字笔划的标准,一定能吸引国人发挥才智,像当年解决汉字输入瓶颈一样,解决这个新“瓶颈”。
㈡、从底层开始研制汉字电脑,现在正是好时机,再不能拖了。这是我们的最终目标。上面说的解决组字瓶颈,只是为这一目标服务的方法。要试验解决那个瓶颈,可以在现有的BIOS和操作系统下进行。等问题解决后,就可用到我们所说的汉字电脑上。那个问题没解决,研制汉字电脑是比较难的。首先,在BIOS中就要放汉字字库。如果汉字仍用二个字节的机内码表示,那么所有命令、指令或助记符等,都要2-4个字节以上。研制汉字电脑,实际上就是开发自己的BIOS和操作系统软件。这与前一个问题是不同的,也可以独立解决之。我说现在正是好时机,就是指解决这个问题。现在的操作系统,几乎是微软一统天下。现在它正遇到了挑战,内外都有问题。内部是:为了照顾向下兼容,操作系统版本发展太快,变得十分臃肿,充满无用的垃圾。外部呢?在社会政策上,它要维持垄断地位,推行捆绑销售,在美国本土就受到司法指控;在国外,也树敌颇多,只不过敢怒不敢言而已。在技术上,LINUX的开放系统逐渐壮大,将逐步挤掉它。可惜LINUX不是我国土产。LINUX是在微软一统天下时杀出来的。现在微软已出现裂痕,我国难道不能杀出一支新军来?问题可能因为国人妄自鄙薄,不想从根子上创造我国自己的。也可能时因为国家领导没有及时引导和作出新的策略和政策,鼓励研制自己的电脑。开始可以是低档的,但只要是开放的可扩充的,可以低价销售。因为是汉字电脑,家家都会买,快速普及,再逐步提高。软件一旦有一点改进,大家都可以立即升级。只要维持这样的政策,高效能的汉字电脑很快就会诞生。
㈢、抓紧时机,研制真正的汉字电脑。我一开头就说,世界古代文明,从我们黄河流域开始,一直向西,经过恒河流域,两河流域,尼罗河流域最后到希腊、罗马。18世纪是法国,19世纪是英国,20世纪向西120经度到美国。这两个世纪,使英文成为世界性文字。俗话说:十年财主轮来做。21世纪再向西120度,就该落到我们北京。21世纪应该是中国的世纪,汉字的世纪。但是,21世纪是信息社会,使用的信息工具是电脑,我们再也不能使用英文电脑,让英文扼制我国IT的普及、提高,影响国家的安全和威望。现在,世界霸权主义美国,已发展到顶峰,开始走下坡路,电脑软件垄断大王微软也发展到顶峰,开始碰到了麻烦,我们正应该抓住际遇,开发自己的独一无二的排除一切软件垃圾和英文的汉字电脑,我们可以也必须做到这点。
2001.11.29
陕西省气象局 张时钊 邮编:710015
Email:MZSGLS@pub.xaonline.com
MZSGLS@263.net