汉语的根字和字族——面向知识处理的汉语基因工程,本文主要内容关键词为:汉语论文,基因工程论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]H08 [文献标识码]A [文章编号]1003-7365(2003)03-0001-10
跨入二十一世纪,面临知识经济社会。随着知识爆炸式增长,人类面对许多“新词”,电脑也将面对许多“未登录词”。尽管“新词”激增,但“汉字”数量却未增。《现代汉语词典》(2002增补本)后面水红色纸增补了1200条“新词”,而前面白色纸的正文却一个“单字条目”也未增。这证明了:汉族人既有用旧字造新词的创造力,又有看旧字懂新词的领悟力。
我国人工智能学者和语言学者要通力合作,让电脑模拟汉族人看旧字懂新词的智力。这就应促使“汉语基因工程”上马,即把字符当作汉语的“基因”,构建各级“意序模式库”,阐明造字、造词和造句的“意合规则”。这有助于电脑的知识处理,有助于对外汉语教学,要教外国学生也像汉族人一样,有看旧字懂新词的领悟力和把新知识“意译”为汉语时有用旧字造新词的创造力。
我国台湾学者朱邦复先生在“汉字基因工程”方面已经先行一步。韩英铎院士1999年在《计算机世界》上发表了《汉字基因论及在信息时代将引发的革命》。大陆的学者要迎头赶上。
笔者所主持的“国家语言文字应用‘十五’科研项目”是在进行初步的探索,也是为大规模的“汉语基因工程”的上马做前期准备或小规模演习。祈望得到语言学家的指教。
一、生物遗传基因研究对语言研究的启示
1.1 上世纪和本世纪之交最大的科技突破是“人类基因图谱”的测序。突破点是“基因”,突破方法是用信息观点和信息技术来测定基因的“排序”。生物学家在研究基因编码时查明:不同的DNA的差异在于所含的四种碱基(A,C,G,T)有不同的“排序”。运用信息技术可以测定全部“基因”的排序。生物遗传基因研究对语言研究的启示主要有两点:一是要探索并确定语言的“基因单位”;二是要探索并构建由基因单位层层组成较大语言单位的“意序模式”。
1.2 生理遗传的“基因”和人文遗传的“敏因”。
布莱克茉尔(S.Blackmore)在The Meme Machine中提出:人类既有生理遗传gene(基因),又有人文遗传meme。戴浩一(2002)在《概念结构与非自主性语法:汉语语法概念系统初探》中指出:人类的语言既受生理遗传gene的影响,也受人文遗传meme的影响。戴先生这篇用中文在《当代语言学》发表的论文中未给出meme的中文译名,我们建议把meme译为“敏因”。因为meme既然是“人文的、智力的、历史的”、遗传的“因”,跟“基因”相提并论,就应该译为“□因”。考虑到“敏”字有一个义项是“敏慧”(聪明智慧),并且“敏”字有三个部件:左上角和右偏旁的“攵”理解为“人文”,左下角的“母”理解为是由“父母”遗传的。所以,“敏因”意为“父母遗传的人文基因”。不知这样翻译是否合适,敬请专家指正。
本文认为,汉族人有用旧字造新词和看旧字懂新词的能力,一方面有后天环境中“习得”的原因,另一方面也有天生的人文遗传“敏因”(meme)的作用。是否如此,还有待证明。
二、汉语是汉族人对知识的编码系统
2.1 人类通过感觉器官(眼睛、耳朵等)和知觉器官(大脑),对“客观世界”的信息进行接收和加工,在大脑中形成了“认知世界”即有了“知识”。要使知识能“储存”和“传播”,需要对知识进行“编码”,即把知识编成一套符号系统。汉语是汉族人对知识的编码系统,它体现了跟汉族人认知模式侧重于“整体感知、意象思维、类比推理”的特点密切相关的编码机制。
徐通锵先生在《语言论》中指出:汉语社团的思维方式集中表现为“比类取象”和“援物比类”。汉语的编码机制一开始就偏重于符号的音义结合的理据性。向徐先生当面请教之后,我们认识到,汉语的语言编码机制可以表述为:援物、取象、谐声、对偶、比类、意合、简约。
“援物”是以客观物质世界为临摹的依据,在约定性之中尽量体现汉语的“理据性”。
“取象”是临摹客观的物体形象和事件序象,并加以符号化来体现汉语的“象似性”。
“谐声”是在视觉符号记事的基础上提高其示音性,在韵律上体现汉语的“和谐性”。
“对偶”是单音节规整、双音节稳定、排句谋篇讲对称,以之体现汉语的“齐整性”。
“比类”是造字构词时按意分类、按类联想,在知识的聚合上体现汉语的“系统性”。
“意合”是造句时只求意义合理、略于形态,在知识的组合上体现汉语的“朴实性”。
“简约”是利用语境条件,在明确的前提之下力求语言简洁以体现汉语的“经济性”。
2.2 汉语的基本结构单位是“字”(gram)。
2.2.1 索绪尔指出,人类只有两种文字的体系:表意体系和表音体系。他说:“表意体系是一个词只用一个符号表示,而这个符号却与词赖以构成的声音无关。这个符合和整个的词发生关系,因此也就间接地和它所表达的观念发生关系,这种体系的古典例子就是汉字。”(参见《普通语言学教程》50页,商务印书馆1982年版,下划线为笔者所加。)
由于认知模式侧重“整体感知”,汉族人对语音的敏感单位是“音节”。汉族的初民用一个音节表示一个概念,使古汉语成为“单音节语言”(monosyllabic)。
汉语音节的边界分明,一个音节就是语音流中的一个“响度峰”。
汉语音节的“规整性”表现为下列两个特点:
(1)汉语音节最多4个音位:声母、韵头、韵腹、韵尾。英语音节的音位可有很多。
(2)汉语音节只有24个类型。英语音节的类型多到难以统计。
汉族初民在“整体感知”认知模式的影响下,用一个“规整性”的音节跟一个“方块性”的字形相结合,去表示一个“基元性”的概念,从而造出了音、形、义“三位一体”的语言单位“字”(gram)。过去把“字”翻译为英语的character,这不太合适,因为character实际上指的是“字形”。广大汉族人所说的“字”不仅仅指“字形”,而且指“字音”。例如“吐字清晰”指的就是字音,“字正腔圆”指的也是字音。每个“字”都有各自的字音、字形、字义。
2.2.2 最初阶段的汉字在“结绳记事”和“画图记事”的基础上发展为“字符记事”。如《周易》所说的“立象以尽意”。汉字最初如索绪尔所说“与词赖以构成的声音无关”。于是就出现了汉语“语音和文字是并行”而英语“语音和文字是串行”的鲜明对比。
英语反映客观世界,单线发展,一脉相承。“语音符号”和“文字符号”是串行的。
客观世界的“
2.2.3 汉语造字法发展的三个阶段:
(1)形象记事阶段 用“记象”和“记事”的方法造字。即用“象形、指事、会意”的方法造出一些意义具体形象的字。如“日、月、人、木、刀、刃、本、旦、明、休”。这种造字法有很大的局限性,很难造出意义抽象的字。所以这种方法造的字量比较少,满足不了需要。
(2)借音记事阶段 用“假借”的方法,即借已有的同音字来另造抽象的字以满足需要。如“其[簸]”借作“其[他]”,“益[漫]”借作“益[利]”。甲骨文中有大量的“假借字”。
(3)形声记事阶段 用形旁标类、声旁示音、整字记事的方法造字。上面所说的“其[簸]”、“益[漫]”分别写成“箕”、“溢”。形声造字法使汉字走上“字形跟字音相关”的康庄大道。在《说文》中的形声字比例已达80%以上,以后这个比例有增无减。
2.2.4 现代汉字是“标类示音的记事文字”。
其实,文字不应该分为“表音文字”和“表意文字”。所有的文字都是“表意”的,仅仅是表意的手段不同而已,有的用“记音”的手段表意,有的用“记事”的手段表意。所以,文字应该分为“记音文字”和“记事文字”。英文是“记音文字”,汉字是“记事文字”。
作为“记事文字”的汉字,虽不“记音”,但可“示音”。以“形声字”为主流的汉字也发挥了“提示字音”的功能。所以现代汉字的性质是标类、示音的“记事”文字。
2.2.5 一个单音节·一个方块形·一个基元意的“字”是汉语的基本结构单位。
徐通锵先生1992年《在“结合”的道路上摸索前进》(香港,Newsletter,No.13)一文明确提出:汉语基本结构单位是“字”,英语等印欧语的基本结构单位是“词”(word)。
吕叔湘先生早在1980年就说过:“词”在欧洲语言里是现成的,语言学家的任务是从词分析语素。汉语恰好相反,现成的是“字”。汉语里的“词”之所以不容易归纳出一个令人满意的定义,就是因为本来没有这样一种现成的东西。(《语文常谈》P.45,三联书店)
赵元任先生在进行了长期的汉英对比研究之后,于1975年做出了精辟的论断:汉语是不计“词”的。在中国人的观念中,“字”是中心主题。(《赵元任语言学论文选》P.248)
考虑到“字"(gram)的多义性,我们建议把汉语的基本结构单位定为“字”的一个义项,可称为“语位”或“字位”(grammeme),在不引起误解的条件下也可简称为“字”。
(1)“声位”(单音节)由“声母”、“韵母”、“声调”组成。
(2)“形位”(方块形)由“字符”组成。字符分为三种:声符、意符、标符。
(3)“意位”(基元意)相当于汉字的一个“义项”,有定型化的表示法。
2.2.6 英语语素是二元的最小的音义结合体。英语是“线性”的语言。汉语字位是三元的最小的音形义结合体。由于字音有“声调”而字形是“方块”,汉语是“非线性”的语言。
2.2.7 汉语中只有“字”和“字组”而没有现成的“词”。
把英语的word译为“词”,把phrase译为“短语”,我国的语言学家就在研究哪几个字的组合是“词”,哪几个字的组合是“短语”。编《汉英词典》的学者说“猪肉、牛肉、羊肉”都是词,它们分别对应于“pork,beef,mutton”。编《现代汉语词典》的学者说“猪肉=猪的肉”,“牛肉=牛的肉”,“羊肉=羊的肉”,都是短语。在《现代汉语词典》上查不到这三个词条。汉语中还有“洗澡→洗个热水澡”、“结婚→结过两次婚”之类的所谓“离合词”。
把汉语语言单位定为“字”和“字组”,则“固定字组”相当于“词”,“自由字组”相当于“短语”。遇到“猪肉、牛肉”或“洗澡、结婚”之类不容易分清时,一律作为“字组”处理,可以采取比较宽松的态度。为了尊重已有的说法,我们也把“固定字组”称为“词”。
从我国现有辞书来看,也证明汉语中有“字”和“字组”而没有“词”。学术界公认为最权威的《现代汉语词典》实际上是《现代汉语“字组”典》。因为在该辞书的“凡例”中这样写着:(a)单字条目按拼音字母顺序排列,(b)单字条目下所列多字条目依第二字拼音字母顺序排列。
2.2.8 汉语的“字”具有灵活的“可拆装性”。
公 male 母 female小 young
猪 pig swine[集体] 公猪 boar
母猪 sow 小猪 piglet
马 horse 公马 stallion
母马 mare小马 foal小公
(母)马colt
牛 ox cattle[集体] 公牛 bull
母牛 cow 小牛
calf
羊 sheep 公羊 ram母羊 ewe 小羊 lamb
鹿 deer
公鹿 stag
母鹿 doe 小鹿 fawn
在上面的表中,汉语只用了8个基本单位“字”,英语用了27个基本单位“words”。
再从下面的表中可知,汉语通过逐步组成有理据的“造词模式”来表达逐步复杂的新概念,就是在旧知识的基础上引入新知识。但是英语引入新知识时却抛开了旧知识而另起炉灶。
□牛 水牛
海牛 牦牛 羚牛 犀牛
buffalomanatee yak takin rhinoceros
牛 牛黄
牛瘟 牛犊 牛虻 牛劲
bezoar
rinderpest
calf gadflystubbornness
ox牛□ 牛奶milk
牛奶□
牛奶场dairy
牛奶糖toffee
牛颈肉牛胸肉 牛腰肉
chuckbrisketsirloin
牛肉beef
牛□肉
牛胫肉牛臀肉 牛腿肉
shank rump
round
每个民族的语言都是“约定性”的,都包含“任意性”和“理据性”,但二者的比重不同。说英语词汇“任意性”较多,并不否认其“理据性”,特别是英语中以“派生法”构成的词是有“理据性”的。只是英语的“派生构词法”有两点局限:(1)“派生法”的覆盖面不够大,许多常用的基本的多音节词都不是“派生法”构成的。(2)“派生法”的词素来源于许多语种(古英语、拉丁语、希腊语等),表示同一概念的词素由于不同来源而有不同的形式。如表示基本概念“水”的词素至少有三个来源的三种形式,而很多含“水”的词素义的词却并不含这三种词素。
①water{古英}:watercolor[水彩],waterwheel[水车],waterproof[防水],watery[含水的]
②aqua{拉丁}:aquatic[水的],aquarium[水族馆],aqueous[水中的],aquaplane[水橇]。
③hydr{希腊}:hydropower[水力],hydrate[水合],hydrofoil[水翼船],hydrolysis[水解]。
④不含上述三种词素:moisture[水分],reservoir[水库],flood[洪水],inundation[水灾],slops[泔水],saliva[口水],brine[(腌菜)盐水],syrup[糖水],soapsuds[肥皂水],ink[墨水],mucilage[胶水],scent[香水],dive[潜水],sump[(矿底)水坑],spray[水花]。
说汉语词汇“理据性”较多,并不否认其“任意性”。“水”为什么读(shui),这有“任意性”,但一经“约定”后,再造跟“水”的意义有关的新词时必定含有“水(shui)”的字位,不会像上述④的英文那样看不出跟“水”(water,aqua,hydr)在意义上的任何联系。
再来看一看汉字的“可拆装性”。以汉字“车”为例并进行汉英对比:
2.2.9 一个语言单位是否“基本单位”,要看它能否导出(析出、组成)其它语言单位。
汉族人学英语是先学了较多的words(词)以后,才能从中析出morphemes(词素)。上表中的tract-,con-,or-,-al都是析出单位。单写or是“或”,只有从or-al(口腔的、口述的)、or-a11y(口头上)、or-atory(口才)等多个词中才能析出or-的意义为“口”。
外国人学汉语是先学了较多的“字”以后,才能从中析出“字符”(gram-symbol)的意义。从“银、铜、铁”中析出“钅”意为“金”,从“凉、冻、冰”中析出“冫”意为“冷”。
2.3 从古汉语向现代汉语的发展中出现了下表所示的三个时期。第一时期造“单字”,第二时期造“合成字”,第三时期造“双字组”。以后逐步淘汰罕用字而发扬汉字可拆装性的优势,几千年来维持着五千个左右的“通用字”,以有理据的方式构造了数以万计的“字组”。
如今,呈现了“知识数量爆炸,英语单词数量爆炸,汉字数量不爆炸并且守恒”的局面。
在汉语字数基本守恒的条件下,“双字组”的数量和比重日益增加,这还有下列原因:
(1)从意义上看,单说一个字,不知道是哪个义项而意义不确定。如“文”有多个义项而“文字、文章、文学、文艺、文科、文雅;公文、论文、古文、斯文”的意义都是确定的。
(2)从韵律上看,[双音节]是一个“音步”(foot),无论出现在句尾还是句中都很和谐。至于[单音节],在句尾是和谐的,不在句尾就可能不和谐。我们用[1]来代表[单音节],用[2]来代表[双音节],把汉语的语言节奏规律总结为:[2n]或[2n+1]。
“削苹果皮刀”[1+2+1+1]别扭,“苹果削皮刀”[2+2+1]和谐。
“制电影片厂”[1+2+1+1]别扭,“电影制片厂”[2+2+1]和谐。
(3)从效率上看,出现了很多“缩略词”。北京大学→北大,“北”增加了新的义项“北京的简称”(北航、北外、北语、北影)。从“四字语”压缩成“双字组”,这就从数量上增加了“双字组”在现代汉语词汇中的比重。
2.4 汉语“个个音节都表意”,所以汉语对待“外来语”的吸收是尽量地“意译”。如果当时找不到合适的“意译”就暂且“音译”,以后找到了合适的“意译”就淘汰掉“音译”。
1919年“五四”运动时,Democracy刚传入中国,当时音译为“德谟克拉西”。后来在土地革命时期才意译为“民主”。想一想,如果去发动广大农民起来参加土地革命的口号是“我们要德谟克拉西!”会是什么效果,如果口号是“我们要民主!”又会是什么效果。农民们都理解“民主”的意思是“人民做主”,就是“贫苦农民要做土地的主人”、“劳动人民要做国家的主人”。汉族人习惯于“顾名思义”,翻译外国人名中的na,男人名译为“纳”,女人名就译为“娜”。在翻译外国商品的名称时,更是极尽“译音谐意”之能事。例如,把外国的饮料Coca-Cola译为“可口可乐”,产生了“喝着味道好极了(可口)”和“喝完心情好极了(可乐)”的广告效果。
三、人脑的“知识网络假说”和电脑的“知识网络模拟”
我们假设在人脑中存在着“知识网络”,通过构建电脑“语料库”、“知识库”和编制“人工智能程序”的方法来研制一套“系统软件”,使电脑模拟“人脑的知识网络”。这里说的模拟是“功能模拟”,即把人脑看做“黑箱”,只要输出的结果达到预想,模拟就算成功。
3.1 下面只简介有关的语言学理论研究,以求得语言学专家的指教。
假设人脑中的“知识网络”分为:动态的“知识组合网络”和静态的“知识聚合网络”。
动态的“知识组合网络”是知识网络的主网络,有“语篇网络”、“语段网络”、“语句网络”、“语块网络”。通过“语块网络”激活和调用相关的“知识聚合网络”。
静态的“知识聚合网络”是知识网络的子网络,有“字元网络”、“根字网络”、“通字网络”、“字偶网络”。其中的“通字网络”和“字偶网络”被“知识组合网络”所调用。
各级网络都有“生成模式库”和“生成规则库”。
3.2 静态的“知识聚合网络”是人类知识的材料库,或者说是人脑中的“概念系统”。因篇幅限制,不能在此介绍“知识组合网络”,可参看文献[8]。
3.2.1 不同的民族有不尽相同的“静态知识聚合网络”。人类都生存在同一个地球上,各民族的“认知模式”有相当大的共同性;但是各民族有不同的生活地域、人文环境、历史机遇,因而各民族的“认知模式”也有一定差异。语言是人类对认知世界里的知识的编码系统,所以不同民族在“静态知识聚合网络”方面的差异就表现在不同民族的语言编码机制上。从以上对汉语编码机制的讨论中可以看到汉语跟英语在语言编码机制上的不同。
3.2.2 汉族人的“知识聚合网络”中,每个“节点”(node)贮存一个“字”(gram),节点之间的“有向弧”(directional arc)连接相关的“字组”。英语的知识聚合网络的“节点”贮存一个“词”。增加一个表示新知识的新词时,英语的知识聚合网络就得增加一个新词的“节点”,但是汉语基本上不需要增加新的“节点”,只在原有“节点”之间增加新的“有向弧”就行了。
在汉族人的“知识聚合网络”中,本来节点“激”和“光”之间未连线,而各自跟其它节点相连构成“过激、感激、激动”和“感光、反光、光辉”等。在英语laser传入以后,刚开始译为“莱塞”,汉族人不喜欢音译,于是又译为“镭射”,反而使人们误认跟“镭的放射”有关。最后有人想到把本来没有连线的“激”和“光”两个节点之间连上就行了。这是汉族人用旧字造新词的创造力。
别的汉族人对这个音译词“激光”是否具有看旧字懂新词的领悟力呢?他要先判断“激光”的造词模式。以“光”为末尾字的词模“□光”主要有两种:一是“补合式”:杀光、抢光、烧光、吃光、用光:一是“加合式”:日光、月光、荧光。显然“激光”不像“补合”而是“加合”,其词模意义为“由□产生的光”。所以普通的汉族人看到“激光”就能够通过推理判断而懂得其意义是“由激而产生的光”。这就充分体现了汉族人既有用旧字造新词的创造力,又有看旧字懂新词的领悟力。
四、汉语基因工程的内容
4.1 五百“根字”。现代汉语的“根字”是在《3500常用字表》之内的常用字,并且有较强的“构字能力”和“构词能力”的汉字。如果一个常用字作为“字符”所构成的“合成字”在《7000通用字表》中达到或超过4个(其中2个以上为常用字),此字即为“根字”(root-gram)。
4.1.1 “根字”也就是成字的“字符”。“根字”还包括“不成字的字符”,要给出其“名称”,并且规定6种定型的“表示法”(取其“名称”第一个拼音字母):
(1)字的上部称为“头”,记做T,如“草T”,读做“草字头”(艹):芽、苗。
(2)字的下部称为“底”,记做D,如“弄D”,读做“弄字底”(廾):弃、弈。
(3)字的左部称为“旁”,记做P,如“冰P”,读做“冰字旁”(冫):闵、冷。
(4)字的右部称为“边”,记做B,如“福B”,读做“福字边”(畐):副、富。
(5)字的外部称为“框”,记做K,如“匣K”,读做“匣字框”(匚):匾、区。
(6)字的内部称为“心”,记做X,如“巨X”,读做“巨字心”():假、兜。
4.1.2 “字符”是造字的直接构件,至少具有“示音、指意、标形”中的一种功能。
4.1.2.1 声符(phonotactic symbol)是能提示某种近似声音从而引起整字声音联想的字符。
汉字的声符提示某种近似声音而不全都准确注音,是因为形声法造字的目的是“分化”,既要分化“同形字”,也要分化“同音字”。设想初民为了撑船需要一根高的竹竿,他为此造了一个字,字形是“篙”,字音是(gao)。后来见到一种很高的草,又造了一个字,字形是“蒿”,假如字音仍是(gao),岂不是没有“分化”同音字,反而“增加”了同音字吗?于是我们的祖先就让声符按其所在的小组提示近似声音,既避免了增加同音字,也可在确定的范围之内联想字音。
声符“高”在(g,k,h)组,可造“膏(g-)、犒(k-)、蒿(h-)”等字。这一组的例字如下表:
4.1.2.2 意符(semotactic symbol)是能指出某种类别意义从而引起整字意义联想的字符。
英汉对照“元素周期表”中,英语元素名称一百多个形状,但汉语元素名称却是四大类:
(1)带意符“气”的常温下是气体:氢、氧。(2)带意符“水(氵)”的是液体:汞、溴。
(3)带意符“石”的是固体非金属:硅、硫。(4)带意符“金(钅)”的是金属:钾、钙。
4.1.2.3 标符(graphotactic symbol)是既不提示声音,也不提示意义,仅标明字形的字符。
(1)第一类[标符]是“指事”字中的指示符,如“本”字的[意符]是“木”,[标符]是字的底部的“一横”,它标明了“本乃木之根也”。又如“刃”字中的“一点”也是标符。
(2)第二类[标符]原为[声符]或[意符],在历史演变中已变得既不“示声”也不“指意”。繁体字“鄧”左偏旁“登”[声符],简化字“邓”左偏旁“又”[标符]。“骗”原义是“抬起一条腿飞身上马”,左偏旁“马”[意符];假借为“骗(欺~)”,左偏旁“马”就成了[标符]。
(3)第三类[标符]是从“复合字符”中分化出来的。如“旗”字的[声符]是“其”,[意符]本来是个复合字符“”。后来为了教学的方便,把“旗”字的[意符]简化为“方”,于是剩下的“”就只能算做[标符]了。《现汉》和《新华字典》中“旗、旌、族”的部首都是“方”。
4.1.3 以S、Y、B分别代表“声符、意符、标符”,汉字的“合成字”可分为5种类型:
(1)YS型:赶、雹;(2)YY型:明、采;(3)YB型:邓、刃;(4)SB型:骗、诛;(5)BB型:朕、圣。
4.1.4 主要作意符的140个“根字”反映了汉族初民所建立的“基本概念分类系统”:
表中有40个带下划线的“根字”,既可作[意符],也可作[声符]。
4.1.5 其余360个“根字”主要作[声符]。跟上述也可作[声符]的40个“根字”相加共计400个,大致相当于汉语400多个不带调音节的示音字。这360个示音的“根字”分为六组:
第一组:声母b p m f,准声母w y(u)。[74字]。
b:巴半邦保卑比必辟扁宾并丙不拔B博B兵T弊T(敝)脖B(孛)。 p:旁朋票平陪B。
m:麻曼矛眉每蒙免苗名末莫某满B。 f:番凡反非分丰夫甫付峰B(夆)佛B(弗)福B(畐)浮B(孚)。
w:王亡危委未胃畏文我乌吴五勿伟B(韦)温B(昷)涡B(呙)。
y(u):于予原员云匀愚T(禺)愉B(俞)怨T(夗)。
第二组:声母d t n l。[66字]
d:代单旦当登帝店丁定冬东段兑朵答D第D碟B度T堵B低B(氐)滴B(啇)端B(耑)。
t:它台太唐累廷同童屯掏B。 n:那乃难内尼宁农奴。
l:来赖兰劳离里厉利连良列林龙娄卢录仑罗吕览T郎P留T流B僚B(尞)鳞B(粦)陵B(夌)。
第三组:声母g k h,零声母。[43字]
g:干敢高告各更工公共勾古谷官贵果隔B(鬲)根B(艮)灌B(雚)桂B(圭)。
k:考可夸昆抗B(亢)快B(夬)框B(匡)。
h:合侯胡化黄皇灰回会汉B毫T核B(亥)喝B(曷)换B(奂)。 :安傲B(敖)鳄B(咢)。
第四组:声母j p x,准声母y。[93字]
j:吉及己既夹加甲间兼建焦交皆解介今京竞井久居巨具句军君辑B坚T经B捐B纠B(丩)卷T()假B(叚)贱B(戋)谨B(堇)。
q:其奇齐乞岂千前乔且青秋求区取全侵B签D(佥)巧B(丂)。
x:昔西希喜先咸相襄享向肖星秀需宣玄旬形P晓B(尧)陷B(臽)。
y:牙延炎奄央舀夭也夷乙易亦义因婴用尤由扬B摇B营T。
第五组:声母zh ch sh r。[57字]
zh:乍斩占长章兆召折者真争正支知执直只旨至中重周朱主专珍B枕B瞻B(詹)颤P(亶)壮P(丬)。
ch:叉查差昌辰成呈丑出川垂雏P(刍)。 sh:善尚勺少申甚生式寿叔。 r:刃容柔若任B(壬)。
第六组:声母z c s。[27字]
z:责则曾宗卒尊坐择B栽T()滋B(兹)。 c:采参仓曹册此次从错B。
s:斯思司寺肃梭B臊B(喿)搜B(叟)。
4.2 五千“通字”。《现代汉语通用字表(7000)》中大约2000字是为了印刷用的字,包括一些较生僻的地名等。真正是我国知识分子的“通用字”只有5000个字,称为“通字。
4.2.1 五千个“通字”都是由五百个“根字”构成的,分成了五百个“根字”形成的五百个“字族”。“合成字”由两个以上的字符构成,所以一个“合成字”将出现在两个以上的[字支](gram-branches)中。如“槽”字既出现在意符“木”的[字支]中,也出现在声符“曹”的[字支]中。
4.2.2 有的“根字”可作意符、声符或标符,即一个“根字”可形成三个[字支]。这三个[字支]合成一个“字族”(gram-family)。下面只举一个“字族”的例子:
跟“羊”有关羝羯羚羔群
羊作意符的字支 认为“羊”善良,善美羹羞羡
“羊肉”味美
跟“氧”有关的 羟羰羧
化学“基”
“羊”的字族 yang
洋佯徉烊蛘样痒氧恙养漾
羊作声符的字支 jiang
姜
qiang
羌
xiang祥详翔庠
羊作标符的字支 隶变或简化以后 差着盖
只是构形的符号
由于篇幅限制,有关“汉语基因工程”的“造词模式”和“造句模式”将做另文讨论。