基于超文本环境的“朔闻捷子”知识库的建立_说文解字论文

基于超文本环境的《说文解字》知识库的建立,本文主要内容关键词为:超文本论文,知识库论文,说文论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

传统语言文字学与信息技术结合,已经成为一种必然趋势。传统典籍丰厚的思想为信息技术的应用提供了广阔的发展空间;而信息技术的先进性又为传统典籍的整理和研究提供了更为科学的手段,这种相辅相成的关系促进这一领域的研究和应用迅速发展。

然而目前已有的研究均只是通过一定手段将传统典籍输入到计算机中,并通过自行设计的软件系统对这些典籍进行查询、检索,或者是对不同版本的典籍进行对比以发现这些典籍的错漏和讹误等;另有一些研究是借助计算机对某些典籍的局部语言文字现象进行统计分析,而对于那些人类已经有了比较深刻研究的特定典籍,如果仍停留在这种一般的查询和检索的层次上,或停留在某类现象的统计分析上,无论是对于这些典籍的教学还是科研,显然都是不够的。“基于超文本环境的《说文解字》教学、研究系统”课题正是基于这一理由而提出的。

“基于超文本环境的《说文解字》教学、研究系统”课题属于信息技术与传统文字学的交叉课题。它的总体目标是利用计算机这一先进技术手段,来建造一个《说文解字》教学、研究的系统软件,以便通过这一软件,贮存以往《说文解字》研究的成果,优化《说文》学的教学方法,扩大《说文》学的研究范围和加速《说文》学未尽项目的研究,进一步展现《说文》小篆构形系统,从而再次证实汉字构形的系统性,发展汉字构形学理论,进一步实现传统文字学与现代的接轨,达到继承与发展并重的目的。

要实现上述目标,需要从开发平台与开发工具的选择、原文的录入、知识点的确立、知识库的设计以及系统实现与超文本链接等方面分阶段、分层次地逐步进行,本文论述的就是其中“知识库设计”的原则和方法。

知识库是指为方便和有效地使用与管理大量的知识,而把人类已经具有的知识以一定的形式表示存储到计算机中所构成的系统,又称知识库系统。它是任何基于知识的智能系统的基础。目前知识库的研究和应用大致分为两个方面:一个方面是基于人工智能;另一方面是基于数据库。前者最典型的是专家系统,而后者则研究如何在数据库中加入推理规则,以使数据库具有推理能力。其中数据库即是用以存放用户提供的一些事实及用这些事实推断出来的新的事实,通常数据库是以表的形式来表示的。

基于超文本环境的《说文解字》的知识库是“基于超文本环境的《说文解字》教学、研究系统”的基本组成部分,同时也是核心构成。根据《说文解字》这部典籍的特点和历代研究《说文解字》的方法与策略,其知识库是以数据库为基础来设计的。

以数据库为基础来设计《说文解字》知识库,必然涉及《说文解字》典籍所呈现的体例,如果以结构的观点来看待这些体例,即是《说文》中提供的9353个篆字具备相同或不同的结构属性。从这一观点出发,我们所需构造的知识库在一定意义上来说就是9353个篆字的属性库。由于不是所有的篆字所具备的属性种类与数目都相同,因此该属性库的结构一旦构造成功,其内容肯定是参差不齐的,以数据库专业术语而言,即属性库具有相当大的冗余,为减少该属性库的冗余,必须对其结构进行规范化,这就导致我们所设计的属性库并不是唯一的,即属性库同时以多个表(库)的形式存在。而对于这些不唯一(多个)的属性库彼此之间的联系,需要通过所有表的结构中共同具有的某一属性即一种称之为关键字(keywords)的属性来建立和保持。

建立属性库的目的有从结构上反映《说文》体例的需要,也含对《说文》进行类聚分析的意图。但是仅以建立了属性库就认为可以进行“基于超文本环境的《说文解字》教学、研究系统”的设计与实现,还不够全面,毕竟属性库是一种静态的、非连续性地反映《说文》原旨的结构系统。为了能对《说文》内在规律进行充分的阐释,也为所实现的“教学与研究系统”具有更重要的价值,需要对属性库进行必要的改造与扩充,增加对《说文》内在规律的表征(如增加查询互训、递训、连绵词等现象的规则),由此就需要构造我们前文所说的知识库。为了达到这一目的,我们首先对《说文》中所包含的知识点进行分析,对每种属性进行设计,即首先完成属性库的构造。

根据《说文》学专家所提供的有关《说文解字》的全部知识点,我们可以结合实际体例对其中有关形、音、义的各类知识点逐一进行解释和分析,并进行设计。这里需要说明的是:对于某些属性值,《说文》中都有明确标识,本文均给出实例;对于另外一些属性值,《说文》中无明确标识而需要经过分析研究才能获得,本文均未给出实例。

一 “字形”知识点

包括三类属性:

(1)直接构件及其功能;(2)结构模式(六书);(3 )字类与地位。

第一、直接构件及其功能属性。对于这一属性,可以从四个方面来分析,也就是该属性的取值范围具有四种可能性:表形功能、表义功能、表音功能和标示功能。

其中表形功能是指构件具有象物性,用与物象相似的形体体现构意,《说文》原文特征是“象X形”; 表义功能是指构件以它在独用时所记录的词的本义、引申义或相关意义来体现构意,《说文》原文特征是“从X”“从X省”;表音功能是指构件以它与所构字相同或相似的读音体现构意,《说文》原文特征是“X声”“X省声”“X亦声”; 标示功能是指构件附加在另一个构件上,起区别和指事作用。举例如下(其中反切为徐铉所加,非《说文》原有):

表形功能(象X形):

艸木初生也象│出形有枝莖也古文或以為艸字讀若徹凡屮之屬皆从屮尹彤說臣鉉等曰│上下通也象艸 丑列切

八 别也象分别相背之形凡八之屬皆从八 博拔切

表义功能(从X、从X省):

元 始也从—从兀 徐锴曰元者善之长也故从一 愚袁切

祝 祭主赞词者从示从人口一曰从兑省 易曰兑為口為巫 之六切

表音功能(X声、X省声、X亦声):

祕) 神也从示必聲 兵媚切

吏 治人者也从一从史史亦聲徐鍇曰吏之治人心主於一故从一 力置切

标示功能:

亦 人之臂亦也从大象亦之形凡亦之屬皆从亦 臣铉等曰分别作腋非是 羊益切

刃 刀堅也象刀有刃之形凡刃之屬皆从刃 而振切

第二、是结构模式属性。结构模式是指构件以其不同的功能组合为成字从而体现构意的诸多样式。传统文字学是用“六书”(象形、指事、会意、形声、转注、假借)来概括汉字的结构模式的,其中,“象形、指事、会意和形声是汉字的构造方法,转注和假借是汉字的应用方法”。因此,“六书”与构形有关的仅限于前四书,故在对《说文》的知识点分析中,结构模式这一属性仅具有四种取值可能,即象形、指事、会意和形声,其涵义如许慎所言:“象形者,画成其物,随体诘诎,‘日’‘月’是也。”“指事者,视而可识,察而可见,‘上’‘下’是也。”“会意者,比类合谊,以见指撝,‘武’‘信’是也。”“形声者,以事为名,取譬相成,‘江’‘河’是也。”在实际分析操作时,我们是根据汉字构形学的结构模式理论进行确认的,即首先依据汉字构形学理论对《说文》篆字进行结构模式分类,然后将分类结果与传统“六书”的前四书进行对应,其对应关系如下:

象形——全功能零合成。即独体字,《说文》独体字一般都具有象物性,是典型的象形字。理论上可看作是自身与0(零)的结合。 在这种情况下,独体字同时具有构件的身分,而这个构件集表音、表形与表义于一身。

会意——形义合成与会义合成。形义合成是用表义与表形构件组合在一起,表示一个新的意义。会义合成是用两个以上的表义构件组合在一起,表示一个新的意义。会义合成字的构意,是由表义构件所提供的诸多意义信息共同表示的。

指事——标形合成与标义合成。一个表形构件加上一个标示构件,即为标形合成。而表义构件加标示构件,即组成标义合成字。

形声——义音合成。用表义构件与表音构件组合,即为义音合成字。

第三、字类与地位属性。这一属性的取值有四种可能:小篆正篆(即篆书的正体字,指符合规范写法、带有标准性质的小篆形体,是相对重文而言的。《说文》之中有用古文或籀文取代小篆而放在正篆位置的情况,这是许慎为整个小篆构形系统考虑而确立的)、小篆重文、古文重文和籀文重文。其中,小篆重文的《说文》原文特征是“或作X”; 古文重文的原文特征是“古文作X”“古文奇字作X”;籀文重文的原文特征是“籀文作X”。举例如下:

番 獸足谓之番从采田象其掌 附袁切 番足从足从烦 古文番

嗌 咽也从口益聲 伊昔切 籀文嗌上象口下象頸脈理也

结论:实际属性库设计时,基本属性及“字形”知识点属性应包括如下内容:

属性名称 属性类型及宽度 可能取值 备 注

楷化字 字符类型,2 这些属性作为属性库

篆文

通用类型,4 的基本组成部分,但

今读

字符类型,6 是除了楷化字和篆文

反切

字符类型,6 取值唯一外,今读、

广韵反切 字符类型,6 反切和广韵反切属性

说文原文 备注型,4

的取值都有多种可能

性.

结构类型 字符类型,4 平面结构

层次结构

直接构件数量

数值类型,1

直接构件 字符类型,2 直接构件1

根据上一属性来确定

直接构件2

此直接构件到底有多

…… 少,每一直接构件的

直接构件n

宽度都是2.

直接构件功能

字符类型,8 表形功能本属性实际上附属于

表意功能每个直接构件,并受

表音功能直接构件数量的影响,

标示功能本属性存在与否和数

量多少不确定.

结构模式 字符类型,4 象形 全功能零合成

用汉字构形

会意 形义合成与会义合成 学的结构模

指事 标形合成与标义合成 式理论进行

形声 义音合成

分析,结果

与传统 "六

书 "的前四

书对应.

字类与地位字符类型,4 小篆正篆 正篆/新附字

小篆重文

古文重文

籀文重文

二 “字音”知识点

包括两类属性:

(1)读若(2)声类

读若是《说文》说解条例之一,用来注音和标明代替正篆的经典常用字,其《说文》的原文特征是“读若X”“读与X同”。举例如下:

珣 醫無闾珣玕琪周書所谓夷玉也从玉旬聲曰器讀若宣一 相倫切

石之似玉者从玉厶聲讀與私同 息夷切

读若属性的可能取值有三种:读若直音、读若明字和读若系源。

声类属性的取值是所属声母。

三 “词与意义说解”知识点

包括四类属性:

(1)连绵词 (2)训释种类 (3)训释方式 (4)补充与引用

第一,“连绵词”属性。连绵词是汉语中由两个不可分别释义、只能分别推源、通过其语源义来认识词汇意义的音节构成的特殊表义单位。作为成熟之后在语言中使用的单位,连绵词是双音单纯词;但从其发生和演变的过程来看,连绵词又不完全等同于现代语言学理论中的单纯词。作为使用单位,连绵词是结构紧密的表义单位,两个音节不能分别释义;作为研究单位,可以分别探源,连绵词也有本字本义。根据前人研究成果,“连绵词”属性的取值可能性有三种:合成(义合)连绵词、延音(衍音)连绵词和拟声(摹声)连绵词。

义合连绵词是由两个具有语源意义而无词汇意义的音节构成的双音词(这里“义”指语源义)。它与合成词既有联系又有根本区别:联系方面是指义合连绵词是由于语音的强化和汉字形音义三者之间错综复杂的运动、由合成词演化和派生而来的;根本区别方面在于合成词的意义决定于两个构词音节的表层意义(即在文献中作为义素使用的词汇意义),义合连绵词的意义则取决于构词音节的深层意义(即语源意义)。

衍音连绵词是因单音节语音的自然衍伸而产生的、由一个表义音节和一个纯粹的记音音节构成的双音单纯词。衍音连绵词是汉语双音化过程中语音造词的结果。语音造词是通过单音词在语音上的自然衍伸构成双音词。一般把衍音连绵词中有意义的音节称为源词,没有表义作用的音节称为衍音。源词相当于词核,衍音相当于词缀。根据源词与衍音位置的不同,衍音连绵词有前衍音(衍音+源词)和后衍音(源词+衍音)连绵词之分。对于后衍音连绵词,前一音节是源词,代表着整个连绵词的意义;后一音节是由表义音节衍伸出来的,没有表义作用。

摹声连绵词指通过摹拟声音而产生的双音词,是汉语中最纯粹的双音单纯词。它们虽然是通过摹拟声音产生的,然而这些词进入语言后,一般很少以表示某种声音为本义。摹声连绵词在汉语词汇运动中,与一般词具有相同的特点:可以引申、假借,可以发生词性变化。

第二,“训释种类”属性。古代训释材料的样式有词义训释和文意训释之分。词义训释是对客观词义进行表述,而文意训释是在词义训释的基础上,讲解词在文中的具体含义,疏通句、段、章的思想内容。训释种类是针对词义训释而言的,就其目的而言,词义训释分为两类:一类是义训,一类是声训;其中义训中包括一种特殊训释,叫做形训。因此,训释种类这一属性的取值有两种可能:义训(形训)和声训。

义训的目的是对巩固在词里的客观内容加以揭示,它是以义项为单位的,每一个义训只能训释词的一个义项。义训如果训释的是本义,则必须同时解释字形,使形义相贴切,此种训释称为形训。《说文》的训释一般都是形训。形训有仅反映造意的,也有反映造意兼实义的。例如:

臣 牽也 事君也象屈服之形 凡臣之屬皆从臣 植鄰切

示 天垂象,见吉凶,所以示人也。从二,三垂,日、月、星也。觀乎天文,以察時變,示神事也。凡示之屬皆从示 神至切 古文示

声训的目的是通过训释与被训释词之间的同源关系,来说明词义的来源并显示词义的特点。因此它是用音近义通的同源词来作训释词的。声训分推源式声训和系源式声训两种。

第三,“训释方式”属性。这一属性的取值也有两种可能:直训和义界。直训的方式是以单词训释单词,既含义训,又含声训,并有单训和互训两种。互训的训释词和被训释词可以两两互易位置或辗转互易位置;不能作成互训的即为单训。故直训有四种类型:

(1)义训的直训单训 (2)义训的直训互训 (3 )声训的直训单训 (4)声训的直训互训

义界是用定义、描写、对举、嵌入等方法来表述词义的内容,从而把词与邻近词的意义区别开来,以标示词义特点的一种训释方法。义界是以句训词。义界可用于义训,也可用于声训。

义训的义界有定义式义界、比况式义界和嵌入式义界三种:

声训的义界是用义界来作声训,就是把源词放在词的意义界说里,以显示被训释词命名的由来。这种声训有两种:源词出现的声训义界和源词暗含的声训义界。

第四、“补充与引用”属性。这种属性共有六种取值可能:一曰、引通人说、引经书、引子书、引其他文献和旁见说解。

“一曰”是《说文》训释条例。有时作“一说”“或曰”“又曰”等。凡字的形、音、义有两种以上说解,而许慎自己也不能断定孰是孰非时,在《说文》中,就用“一曰”之例并存之。段玉裁《说文解字注》曰:“凡义有两歧者,出一曰之例。”举例如下:

祏 宗廟主也周禮有效宗石室一曰大夫以石為主从示石石亦聲) 常雙切

琱 治玉也一曰石似玉从玉周聲 都寮切

“引通人说”是《说文解字》在分析字的形、音、义时,为了做到“信而有征”,往往“引通人说”。所谓“通人”,是指学识渊博、贯通古今的人,许慎常常引这些人对有关字形、音、义的说解。这就是《说文解字·叙》所谓的“博采通人”。《说文》中一般用“某某说”“某某曰”或“某某以为某某”来标明。所引通人计有:孔子、董仲舒、爰礼、黄颢、韩非、楚庄王、京房、刘向、班固、欧阳乔、博士、张彻、刘歆、逯安、桑钦、宁严、司农、卫宏、徐巡、周盛、庄都、官溥、王育、杜林、扬雄、张林、傅毅、司马相如、贾侍中、谭长、尹彤等。举例如下:

王 天下所歸往也董仲舒曰古之造文者畫而連 其中谓之王三者天地人也而参通之者王也孔子曰一贯三為王凡王之屬皆从王李陽冰曰中畫近上王者则天之义 古文王 雨方切

“引经”(包括引经书、引子书和引其他文献)是《说文》说解体例之一。即征引经典文句来证明所说解文字的形、音或义。这样,文字就可以和经典文字互相发明,即能给文字的说解提供证据,又可以说明文字在经典中的实际运用情况。其中:

《说文》引经书有:《易经》《尚书》《毛诗》《论语》《孝经》《尔雅》《礼》《左传》《公羊传》《逸论语》《孟子》等。举例如下:

禔 安福也从示是聲易曰禔既平 市支切

瑗 大孔璧人君上除陛以相引从玉爱聲爾雅曰好倍肉谓之瑗肉倍好谓之璧 王眷切

《说文》引子书有:《老子》《司马法》《墨子》《天老》《山海经》《史篇》《吕览》(《说文》称“吕不韦”)、《楚辞》《伊尹》《师旷》《鲁效礼》《韩非子》《淮南子》等。举例如下:

祳 社肉盛以蜃故谓之祳天子所以親遗同姓从示辰聲春秋傳曰石尚来歸祳 時忍切

《说文》引其他文献有:《逸周书》《国语》《三家诗》《五行经》《甘石星经》《太史卜书》《汉律令》《律历书》《传》《秘书》《军法》等。举例如下:

祡 烧祡燎以祭天神从示此聲虞珣曰至于岱宗禔 市支切 古文禔从隋省

“旁见说解”指《说文解字》解释字义、字形,不仅在本篆的说解里加以说明,有时在另一个篆文的说解里也涉及到该篆文,往往对该篆文的形体或字义作出不同的说解。《说文》的旁见说解往往能纠正原篆说解的谬误,或对原篆的词义和说解有所补充或说明,是研究《说文》的重要材料。举例如下:

一 惟初太始道立於—造分天地化成萬物凡一之屬皆从一於悉切 弌古文一

屯難也象艸木之初生屯然而難从贯一一地也尾曲易曰屯刚柔始交而難 生 陟倫切

亏 於也象气之舒亏从丂从一一者其气平之也凡亏之屬皆从亏 羽俱切 今變隸作于

结论:综上所述,其他知识点的可能属性如下表所示:

属性名称属性类型及宽度可能取值 备 注

读若

字符类型,8

读若直音

读若明字

读若系源

声类

字符类型,4

连绵词 字符类型,10 合成(义合)连绵词

延音(衍音)连绵词

拟声(摹声)连绵词

训释种类 字符类型,4

义训(形训)

声训

训释方式 字符类型,4

直训(互训)

义界

补充与引用字符类型,5

一曰

引通人说

引经书

引子书

引其他文献

旁见说解

上述《说文》结构属性的分析,还可以有另一种分类形式:一类是《说文》中有明确区别标志的,只需从原文提取就可获得的属性;另一类是通过研究、分析之后才能得到的属性。事实上在实际知识库建立时,我们就是分两步进行的:即将《说文》中有明确区别标志的属性归入相应的知识库后,再处理那部分具有难点的属性,这样更利于集中研究和分析那些难点知识。

四 小结

通过以上对《说文》知识点的结构性分析,我们建立了相应的属性库,以结构的形式对《说文》的知识体系给予表征。这种分析和表述的实质是:将《说文》原本线性、连续的知识体系通过计算机属性库,以非线性的、结构的形式表征出来,这种表征不仅使得检索《说文》更加便捷,也使人们在学习和研究《说文》时,对其内在的规律和形式的认识更加直接和明了。而且结构性的表征得以把具有同一属性的篆字类聚在一起,迅速而集中地呈现在读者面前,从而使读者对将要学习或正在学习的语言文字现象的理解更加深刻。

标签:;  ;  ;  ;  

基于超文本环境的“朔闻捷子”知识库的建立_说文解字论文
下载Doc文档

猜你喜欢