“朔闻捷子”描述性知识的知识表示模型_说文解字论文

《说文解字》中描述性知识的知识表示建模,本文主要内容关键词为:建模论文,性知识论文,说文论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在计算语言学领域,知识被分为描述性知识、规则性知识、控制性知识和元知识(Meta-knowledge)。一般来说,描述性知识是对知识的描述表达,是描述系统状态、环境和条件、问题的概念、定义和事实的知识;规则性知识是描述有关系统状态变化、问题求解过程的操作、演算和行为的知识;控制性知识表达的是比较、判断和决策的相应操作、演算以及行为等的知识;而元知识是一种关于知识的知识,它主要是用来寻找和选择目标知识的知识,也是一种为获取新知识所需的知识。

《说文解字》(以下简称《说文》)成书于一千八百年前,“是我国语言学史上第一部分析字形、说解字义、辨识声读的字典”[1],其中蕴含不同类型的知识,涉及到描述性知识、规则性知识、控制性知识和元知识,而且《说文》中的描述性知识在体例上呈现明显的规范格式。

不同类型的知识需要用不同的知识表示方法,“研究知识的表示方法,不单是解决如何将知识存储在计算机中的问题,更重要的是应该能够方便且正确地使用知识”[2]。《说文》中表征各种属性的描述性知识不仅丰富而且明显,并且这些描述性知识之间存在相似性和差异性,《说文》的深入研究需要对这些知识进行类聚或分类,进而进行分析或综合。以《说文》知识库的优化为出发点,《说文》中的描述性知识需要被提取、概括和抽象,并应用一定的知识表示技术进行建模。基于这种建模,可以提高《说文》相关信息的检索、系联、类聚,完成知识在更高层面上的再度综合。本文正是基于这种思想,对《说文》中描述性知识的知识表示建模进行了深入研究。

一、知识表示技术概述

“知识表示是利用计算机能够接受并进行处理的符号和方式来表示人类在改造客观世界中所获得的知识,它是在模拟信息如何在人类大脑中以何种方式存放的及其处理方式的基础上来对计算机信息处理中的知识的形式描述方式进行研究的,旨在利用计算机方便地表示、存储、处理和利用人类的知识”[2]。知识表示不同于数据结构,数据结构的重点是研究数据元素之间的关系,研究如何表示、存储、操作这些数据的技术;而知识表示强调的是怎样用一种比较合理的物理或逻辑形式来描述客观事物的相关知识。

常用的知识表示方法很多,在建造具体的知识库系统时,究竟采用哪种表示模式并没有统一的标准,也没有一个万能的知识表示模式,应根据实际情况而定。构建《说文》知识库所选择的知识表示技术需要充分表达《说文》领域的知识,并能方便知识的进一步推理、系联,因此就需要对《说文》的整个体例结构以及每个字头所具有的形、音、义方面的属性对照、总结,从《说文》体系中发现总结有用的知识或规律,即以每个字头为依托,以原文训释为依据,对每个字头及其属性、规则、联系进行“知识建模”,通过合理的知识表示,推理并挖掘《说文》研究的更深层次的关系,从而促进《说文》的学习和研究。本文主要对《说文》中结构化比较好的描述性知识(良构知识)即“属性”进行了建模。

二、《说文》中描述性知识的结构与层次

《说文》作为一部说解汉字的著作,全文共9353个字头(其中重文1163个),立540个部首,统其余8813个字头,《说文》示例如下:

祭也从示某声莫桮切

社肉盛以蜃故谓之振天子所以亲遗同姓从示辰声春秋传曰石尚来归振时忍切

1.《说文》字头的排列特点

《说文》的540个部首之间主要是据形系联,以形体相近为部首排列的第一原则,如“一”、“示”、“三”、“王”等;其次是按照义的相关性排在一起,如“齿”后面的部首是“牙”;其余不能以形和义来排序的,就随意排列。

一个部首里面的字一般都是把意义相近的放在一起,例如言部的“诗”、“识”、“讽”、“诵”列在一起;“讪”、“讥”、“诬”、“诽”、“谤”列在一起;月部“胯”、“股”、“脚”、“胫”、“腓”、“腨”列在一起。各部首里的排列次第从意义出发,基本上做到了以类相从。据黄侃《说文略说》的分析,“许君列字之次第,大氐先名后事,如玉部自璙以下皆玉名也;自璧以下皆玉器也;自瑳以下皆玉事也;自玭以下皆附于玉者也;殿之以灵,用玉者也。又或以声音为次,如示部‘禛’、‘祗’、‘禔’相近;‘祉’、‘福’、‘祐’、‘祺’相近;‘祭’、‘祀’、‘祡’相近。又或以义同异为次,如‘祈’、‘祷’同训求,则最为相近;‘祸’训害,‘祟’训祸,训相连,则最近。大氐次字之法,不外此三者也。”[3]

以上正是《说文》贯彻“以类相从,不相杂越”原则的证明。

2.《说文》说解部分的结构特征

《说文》正文分为文字(字头)和对文字的说解两个部分。一是文字,首列正篆,次列各种异体,如上所述,这些字都是按部首和意义的相近程度排列在一起的;二是说解,包括按次序解释的字义、字形和字音,即首先释义,然后说形,最后辨音,正如《段注》所说,“合三者(形、音、义)以完一篆”,在每一条说解的末尾,还通过征引各种材料,来证明字义、字形、字音的可靠性。例如:

饭食之用器也象形与豆同意凡皿之属皆从皿读若猛武永切

“饭食之用器也”是说解“皿”字的字义,“象形与豆同意”是说解“皿”字的字形,“读若猛”是说解“皿”字的字音。又:

竹笼也从竹娄声洛侯切

“竹笼也”是说解“篓”字的字义,“从竹”是说解“篓”字的字形,“娄声”是说解“篓”字的字音。

《说文》说解部分的结构特征非常明显(见下表):在释义部分,《说文》主要采取了“X,X也”的具体形式,对于多个意义的则用“一曰”、“或曰”来表示;在字形部分,主要通过形式为“象形”、“象XX之形”、“象XX”或“从X”来表示;在辨音部分,则通过标注形声中的声符(形式为“X声”、“X省声”、“X亦声”)、标注读若(形式为“读若X”、“读与X同”)等来辨识。

《说文》通过分析每个字头的一点一画,探求其组合的道理,挖掘其根源,对文字的解释形成以字头为经,以释义、说形、辨音、征引为纬的基本结构:在释义中有统一的体例,在说形中有专门的术语或者相对固定的语言格式,辨音中有自成体系的标音方法,征引中有独特的条例,所有的字条结构都在相对统一固定的结构模式下展开。

3.《说文》描述性知识点的内容及其层次关系

《说文》各字条中,字、义、训释、引用、注音以及插入的注解之间呈现出多维的网络状联系,系统性极强,由于对每个字的解释都遵循一定的模式,因此,这种多维的网状联系可以通过每个字的各个属性来探求。基于对《说文》体系的整体认识,下面对《说文》的字形、字音、字义、引通人说等描述性知识点的内容及层次关系展开详细论述。

(1)“字形”知识点

《说文》是用传统“六书”的前四书来讲解字形的,前四书是象形、指事、会意、形声四种。该书中所有的字都被归在这四种构形模式中,这四种模式大多是由每个字的直接构件的功能决定的,“直接构件及其功能”属性有四种可能的取值,即表形功能、表意功能、表音功能和标示功能。《说文》对直接构件的功能又有固定的表述方式(见下表)。

①象形

别也象分别相背之形(A)凡八之属皆从八博拔切

大牲也牛件也件事理也象角头三封尾之形(A)凡牛之属皆从牛徐锴曰件若言物一件二件也封高起也语求切

②指事

刀坚也象刀(A)有刃之形(B)凡刃之属皆从刃而振切

木上曰末从木(A)一在其上(B)莫拨切

③会意

始也从一(A)从兀(B)徐锴曰元者善之长也故从一愚袁切

颠也至高无上从一(A)大(B)他前切

④形声

敬也从示(A)氐声(B)旨移切

治人者也从一(A)从史(A)史亦声(B)徐锴曰吏之治人心主於一故从一力置切

(2)“字音”知识点

①读若(原文特征为“读若X”、“读与X同”)

数祭也从示毳声读若舂麦为臣铉等曰舂麦为今无此语且非异文所未详也此芮切

②反切(原文特征为“XX切”)

石之似玉者从玉厶声读与私同息夷切

祐也从示畐声方六切

③声类

祐也从示畐声方六切……S1声类:唇

④声纽

祐也从示畐声方六切……Sn声纽:帮

⑤韵类

祐也从示昌声方六切……Y1韵类:之

⑥韵部

祐也从示畐声方六切……Yb韵部:职

(3)“字义”知识点

字义也称构意,是从构形中分析出的小篆的构造意图。《说文》字义的表述有两种格式:一种是直训,即以单词训释单词;另一种是义界,即用定义、描写、对举、嵌入等方法来表述词义的内容,从而把词与邻近词的意义区别开来,以标示词义特点。义界是以句训词,其典型方式是定义式,此外还有比况式和嵌入式等。

①定义式义界(YJA):

其方式是概念逻辑定义(种概念+属差)的变形,如:

表3 前四书、表述及直接构件功能之间的对应关系

定义式义界

主训词 义值差

“摘,拓果树实也”拓 果树实(不是拓其他物)

“婴,颈饰也”饰 颈(不是其他部位之饰)

“探,远取之也” 取 远(不是近取)

“缔,结不解也” 结 不解(非他状)

②比况式义界(YJB):

选择一个形似的比喻物来代替主训词,同时阐述被训词与比喻词之间的差异来代替一般的义值差,如:“獭,如小狗也,水居食鱼”,“驴,似马长耳”等。

③嵌入式义界(YJC):

嵌入式义界有义值差而无主训词,将被训释词本身嵌入义界中,占据了主训词的位置,而只用义值差来显示词义的特点。如:“弦,弓弦也”,“维,车盖维也”,“绠,汲井绠也”等等。

(4)补充与引用知识点

①一曰(有时作“一说”、“或曰”、“又曰”等)

祭主赞词者从示从人口一曰从兑省易曰兑为口为巫之六切

②引通人说(一般为“某某说”、“某某曰”、“某某以为某某”等)

玙璠鲁之宝玉从玉番声孔子曰美哉玙璠远而望之奂若也近而视之瑟若也一则理胜二则孚胜附袁切

③引经书

安福也从示是声易曰神既平市支切

④引子书

社肉盛以蜃故谓之振天子所以亲遗同姓从示辰声春秋传曰石尚来归祳时忍切

⑤引其他文献

明视以筭之从二示逸周书曰士分民之祘均分以祘之也读若筭苏贯切

⑥旁见说解

难也象艸木之初生屯然而难从屮贯一一地也尾曲易曰屯刚柔始交而难生陟伦切

以上对《说文》描述性知识点的层次与结构的详细阐述表明,《说文》中的描述性知识点不论是在字头部分和说解部分,还是在知识点的逻辑层次方面都存在一定的规律,对其进行建模并应用知识表示技术来表征很有意义。

三、《说文》描述性知识的知识表示建模

1.以面向对象表示法为基础的知识表示方法

人们认识世界是以将世界划分为一些事和物为基础的,这里的物指物体,事指物体间的联系。对《说文》也可以通过对其进行这样的划分来认识,在建立《说文》知识库系统的过程中,以面向对象的知识表示法为基础,即以《说文》的文字字头为中心,将字头的属性、属性值以及领域内的其他知识“封装”在《说文》字头这一对象中,将字本身的形态和字的属性及属性值结合在一起,结构清晰,符合对《说文》的认知模式。

按照《说文》知识库所支持的不同功能单元,利用面向对象的思想,采用模块封装的技术,把不同的知识及其推理模块进行有效封装,可以将《说文》知识库系统分为基本信息检索模块、构形分析模块和音义关系模块等(图1)。

图1 《说文》知识库系统功能模块构成

以面向对象表示法为基础来表征《说文》知识,实际是以字头为对象,以属性—属性、属性—属性值之间的关系来沟通对象之间的消息,通过消息的发送使字头对象间相互作用,从而求得所需的结果。

2.以框架(frame)表示法为主的知识库结构

知识的框架表示法是1975年由M.Minsky针对人们在理解情景、故事时的心理模型而提出的,该理论将框架视作知识的单位,将一组有关的框架连结起来便形成框架系统,通过属性的继承获得上层概念的属性,还可以通过扩展子框架进一步描述问题的细节,是一种结构化程度比较好的知识表示方法。

框架适用于描述固定的静态对象,它用“对象—属性—属性值”表示,是由若干个结点和关系(统称为槽slot)构成的网络。框架一般可以表示成如下形式:

〈槽名1〉

〈侧面11〉

〈值111〉…〈值11K1〉

……

〈侧面1n1〉

〈值1n11〉…〈值1n1Kn1〉

由于框架表示法中框架是知识的基本单位,系统中不同的框架可以有共同结点,系统的行为由系统内框架的变化来表现,推理过程由框架间的协调来完成。从数据库的观点来看,《说文》中每个字经过分析、归纳,可以总结、提炼出一套相对固定的文字属性类,同时这些字的属性结构具有高度的一致性,因此,通过表处理的方式来构建《说文》知识库是完全可能的。

另外,在《说文》中应用框架表示法,将所有字头共有的形、音、义结点以及槽组成字头框架系统,通过对结点和槽赋值将字头的所有知识属性存储于框架中,对于这种系统性且结构化的知识,利用框架表示法来表征将是首选。

3.《说文》的框架系统图示

每个字的某一属性值通过属性的继承来获得上层属性的值,字头的属性结构层层嵌套,将相关框架连结起来,形成一个层次清晰的严密系统(图2),当查询、匹配或者进行推理时,机器就通过属性槽值来“粗匹配”相应的字头,然后依据新的字头调用该字头所拥有的其他知识属性,从而更鲜明地体现《说文》原文的结构化特点,并且展开对《说文》的深度系联研究。

图2 《说文解字》知识库系统中描述性知识的框架表示图示

4.《说文》字头的框架表示形式

框架系统由“框架名—槽值—侧面值”组成,以某字头为框架名的框架知识系统的表示如下:

框架名——FrameName:〈字头〉

属性槽——SlotA:〈基本属性〉

侧面——Facetal:〈编号〉

FacetA1_Type:字符串性

FacetA1_Value:(如00815)——侧面值

FacetA2:〈楷化字〉FacetA2_Type:

字符串性

FacetA2_Value:(如“祏”)

FacetA3:〈篆文〉FacetA3_Type:字符串性

FacetA3_Value:(如“”)

FacetA4:〈部首〉FacetA4_Type:字符串性

FacetA4_Value:(如“示”)

FacetA5:〈原文〉FacetA5_Type:备份性

FacetA5_Value:(如“祏宗庙主也周礼有郊宗石室一曰大夫以石为主从示从石石亦声常双切”)

FacetA6:〈籀文〉FacetA6_Type:字符串性

FacetA6_Value:(无)

FacetA7:〈今读〉FacetA7_Type:字符串性

FacetA7_Value:(如“shi2”)

SlotB:〈字音〉

FacetB1:〈读若〉FacetB1_Type:字符串性

FacetB1_Value:(如“:读与私同”)

FacetB1:〈反切〉FacetB1_Type:字符串性

FacetB1_Value:(如“常双切”)

……

5.选择框架表示法表征《说文》的优势

框架系统体现了《说文》的结构性特征,遵循面向对象的框架表示法建立的《说文》基本知识库,采用标准的SQL语句,实现了《说文》基本信息的检索、统计以及形体拆分。虽然《说文》知识库的构建过程比较困难,但它的优势也很明显:

(1)节省存储空间。

由于一个框架结构可以是另一个框架的槽值,并且同一个框架结构可以作为几个不同的框架槽值,这样,一些相同的信息可以不必重复存储,降低了冗余,节省了存储空间。

(2)结构化好。

以框架表征《说文》中的字及其属性,将框架作为知识的基本单位,以字头来命名框架,将字头的属性按照其内在联系层层嵌套构成框架系统,各层仅包含特有的信息,通过属性的继承来获得上层的属性值,通过扩展子框架可进一步描述《说文》中的字及其相关知识。

(3)便于知识库的修改和扩展。

以面向对象的知识表示方法为基础,用框架系统展现字头属性,可以方便地填写、补充、修改其内容和说明,便于《说文》知识库的扩展和维护。

不仅如此,《说文》知识框架用槽来组构,以槽的形式表达《说文》字头的各项描述性知识,将来还可以槽的形式来表达属性与属性之间的联系方式、关系类别甚至是动作类别等。这样,《说文》框架嵌套的形式将更加灵活,不仅方便框架属性的扩充,还利于系统推理规则的扩充与连接,为《说文》知识库研究的开放性和统一性奠定了基础。

标签:;  

“朔闻捷子”描述性知识的知识表示模型_说文解字论文
下载Doc文档

猜你喜欢