知网和汉语研究,本文主要内容关键词为:汉语论文,知网论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近十多年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。例如普林斯顿大学的英语WordNet,微软的MindNet,欧洲有基于WordNet的EurowordNet,日本有电子辞书研究所(EDR)的日语和英语的概念词典,还有美国HPKB(High Performance KB)等等。其中WordNet早已上网供免费用于非营业性研究。今年年初我们的知网也已上网面世,同样也可免费用于非营业性研究。它的网址是:www.keenage.com。欢迎读者上网浏览,下载和使用,以及参加网上的论坛。
1.知网概述
1.1 知网的概貌
知网包括下列数据文件和程序:
(01)中英双语知识词典(08)概念的次要特征(3)
(02)中文简体知识词典(09)动态角色与属性
(03)中文繁体知识词典(10)词类表
(04)概念的主要特征(1)
(11)反义关系表
(05)概念的主要特征(2)
(12)对义关系表
(06)概念的次要特征(1)
(13)标识符号及其说明
(07)概念的次要特征(2)
(14)知网管理程序
下面我们对上述各个文件做一简单扼要的介绍,以使读者对知网有一个概括的了解。
1.1.1 知识词典
知识词典是知网的基本文件或数据库。其中的中英双语知识词典则是最基础的数据库。它是中文简体知识词典和中文繁体知识词典的基础。现有的中英双语知识词典包含11万多个记录。每一个词语的概念及其描述形成一个记录。每一种语言的每一个记录都主要包含4项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:
W_X=词语
E_X=词语例子
G_X=词语词性 DEF=概念定义
知网知识词典词语条目举例:
NO.=005756
NO.=092273
W_C=病
W_C=医生
G_C=N G_C=N
E_C= E_C=
W_E=disease
W_E=doctor
G_E=N G_E=N
E_E= E_E=
DEF=disease│疾病 DEF=human│人,[*]cure│医治,medical│医
NO.=034930
W_C=患者
G_C=N
E_C=
W_E=patient
G_E=N
E_E=
DEF=human│人,[*]SufferFrom│罹患,$cure│医治,#medical│医
NO.=102368
W_C=治病
G_C=V
E_C=
W_E=treat a disease
G_E=V
E_E=
DEF=cure│医治,content=disease│疾病,medical│医
知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此它的规模是动态的。它的规模通常以词语的条数以及由词语所表述的概念的条数计算。作为1.0a版,它的现有规模如下表所示。
语种词语总量N范畴V范畴 A范畴
汉语 050220
026006 01663509763
英语 055427
028818 01668810705
语种概念总量N范畴V范畴 A范畴
汉语 062264
029808 020453
011196
英语 073131
036720 021187
014386
注意:这里的N,V,A诸范畴不等同于句法上的名词,动词,形容词。另外要说明一点,汉语中的4字格成语,在知网中根据其意义分门别类地归在了不同的范畴内。例如“千军万马”归在N范畴,“雷霆万钧”归在A范畴,“奋发图强”归在V范畴等。
1.1.2 概念的主要特征(1)
概念的主要特征(1)载明知网所规定的事件类或称V范畴的主要特征,现有800多个,组织在一个层级网络中。例如:
V1.02 possession│领属关系
own│有 {relevant,possession}
obtain│得到 {relevant,possession,source}
receive│收受 {relevant,possession,source}
BelongTo│属于 {relevant,possessor}
OwnNot│无 {relevant,possession}
lose│失去 {relevant,possession}
InDebt│亏损 {relevant,possession}
owe│欠 {relevant,possession,target}
V2.02 AlterPossession│变领属 {agent,possession}
take│取 {agent,possession,source}
seek│谋取 {agent,possession,source}
beg│乞求 {agent,possession,source}
steal│偷 {agent,possession,source}[crime│罪]
rob│抢 {agent,possession,source}[crime│罪]
earn│赚 {agent,possession,source}
buy│买 {agent,possession,source,cost,~beneficiary}[commercial│商]
collect│收 {agent,possession,source}
levy│征收 {agent,possession,source}
borrow│借入 {agent,possession,source}
gather│采集 {agent,possession,source}
MarryFrom│娶 {agent,possession,source}[#GetMarried│结婚]
TakeBack│取回 {agent,possession,source}
redeem│赎 {agent,possession,source,cost}[commercial│商]
give│给 {agent,possession,target}
provide│供 {agent,possession,target}
GiveAsGift│赠 {agent,possession,target}
grant│赐 {agent,possession,target}
donate│捐 {agent,possession,target}
submit│交 {agent,possession,target}
return│还 {agent,possession,target}
recompense│补偿 {agent,possession,target}
sell│卖 {agent,possession,target,cost}[commercial│商]
lend│借出 {agent,possession,target}
PassOn│留给 {agent,possession,target}
pay│付 {agent,possession,target}
MarryTo│嫁 {agent,possession,target}[#GetMarried│结婚]
abandon│放弃 {agent,possession}
exchange│交换 {agent,possession,source,cost}
OnCredit│赊 {agent,possession,source}[commercial│商]
事件层级网络体现了如下的特征:
(a)事件的上下位关系。这点在文件中已一目了然,不必赘述。
(b)体现了知网的一个重要的、独创的观点:它认为事件有静和动两类。静态的又分为关系和状态两类。而动态的,即行为动作说到底是个“变”,而且是跟关系与状态那两类严格地一一对应着的。例如,关系类包含有“领属关系”,而行为动作类则包含有“变领属关系”。状态类包含有“存现”,而行为动作类则包含有“变存现关系”。这是客观存在。
(c)每一个主要特征都标有它的必要角色框架,如MarryTo│嫁 {agent,possession,target},作为它的共性,同时还可以另加其它种类的共性描述,被置于[ ]中。以MarryTo│嫁为例,知网的规定是:当“嫁”这类事件发生时,“谁(agent)把谁(possession)嫁给谁(target)”等必要角色是一定会参与的。这是客观存在,不论在语言中是否全都说出来。“嫁”的另一个共性是:与“结婚”这一事件有关。
(d)事件的激活和角色的互感。例如:“买”这一事件将激活“有”;“患病”这一事件可能激活“医治”。又如:“买”的施事将转化为“有”的“关系主体”;“患病”的经验者将转化为“医治”的“受事”。
1.1.3 概念的主要特征(2)
概念的主要特征(2)载明知网所规定的事物类或称N范畴的主要特征,现有150个左右,组织在一个层级网络中。例如:
N.1 entity│实体
N.1.1 thing│万物[#time│时间,#space│空间]
N.1.1.1 physical│物质[!appearance│外观]
N.1.1.1.1 animate│生物[[*]alive│活着,!age│年龄,[*]die│死,[*]metabolize│代谢]
N.1.1.1.1.1 AnimalHuman│动物[!sex│性别,[*]AlterLocation│变空间位置,[*]StateMental│精神状态]
N.1.1.1.1.1.1 human│人[!name│姓名,!wisdom│智慧,!ability│能力,!occupation│职位,[*]act│行动]
N.1.1.1.1.1.1.1 humanized│拟人[fake│伪]
事物层级网络体现了如下的特征:
(a)事物的上下位关系。这点在文件中已一目了然,不必赘述。事物的上下位关系深度比较浅。
(b)绝大多数特征都标有其共性的特征。
(c)上下位关系的共性有继承关系,例如,“人”除了具有其自身特有的共性特征如[!name│姓名,!wisdom│智慧,!ability│能力,!occupation│职位,[*]act│行动]外,它还将继承其上位“动物”—“生物”—“物质”等的共性。
1.1.4 概念的次要特征
概念的次要特征现分别列于三个文件中,下面是它们的部分例子。
概念的次要特征(1)包含的是属性以及某些非语义特征,如:
N.2 attribute│属性
N.2.1 appearance│外观
N.2.1.1 form│形状
N.2.1.8 hue│浓淡
N.2.1.2 brightness│明暗
N.2.1.9 odor│气味
N.2.1.3 clearness│清浑
N.2.1.10 taste│味道
N.2.1.4 prettiness│美丑
N.2.1.11 posture│姿势
N.2.1.5 pattern│样式 N.2.1.12 scene│景象
N.2.1.6 SmoothFinish│光洁度 N.2.1.13 cleanness│洁净
N.2.1.7 color│颜色
N.2.1.14 fatness│胖瘦
概念的次要特征(2)包含的是属性值,如:
form│形状
flat│扁
straight│直
curved│弯
level│平
upright│正
slanted│歪
even│匀
dissimilar│差 protruding│凸
dented│凹
smooth│坦
rugged│崎
square│方
round│圆
queer│怪
linear│线
surfacial│面
cubic│体
brightness│明暗
bright│明
dark│暗
clearness│清浑
clear│清
blurred│浑
prettiness│美丑
beautiful│美
ugly│丑
概念的次要特征(3)包含的是领域以及部件的具体部位,如:
agricultural│农
[#plant│植物,#planting│栽植]
commercial│商
[#money│货币,#buy│买,#sell│卖]
education│教育
[#teach│教,#study│学]
medical│医 [#cure│医治,#disease│疾病]
literature│文[#compile│编辑,#translate│翻译]
sport│体育 [#exercise│锻练,~#SportTool│运动器材,~#compete│比赛]
head│头
heart│心
body│身
bone│骨
base│根
limb│肢
[[*]crawl│爬,[*]swim│游]
1.1.5 动态角色与属性
动态角色是指概念在实际的语言中所构成的各种关系。知网现用到的动态角色约70个,如施事、受事、经验者、时间、处所等等。动态属性现有主题和焦点等。
1.1.6 词类表
词类表列出知网所规定的词类。应该说明,对于汉语是参考性的,知网所采用的分类比较粗。
1.1.7 知网的同义、反义和对义关系
知网的同义、反义和对义的体现与一般的同义或反义词词典是不同的。一般的是显性的,而知网的是隐性的。也就是说知网并没有把同义、反义和对义标识在每个条目上。知网的同义是依靠(a)概念的定义(DEF),(b)双语对译词条(W_C或W_E)。例如:
NO.=015459NO.=102118
W_C=打
W_C=置
G_C=V G_C=V
E_C=~酱油
E_C=
W_E=buy
W_E=buy
G_E=V G_E=V
E_E= E_E=
DEF=buy│买
DEF=buy│买
这里“打”和“置”是同义,因为它们的DEF相等,且有相同的W_E。
但是下面的例子就不同了。
NO.=029359
W_C=孤立
G_C=N
E_C=自己太~了
W_E=isolated
G_E=N
E_E=
DEF=aValue│属性值,circumstances│境况,lonely│孤,undesired│莠
NO.=029362
W_C=孤零零
G_C=ADJ
E_C=
W_E=solitary
G_E=ADJ
E_E=
DEF=aValue│属性值,circumstances│境况,lonely│孤,undesired│莠
这里“孤立”和“孤零零”虽然它们的DEF相等,但它们的W_E不同,因此它们不是同义词,它们只是同类词。知网中的反义和对义是通过反义表和对义表体现的。这两张表标明了具有什么信息将形成反义或对义。例如:
下列为对义关系,条件是:它们的语义所描述的其它各项以及词类必须一致
straight│直
curved│弯blunt│钝 sharp│利
level│平 wrinkled│皱
bright│明
dark│暗
upright│正 slanted│歪clear│清 blurred│浑
protruding│凸
dented│凹
beautiful│美
ugly│丑
下列为对义关系,条件是:它们的语义描述的其它各项以及词类必须一致
own│有 OwnNot│无leave│离开
arrive│到达
obtain│得到
lose│失去
GoUp│上去
GoDown│下去
be│是 BeNot│非rise│上升
fall│掉下
come│来
go│去
GoForward│前进 GoBackward│后退
leaveFor│前往 arrive│到达
GoInto│进入 GoOut│出去
1.2 知网的特色
有人问知网和WordNet有什么区别?也有人问知网是不是一部义类词典?我们说知网不是义类词典。它跟WordNet不太好比。简单地说,WordNet是一个在线的词语数据库(an online lexical database)。而知网是一个描述概念与概念之间的关系以及概念的属性与属性之间的关系的知识系统。
知网的特色主要表现在如下方面:
第一,知网是一个利用一种知识词典的描述语言来描述概念与概念之间的关系以及概念的属性与属性之间的关系的知识系统。知网并不是一个在线的词汇数据库。
第二,知网所描述的不仅包含同类概念之间的关系,如上下位关系、同义关系、反义关系、对义关系、部件与整体关系、材料和成品关系、属性和宿主关系,还包含非同类概念之间的关系,如属性值和属性的指向关系、事件和角色关系。
第三,从语言学的角度,知网也可认为是语义研究的结果。知网对语义研究的贡献可以归结为两点。一是把语义研究置于知识描述的基础上;二是语义描述呈网状。我们可以从知网的概念描述中形成如下的关系网。这个关系网的关键是:对个别概念进行静态的、孤立的描述,最终形成动态的、相关的知识网。
从前面的举例中我们可以看到知网对“医生”、“患者”等的孤立的描述。但我们很容易把它们联结成一个网(见上图)。
第四,虽然知识词典是知网最主要的数据库,但它同时包含有若干文件,如主要特征,次要特征等文件,它们也都是知网不可或缺的数据库,而不只是标注的规格文件。
第五,知网从知识词典的建设看,是一个工程性项目,但它本身又是一项科学研究。它提出了知识描述的系统框架和方法论。它们将成为专业知识库建设的基础。
2.知网对汉语研究的启迪
知网的最终成果形式是一个知识系统。任何一个知识系统都应该是独立于具体的民族语言的。然而由于它的描述对象是由词语所表述的概念,并且还要描述概念之间的关系,这样一来,在其研究过程中又会不可避免地涉及语言研究的某些方面。以英语为例,我们要回答:英语的一个动词(如congratulate)和它的派生的动作性名词(如congratulation)是否应该同属于知网规定的事件范畴呢?英语中类似ill,glad,sorry等,虽然它们都是英语的形容词,但它们却应该属于知网规定的事件范畴而非属性值范畴。至于汉语,知网的研究与建设更有诸多挑战,有的甚至涉及汉语研究的某些根本性问题。下面我们想着重介绍和讨论知网的研究与建设对汉语研究的某些启迪。启迪的基本点在于:汉语的语法应该建立在语义的基础上。知网本身当然不是语义语法,但是我们认为知网为建立汉语的语义语法提供了一个可操作的框架。知网涉及了最基础的三个问题,如按传统的说法,那就是词、短语和句的构成规律。
2.1 基本运算单位
如果我们把语法看成是一整套公式的话,那么首先要提出“基本运算单位”这个概念,例如印欧语的“词”(word)。知网作为一个知识系统,它的描述对象是概念。概念是内容,什么是它的形式呢?知网采用了“词语”这个流行的术语。这样一来可以兼顾多种语言,因为知网是多语言的。另外词语对于技术术语也比较通用些。但这样并不等于我们认同汉语的基本运算单位是“词”,特别是所谓相当于印欧语的“词”(word)。我们认为印欧语的基本运算单位是“词和词组”,而汉语严格地说应是“字和字组”。
之所以要确定好基本运算单位,是因为知识词典首先会面对一个“选取词语”的问题。英语好办一些,我们基本上依据朗曼英语词典(LDC),既有单词条目,也有词组条目。至于汉语,我们的做法是:第一,参考权威性的词典,如《现代汉语词典》、《汉英词典》(外研社)等;第二,采用一个4亿字的语料库,从中抽取8万多个词语,然后按频率从高到低选取其中的5万多个词语,然后进行必要的调整,如除去某些不那么重要的人名和地名等。
知网是一个知识系统,它的知识词典也可以说是一个语言工程。我们不应该也不会陷入“什么是词”这种经院式的争论中去。我们的做法是确定知网的知识描述的基本运算单位。这种基本运算单位可以是一个简单概念,如汉语的“人”、“美”、“卖”、“布匹”、“来得及”等,也可以是一个复杂概念,如汉语的“美人”、“清新”、“贱卖”、“扭亏为盈”等。对于复杂概念,知网就必须对其内部关系加以描述。
虽然知网的知识词典中每一个描述记录都有词性这一项,而且采用的也是流行的传统语法的词类如名词、动词等,但那些实际上是参考性的。通过对5万多个词语所代表的6万多个汉语概念以及与它们对应的7万个英语概念的语义描述,我们有了这样的认识:第一,汉语的字、词以及短语之间的界限是很模糊的。例如为什么“逃犯”是个词,而“盗窃犯”就不能看作词?有人说一般两个字的看作是个词比较好。这种说法本身就是模糊的。第二,汉语的由字至词、由词至短语的构成规律是一致的,也就是说汉语按统一的规律组合由小到大的语言单位。
知网的基本运算单位是:万物(其中包括物质的和精神两类),部件,属性,时间,空间,属性值以及事件。我们认为这样的基本运算单位也将是汉语语义语法的基本运算单位。
认为印欧语言的基本语法单位是名词、动词、形容词、副词等是有道理的。它们在词的形态,句法功能,以及意义这三个方面都有明显的不同。但是汉语就不同了。我们认为如果要确定汉语的词性,更应该采用三方面的标准,然而既然汉语的词的形态弱,句法功能与词类的对应性不严格,那主要采用意义这一标准就可以了。一旦意义这个标准不好用时,我们就采用它在句中可能的分布这一标准。试举一例。“科学”按名动形说,有两个,一是名词,另一是形容词,这在《现代汉语词典》中已有反映。而“物理”现在也应该有两个意思了。一是“物理考试”中的“物理”,另一是计算机语言里出现的“物理地址”中的“物理”。前者指物理学,后者是相对于“逻辑地址”,跟物理学无关。如果采用名动形说,后者是形容词。类似的还有“化学纯”中的“化学”等。我们感到要确定某一个词语是否含有这个或那个概念,多数情况下,还是首先用意义这个标准。例如“严肃”,按名动形说有一个动词概念,这时候似乎用所谓能否带“宾语”,是个好试剂。实际上不是的。“科学”之所以说有一个形容词的概念,并不是因为它可以有“定语”的句法功能,而是因为它确实有“合乎科学”或“系统的、完备的”等的意义。
2.2 复杂概念和字组
通过对由5万个词语所表达的6万多个概念的意义的把握和描述,加之所采用的是语义关系的描述方法,我们对汉语的字和字组的内部关系及其构成规律有了较深入的认识。汉语的字是有限的,而由字组合成的字组是无限的,但我们发现字组的生成是有严格的规律的。更重要的是我们发现这种规律是自然地建立在语义的基础上的。具体地说,可以归结为两条:一是基本运算单位是语义单位,而不是名动形等;二是词序和虚词也是字组的构成的主要语法手段。传统的描述方法,如偏正、述宾、定中、状中等,看上去似乎比较概括,但是不确切。
跟上面2.1节中关于句子内部关系的描述一样,我们相信通过对于知网的知识词典的总结,也一定能够提炼出一套基于语义的字组语法来。例如:
境外毒品走私集团
港台玩具制造商
中东石油输出国
它们的基本运算单位及其词序是:空间+物质+动作+人/组织。但如果换一种样式,即:N+N+V+N,那么看上去似乎比较概括,但是不确切。又如:“高跟鞋”,其基本运算单位及其词序是:属性值+部件+物质。但如果换一种样式,即:A+N+N,那么还会产生歧义。操汉语的人应该是通过“属性值+部件+物质”这样的规则,来理解或创造出新的词语,如:圆领衫、高腰鞋、高统靴、长袖杉等等。
2.3 概念间的动态关系
概念间的动态关系是指当多个概念合理地组合成一个文本时,各个概念间所具有的关系。从流行的传统句法看,那就是词与词之间的句法关系,如主语、宾语、定语等,并且由它们所形成的一个包括NP和VP等的句法树。
语义语法所要描述的关系当然与流行的传统句法是不同的。我们认为知网已经为建立语义语法提供了可靠的框架。知网的关于事件的主要特征层级为800余类事件概念规定了必要角色框架。例如:
buy│买 {agent,possession,source,cost,~beneficiary}
这个框架的意思是:以“买”为主要特征的事件一旦发生时,必然会有5个角色参与,它们是施事、领有物、来源、代价和受益者。这些角色是绝对必要的,一个也不能少,这是客观现实所决定的,即便在实际的语言交流中不一定都会显性地表述出来。例如,“我昨天买了一本书”,这是一句常用的话。这句话中有施事(我)、领有物(书),但并没有来源、代价和受益者,也就是说没有诸如“从书店”,“花了十元钱”,“给孩子”或“为自己”等。然而没说出来并不等于实际上也没有。
这样的必要角色框架将可以成为汉语语义语法的事件关系框架的基础。由于汉语的主要语法手段是词序和虚词的利用,那么我们可以这样来建立汉语语义语法的事件关系框架,即我们为知网的每个必要角色框架确定其表层结构中各角色的次序以及是否要用虚词引导。
我们不妨把上面“买”框架和“抢”框架做个比较。“抢”框架在知网中规定如下:
rob│抢 {agent,possession,source}
我们可以说“抢银行”,“抢商店”。这里“银行”、“商店”是来源(source),也可以说“抢钱”、“抢珠宝”。这里“钱”、“珠宝”是领有物(possession)。然而对于“买”,我们可以说“买书”、“买鞋”,这跟“抢”是一样的。但是对于“买”的来源(source),我们不可以说“买书店”,“买百货公司”(注:编者注:在特定情况下也可以说,如“富商买了这家百货公司”,“把整个书店给买了”。),合乎语法的用法必须由介词引导,而且词序也跟“抢”不同,应该置于事件之前。
我们设想汉语语义语法就每一个事件概念(如“买”),应该能够回答下面这些问题:
1)在一个句子中是否有可能同时包括知网所规定的全部的绝对必要的动态角色?如:
我在书店只用5块钱给孩子买了一套《十万个为什么》(可以)
2)知网所规定的各个绝对必要的动态角色在句子中的次序是什么?
3)是否有的动态角色可以有多个位置?当位置变动时,意义有什么变化?如:
我买了一本书(“书”在各句中均为“领有物”)
书我买了
我书买了
老师来了(“老师”和“人”都是“施事”)
前面来了两个人
4)动态角色是否必须用介词引导?如果用,用的是哪个或哪些介词?如果可以不用,有无位置等要求?
你可以从这里向北走(“从”,“向”在此句中是必须的)
我们这样来描述汉语语法,就可以从主语和宾语,及物和不及物或内动和外动等无休止的争论中摆脱出来。
3.结论
从语言学角度来看,知网是建立关系语义描述的一个大规模尝试。它的成功与否取决于它的实际应用。对于这点我们是有信心的。虽然知网的面世还是最近的事,但据了解已有人开始应用它来做排除歧义的研究,做语料库的语义标注等。知网对汉语的语言研究、关系语义研究也都将产生影响。知网自身的发展有三个方面:第一,增扩它的词语量,以汉语为例我们希望增加到7万以上;第二,增加语种如英汉、少数民族语言等;第三,改进它的知识词典描述语言的表达能力,使之更有力,更精密。