蒙古语族多语种数据库标注规范研究,本文主要内容关键词为:语族论文,蒙古论文,语种论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、多语种数据库及通用标注规范 少数民族多语种数据库的语种一般包括少数民族语、国家通用语言、国际通用语言或区域通用语言。少数民族语(或称本地语)是被描写语言或目标语言,国家通用语言(或称国语)或国际通用语言是数据库的分析语言。以多语种数据库为基础,可以生成少数民族语单语词典、少数民族语—国家通用语言双语词典、少数民族语—国际通用语言双语词典和少数民族语—国家通用语言—国际通用语言三语词典。少数民族多语种数据库的研制,表明一个国家的语言研究,在横向研究层次上实现了从个别民族语言到国家通用语言、国际通用语言的信息贯通,在纵向研究层次上实现了通过大规模数据库建设,进入深层次、多角度研究的跨越式发展。多语种数据库的开发,是在国内国际信息通道上解决语言文字差异造成的信息阻隔问题的必要步骤。 建设数据库的最基本技术是对自然语言进行切分和标注。多语种数据库的标注,不仅要考虑对单语言单位的分类、标注,还要考虑多种语言信息之间的标注一致性和信息互换性。没有统一、前后一致的标注规范,不同语言信息之间的分类、对应、检索、反向检索、筛选、打印等操作都无法正常、有效地进行。 多语种数据库的用途是多方面的,就使用目的而言,有研究性、开发性、实用性的区别,就使用者而言,有本民族用户和跨语言、跨国界用户的区别。满足多种用户需要,则保证标注符号的通用性(跨语言性)、简易性、操作性和规范性。 多语种数据库的发展将来必然采取开放建库策略。只要规范文字编码、标注符号和数据库结构,就能够很多小型数据库资源被整合到大型数据库中。目前,世界各地的语言研究者在田野调查中制作了大量具体单语言数据库(大部分是深度标注的),如果能够有效整合这些资源,就能大大加快大型多语种语料库建设,并有效降低建库成本。 自然语言的处理需要使用先进的技术和工具。解决文字编码问题后,如果对标注符号进行规范和统一,就能直接使用或用最小代价改造使用最先进的语言处理硬软件技术,从而大大加快自然语言处理的速度、效度,并降低工具重复开发所付出的成本。 多语种数据库的质量档次主要体现在两个方面:其一,数据库规模。一般按词数计,从百万到上亿,分不同等级。其二,数据标注深度。词级的语法—语义标注为浅层标注,功能—语义标注为深层标注。尽管数据库可以有不同的侧重点,尽管数据库标注是一个逐步深化的过程,但是,有一套思想远见、前后一致的标注体系,就能够满足数据库的不同用途、数据库发展不同阶段的不同需要和不同数据库之间、同一数据库不同版本之间的兼容。 数据标注的通用性并不威胁信息安全。因为任何自然语言数据库,都是对自然语言的处理和使用过程,而任何自然语言都属于明码,具有开放性,所以,一般自然语言处理,不会对国家信息安全构成威胁。另一方面,语言数据库的研制,其目的首先在于信息交流,而不是简单地储存信息,更不是封锁信息,数据库必须有开放性格。但是,任何一种规模化的语言数据库,都是一种高端技术技能和密集劳动的产物,尤其是深度标注数据库是多重综合研究的结果,必然涉及知识产权、著作权问题,在某些方面还涉及信息安全问题。对此可以采取适当步骤。首先,大型、重要数据库必须树立专属知识产权和商标权。其次,部分、有条件地开放数据库。国际上的大型数据库,一般向社会开放几千万字的语料。数据库使用条件可以分有偿转让和信息交换。有偿转让指的是根据服务项目收取一定的费用;信息交换指的是以信息或某种贡献换取数据库使用权。如:个人将自己的小型数据库资源整合到大型数据库,以换取大型数据库的使用权限。此外,对数据库设定密级,密级根据其保护内容设不同档次。概而言之,数据库标注技术一定要保证数据库内部信息(如各语种)交换的通畅性和数据库和用户、数据库和数据库、数据库和其他信息载体(如出版物)之间的信息通畅性。而数据库的使用则是有条件的,可以设不同级别的限制,这两个层面不能混淆,不能相互替代。 “多语种词典标注集逐渐向国际通用格式靠拢”的设想,是笔者在2008年11月24日在北京召开的“中国中文信息学会成立二十七周年学术会议(CIPS2008)”上提出来的。在此之前的2006年,中央民族大学启动了985工程项目,其子课题“现代蒙古语参考语法”在语料处理中开始使用Toolbox数据库软件,研究人员深切感到多语种语料标注规范的重要性,于是向会议提交题为“关于多语种词典的标注集问题”的论文提纲。之后,由于Toolbox软件在使用过程中出现许多问题,一时难以解决,因而改用FieldWorks数据库软件。与前者相比,后者的性能有明显的改进,但是其背后的标注规范——MDF却延续下来。从2013年开始,笔者团队在国内蒙古语、达斡尔语、土族语等蒙古语族语言数据库研制中试用该软件,取得初步经验和成果。2014年1月1日,中央民族大学启动由赵小兵教授主持的国家自然科学基金重点项目“跨语言社会舆情分析基础理论与关键技术研究”。该项目用同一平台处理蒙古语、维吾尔语、藏语、汉语多语种语料,必然涉及多语种语料库标注规范问题,本研究是针对蒙古语族语言多语种数据库标注规范提出的初案。其中,各种标注字段及其简介多引用美国SIL国际夏季语言学院David F.Coward,Charles E.Grimes编写的《词典编纂——词典学及多语种词典格式设置程序1.0版指南》。[1] MDF是针对多语种词典、印刷版词典和反向索引格式设置而开发的计算机程序。于20世纪80年代中期由David Coward与John Wimbish等人编程SHOEBOX程序时开发出来的。Wimbish、Coward和Grimes等人在印尼东部马鲁古省的不同语言区域工作时,曾经对此问题展开讨论,并于1992年9月在印度尼西亚开发出Maluku Dictionary Formatter program,MDF(马鲁古词典格式设置程序,MDF)及其配套文档。后来,该程序进一步得到改进,为用户提供更多的交互式选择,使字段代码适合于印度尼西亚以外的更多用户,改称为Multi-Dictionary Formatter(多语种词典格式设置程序)。由于Shoebox、Toolbox、和Fieldworks Language Exploror等著名数据库相继利用MDF格式,从而使MDF词典格式的影响力日趋扩大。正因为是针对多语种数据库建设需要开发的,所以在探索蒙古语族语言多语种数据库标注规范时,MDF词典格式成为可供参照的首选方案。 二、数据库结构设置 多语种数据库是一个高度结构化的信息平台。数据库结构包括数据结构、词条结构、词类结构和语义结构等。 (一)数据层级结构 数据库使用的字段,以其用途可以分为若干字段组,是按字段的用途分类的,有既定的前后排列顺序。其结构安排如下所示。 1.基本字段组基本字段组表示词汇数据库的基本记录内容。包括基本形式(词位形式、语素类型、词位区分、词位表现、词位发音);基本分类(副词条、词类、义项);基本注释和索引(本地语、英语、国语、区域语言)。其中,词位、词类和注释三者是数据库词条的最低限度记录内容,其他内容都是由此逐次展开的。 2.说明字段组说明字段组从概念、用法和示例说明主导词,包括概念说明(字面意义、学科名称);示例说明(本地语、英语、国语、区域语言、隔行对照);用法说明(用法、百科、限制:本地语、英语、国语、区域语言)等。 3.词功能字段组词功能字段组定义主导词在词网中的位置、关系和变体,包括语言类别(英语、国语、区域语言);词网链接(同义、反义、语素体现、交叉引用、主词条、变体)等。 4.词源信息字段组词源信息字段组说明主导词的来源,包括借词、注释、来源、说明等。 5.词性变化字段组词性变化字段组是词类的进一步展开,提供主导词的词形变化,包括变化形式(屈折、重叠、人称、数、排除/包括、有无生命)、图表等。 6.语义分类字段组语义分类字段组分基本分类和扩展阅读两种,其中语义域分类以Outline of cultural materials“文化素材大纲”为例,首先将人类文化分成11个大类,然后每个大类逐次展开为若干小类,直到终端词族。包括基本分类(语义域、语义索引)、扩展链接(参考文献、图片)。词类是词的语法(功能)分类,词功能是词网中词语间的语义关系,而词的语义域是词义上下位关系或种属关系,每个词条及其分类都有各自的层级结构(见下文)。 7.说明字段组说明字段组实际上就是研究记录,包括一般、音系、语法、语篇、人类学、社会语言学、存在问题等各项,并由此形成对特定语言的多角度分析。但这些多角度分析不是一次完成的,而是逐次完成的,数据库设计者或使用者可以有自己的侧重和偏好。 8.管理字段组管理字段包括信息来源、编辑状态、编辑日期和不确定问题等信息,是数据库操作的历史纪录。 (二)词条层级结构 根据MDF格式,数据库中的词条标注呈层级结构,相关字段代码及其顺序为\lx,\ps(\pn)\sn、\se。每一字段或分字段都可以拥有自己的一套完整的字段标记。 一般而言,\lx的下层为\ps词类,\ps词类是一个词在不同句法位置中的功能,如名词、动词或前置词等。但是,词往往有兼类,它们之间形式相同,意义和功能却彼此不同,因而不同于同音词。MDF的处理方式是将同一词条中的新的\ps字段设置为一个新行。如果一个词条用这种方式安排其子结构,就不再需要义项编码\sn,除非从该词类再分出其他(义项)子结构。 一个词可能有多种意义,义项编码\sn是用来组织一个词条内的各段信息,每条词的不同词类可以有不同的义项,每个词类中的多种义项都以义项1开头。义项还可以细分为下级义项。区分下级义项的原则与区分义项的原则相同;区别在于其程度或范围。下级义项之间的关系比它们同其他义项之间的关系紧密。这些在\sn字段中,可以用a、b、c等进行进一步的分类。 一个词可以有若干副词条\se,主词条和副词条也呈层次结构。在基于词根的词典中,通常围绕多语素形式建立这种层次结构。\se和\ps字段在词条中从新行开始一个新段。\sn字段依然在同一行上排列。其关系如下所示: \lx词位 \ps词类 \sn1,\sn2…… \ps词类 \sn1,\sn2…… (三)词类层级结构 词典中的词类是词的语法功能标记,同处一个形态—句法网络并共享一组属性的词构成一个语法范畴——词类,词类标记在词典数据库中使一个词位区别于其他范畴的另一个词位。词类标记是意义和语法之间的一种链接。作为意义类,词构成“名词”“动词”等抽象范畴,作为语法类,不同类的词在句法中有不同的分布和功能,作为形式类,词可以分为有变化词和无变化词,词的形态变化与词的义类和语法功能相联系。词类还可以下分子类,由此构成词范畴的层级结构。 不同的语言有不同的分类法和层级结构,因而需要认真对待词类层级结构。形态分析器的运行效率与词类范畴的层级结构密切相关。 (四)语义层级结构 在数据库中,语义分类也呈嵌套层级结构。见附图1。以Outline of cultural materials大纲为例,从最基本的11个大类到具体的一个词,是一个由大到小的展开过程,从词到类,从小类到大类,是词义的从小到大的概括过程、范畴化过程,词是从具体实意逐渐抽象化、词族化,并与某种形式共性标记相联系的。具有语义共性、形式共性、句法分布和功能角色共性的词的范畴化,就是词类。从词的语义结构可以看到词的上下位关系、种属关系和词义的分布,有些词可能是跨类的,有些词可能是某类专有。词的语法分类和词的语义分类是描述词的用法及其限制条件的常用手段。 三、字段编码设置 (一)字段编码 MDF的字段以其功能构成字段组,其前后排列顺序是由程序设计者推荐的。以前后一致的字段顺序对数据字段进行排序,其目的是控制词条数据字段顺序,以保证词典和反向索引字段顺序的一致性。字段的既定顺序是可以改的,但需要对MDFDICT.CCT文件进行编辑“调整”,要求用户熟悉CC文件编辑技能。 MDF格式的字段基本顺序是:\lx\hm\lc\se\ps\pn\sn。例外情况有:第一,如果\lc字段有数据,\lx、\hm和\lc字段被激活;第二,如果有对应的定义字段(\de、\dn、\dr或\dv),就不打印注释字段(\ge,\gn,\gr,或\gv);第三,一般不打印反向索引字段和词级注释字段;如果需要打印(通过更改设置菜单选项),将其成组列入定义字段后面(而不是将其混在一起)。 字段使用哪种标签,可根据数据库受众确定,可包括民族语、国家通用语(简称国语)和英语。在中国少数民族多语种数据库中,可以用汉语标签做国家通用语标签。 (二)字段用途 数据库字段按其用途,大致可分为基本字段组、说明字段组、词功能字段组、词源信息字段组、词性变化字段组、语义分类字段组、说明字段组、管理字段组等。 1.基本字段组基本字段组包括词位、谐音词/同音词/同形异义词、引用形式、语音形式、副词条、词类、词类(国语)、义项编码和语素类型(后加的)等,是一个词汇数据库最基本、最常用的几个字段。这些字段是:\lx词位,是用来分隔词条的主字段或主标记,被标记词称作词目或主导词,标记形式为[\lx nara]。粘着语素列于前置连字符之后或后置连字符之前。对每个词条而言,该字段是必需的;\hm谐音词/同音词/同形异义词,标记形式为[\hm1、\hm、2\hm3]。不同的同音词单独设词条,这有助于对词条进行正确排序。\lc引用形式,给出粘着词根完整的表层形式,在最后的输出文件中体现为词位形式。在输出印刷版词典时,字段\lc形式替换字段\lx形式,标记形式为[\lx nara-,\lc naran];\ph语音形式,只有在实际拼写符号的语音信息不够明确时,才用这个字段标记其实际发音;\se副词条,主要用于词根语素,而不用于按表层形式组织的词条,如英语的put out,不把该短语单独列为一个词位形式,而是将其组织为主词条下的\se字段内容;\ps词类,用于对本地语词形式的分类,标记形式如[\ps vt,\ps n,\ps PREP,\ps PRO]。词类标注的一致性至关重要,国语词类标记字段\pn,须置于\ps字段之后,如果字段顺序被颠倒,就不能正确设置词典输出格式;\sn义项编码,用于区别词的多种义项或次要义项。如果词条(或副词条)有多种义项,此代码将给出顺序码,并标记每个义项的起始点。标记形式为[\sn 1,\sn 2,\sn 3 1),2),3)],程序在反向检索中自动引用正确的义项编码。 本地语、英语、国语、区域语言等字段统称为“注释—定义”字段组。注释不等于定义,注释字段用于隔行对照、编制反向索引,如果没有反向检索字段,那就提供该词最基本的、但不甚精确的含义(后一功能往往叫做对译词或近译词)。这种注释往往适合于翻译主导词在某些(不是所有的)上下文中的含义。有时候,同一个形式可适合所有这些目的,那么只使用\ge字段。注释字段有词级注释和语素级注释的区别。 定义是对词位含义所做的认真、精确的描述。非严格定义往往被扩展为注释或词位的一般性解释。如果设置定义字段,词典中将会打印该字段内容。如果不用定义字段,打印文件中注释字段(\ge等)代替定义字段内容。 2.说明字段组可分为概念说明、示例说明、用法说明三种。 概念说明,用于说明主导词的字段,主要从“字面意义”和“学科名称”说明主导词,因为字面意义和实际意义不一定一致,学科名称和本地命名不一定一致。这些字段是:\lt字面意义,成语或词位的字面意义与给定注释或定义明显不符时使用该字段;\se学科名称,用于标记已知相关信息,如:有关植物、动物、鸟类和鱼类等的学科名称,其标记形式为[\sc袋貂属spp]。 示例说明,用于例句的字段组,包括示范词语用法的各种语言例句和例句的交叉引用。在一个主词条中,对每个义项和副词条,最多可以使用五个不同的例句。打印时对这些例句按顺序进行打印。其字段有:\rf参考文献,指的是显示例句来源的数据笔记本、文本来源名称和例句编码,等等,标记形式如[rf C-89-2:34,\rf戴庆厦2015.];\xv示例(本地语),用规范的本地语编写的例句,举例说明每个独立的义项;\xe示例(英文意译),即\xv字段示例的英译;\xn示例(国语意译),即\xv字段示例的国家通用语译文;\xr示例(区域语言意译),即\xv字段示例的某区域语言翻译;\xg示例(隔行对照注释),希望在词典中包括\xv字段区域语言注释时使用该字段。 用法说明,这类字段用于说明词的意义范围和用法,包括三个内容。第一,提供词语不同用法及其环境,其中最重要的莫过于说明搭配条件;第二,提供词语的知识库背景;第三,提供用法限制。这三个内容都有不同的语言选项。如:\ue用法(英语),说明词语的社会用法、区域、语言区域或方言。在此也可以记录词语的语用意义,如消极言外之意等,如:[\ue archaic,\ue ritual,\ue Used by same-sex siblings,not opposite-sex siblings.,\uetaboo,\uevulgar,\ue Rana dialect,\ue H(igh register)]。该字段内容可能同词功能字段(\lf),如:SynT(aboo)、SynD(ialect)或SynR(egister)等重叠;\un用法(国语),类似\ue字段,如:[\ue古词,\ue仪式用语,\ue同性兄弟姊妹之间用,异性兄弟姊妹之间不用,\ue禁忌,\ue俗语,\ue某方言,\ue高层语言];\ur用法(区域语言),\uv用法(本地语);\ee百科信息(英语),该字段对那些不熟悉当地社区知识背景的人提供有关\de字段内容的描述信息或民族志信息;\en百科信息(国语),\er百科信息(区域语言)、\ev百科信息(本地语)等以此类推。\ee及其相关字段\ev\er\en)是通用字段,可记录近100个MDF代码无法涵盖的其他事项。MDF不会对\ee字段内容进行格式设置,即按其输入样式进行打印,字段内容前不置斜杠标签;\oe只用于(限制—英语),用于说明主导词的语义或语法限制,标记形式为[\oe human;\oe female;\oe not said for siblings of opposite sex;\oe collocates with non-active verbs only];\on只用于(限制—国语),类似\oe字段,如:[\oe人类;\oe女性;\oe不用于异性兄弟姊妹;\oe只与非主动动词同现];\or只用于(限制—区域语言)、\ov只用于(限制—本地语)以此类推。 3.词功能字段组根据词功能学说,我们可以在词的文化关联中对词义进行系统考察,将一个词位同母语人能够联想的其他词和短语相联系,而不管其形式是否由该词派生出来,并同它共享一个词根。基此,可以将一种文化的语义网络映射出来。可作为起点的词功能字段有:Ant反义词;Caus表示原因的;Compound用其他词功能不易处理的词化复合词;Cpart对立项(补足语,对立词项);Degrad减弱级或状态;Feel与主导词联想的情感或感觉;Gen类属的;Group集合的/集体的;Head群体头目或首领;Idiom习语,成语;Mat构成主导词的材料;Max主导词最高级;Min主导词的递减级;Nact施事者名词;Nben受益名词;Ndev动词派生名词;Ninst工具名词;Ngoal动作目标名词;Nloc处所名词;Nug受事名词;ParS对应,表示与主导词相同;ParD对应,表示结局程度不同;Part主导词的一部分;Phase主导词短语;Prep活动准备;Res结果或结局状态;Serial用其他词功能处理不净的习惯动词系列组合;Sim同一层级别中的相似类型;Sit通常与主导词相关联的情况或行为;Sound与主导词相关联的发音;Spec特殊(种类,类型,物种);Start主导词始相(开始体);Stop主导词终相(开始体);Syn同义词(语义范围相同);SynD同一语言其他方言中的同义词;SynL完全同化进该语言的借词同义词;SynR同一语言其他使用域中的同义词;SynT禁忌语同义词;Unit主导词的单独出现;Vwhole整体动词;Whole主导词是整词中的一部分。对这些字段可以进行编辑和扩展。 “词功能字段”和“词网链接字段”密切相关,词条的功能之间,词条的不同形式之间用交叉引用相互连接,使之构成词网,其中包括“词功能、语素体现形式、交叉引用、主词条形式和变体形式”等字段。“功能、交叉引用、变体”等字段都有不同的语言选项。 \lf词功能:用来建立词网映射关系,其效果是,在词位与相关词条之间建立交叉引用关系,其中包括各种类型的同义词、反义词、部分—整体、一般—特殊、典型施事者、受事者、工具、所用材料,等等。如:\le词功能(\lf字段的英语注释)、\ln词功能(\lf字段的国语注释)、\lr词功能(\1f字段的区域语言注释)等。 词网链接:\sy同义词;Syn同义词,在多数上下文中可以替代主导词的形式(大部分是近义词,完全对等的同义词是罕见的);SynD方言性同义词;SynL借入性同义词,借词被同化为日常用语(经常或频繁使用有时会使借词逐渐适应本地语语音结构),等同或能够替代主导词;SynR语域性同义词,另一个语言区域中的同义词;SynT禁忌性同义词,通常是同义词,但也有不同的非禁忌使用范围,经常词汇化为婉言词语;Gen概括词(上位词),是一类语义泛于或包容主导词的词,其间有概括—特殊(专门)语义关系;Sim近义词,是接近同义词或本地人分类法中同层次的其他词语,从属同一概括词,用来说明主导词;Nact施事名词,动作的发出者,暗示习惯的或特有的联想;Nug受事名词,典型的动词受事,如果没有特别强调,受事可以是隐含的;Nloc处所名词,通常是与主导词相关的处所名词;Ninst工具名词,与主导词行为相关的工具名词,如果不强调,工具可以是隐含的;Nben受益者,从活动或行为中受益的人,如果不强调,受益者可以是隐含的;Ngoal目标名词,与主导词相关或被隐含的典型的、不言而喻的目标;Ndev派生名词;Res结果,后果、结果状态或事件;Whole整体名词,主词条是其中的一部分;Part整体的一部分,主导词是其整体;Mat材料,用于制造主导词的材料或其构成材料;Vw整体动词,是整体的反面;Serial习惯化的系列结构;Compound词化的复合词,使用主导词的复合词;Sit状态,涉及主导词的状态或通常与主导词有关的活动;Prep准备活动;Phase周相,如:建筑、制造、成长、时间周期等进程;Max最高级;主词条的程度或极限程度;Min减弱级,主词条最小化或处于减弱状态;Degrad降级,恶化或败坏状态;Caus原因;Start启动的,始相,指初始阶段、启动的、表始的;Stop终止的,终相,指最后阶段;Feel表示感觉的主导词,在多数情况下适合于指感觉、症状和身体部分的感觉(如鼻子痒痒);Sound可以是说话声或其特征为主导词所拥有;Cpart互补词,或对立词(相反词,但不是反义词),没有文化上的过渡段,或按进程或规模分类的等级差,不能用“更多”和“少一些”这样的概念;\Ant反义词,进程或规模的两个极端,可以用“更多”和“更少”;Head某群体首领;Group集体,集体或群体名词主体词;Unit主导词的单一单位,指的是单一部分或频次;ParS对偶词(相同词),并行词多用于程式化的语言、宗教仪式或诗歌文本中,(在此语境中)是主导词的有效对应词;ParD对偶词(不同词),并行词多用于程式化的语言、宗教仪式或诗歌文本中,表示主导词的对立、反义或互补范畴;Idiom成语,使用主导词的习惯表达;\mr形态学,语素表现形式或形态音系有变化时,指明其基本形式;\cf参看其他词条/同其他主导词的交叉引用,如:bow(弓)对arrow(箭)、mortar(杵)对pestle(臼),反之亦然;\ce交叉引用(英语注释),当词间语义关系不甚清楚时,利用现有词条的交叉引用进行注释;\cn交叉引用(国语注释)、\cr交叉引用(区域语言注释)等以此类推;\mn主词条交叉引用,用于次要变体指向主词条的交叉引用,因为从主词条可以获得更加充足的信息;\va主导词变体形式,可以被看作是\mn字段的反面。在此列出附着形式、语音交替形式或拼写替代形式。这些变体形式一般指在词典其他地方能够找到的副词条;\va字段组还可以用来记录方言变体,\ve变体(英语说明)、\vn变体(国语说明);\vr)变体(区域语言说明)等,以此类推。 4.词源信息字段组“主导词词源信息”,说明词条来源,并对其进行注释或词源学说明,包括:\bw借词,标记形式为[\bw梵语(Sanskrit),\bw斯瓦希里语(Swahili),\bw西班牙语(Spanish),\bw马来语(Malay)];\et词源学(历史的),给出词条的原始构拟形式,只引用那些得到证明,并且公开出版的构拟形式;\eg词源学注释(英语),记录构拟形式的语义注释,据此可以看到语义的连贯性或演变情况,如:[\eg bowels];\es词源学来源,记录\et字段构拟形式的来源,如:[\es Blust 1993:46;\es PANDYMPL];\ec词源学说明,如果主导词和构拟形式之间的联系并不直观,则将相关说明文字置于该字段。该字段还可以用来记录倾向性的未经证实的构拟形式及其数据支撑。 5.词性变化字段组“语法词性变化字段”提供词形变化列,如:名词类、动词类、性别、数、格或其他词性变化形式(包括变化形式和图表等)。字段包括:\pd词性变化,用于识别主导词所属名词类、动词类、性别类或其他词性变化,可能包括列字段:\sg单数形式;\pl复数形式;\rd重叠形式;\1s第一人称单数形式;\2s第二人称单数形式;\3s第三人称单数形式;\4s非人类或非生命体单数;\1d第一人称双数;\2d第二人称双数;\3d第三人称双数;\4d非人类或非生命体双数;\1p第一人称复数;\1i第一人称包括式;\1e第一人称排除式;\2p第一人称复数;\3p第三人称复数;\4p非人类或无生命体复数,等等。 “字段中的固定格式”,指的是图标,用法灵活,动植物分类、词性变化、概括词—专用词关系等都可以用到图标。如,\tb(图),该字段用无格式形式记录文本。用户输入的换行符和制表符将被保留。 6.语义分类字段组这类字段用某种分类方法(语义域、语义索引和分类词汇等),将主导词和其他相似范畴相链接。这些字段对语义分析很有帮助。语义域字段可包括: 名词部分:Nagri农业;Nanim动物;Nboat船舶;Nbody身体部分;Ncult物质文化;Nfish鱼类;Nfood食物;Ngovt政府;Nhouse房屋;Ninsect昆虫;Ninstr工具;Nkin亲属称谓;Nloc处所;Nnature自然/气象学;Npart整体—部分;Nplant植物;Nresult结果;Nrit宗教仪式;Nsick疾病/医药;Nsocial社会关系(非亲属关系);Ntime时间。 动词部分:Vaffect施力(打、踢、砸、捶);Vagri农耕;Vbody肌体功能;Vcarry携带动词;Vcog认知动词;Vcolor颜色动词;Vcut切割动词;Veffect效果动词;Vemot表情动词;Vevent命名或描述整个事件的动词;Vexchange授受动词(给、收、取、得);Vhit冲撞动词;Vhold抓拿动词;Vhunt狩猎动词;Vmotion运动动词;Vposture姿势或休息动词;Vrit描述仪式行为的动词;Vsee感觉动词;Vsize表示尺寸的动词;Vsocial表示社会关系的动词;Vspeak言语动词;Vspeed速率动词;Vtouch触摸动词;Vvalue论价动词;Vweath天气变化动词(下雨,起雾);Vweight称重动词。 形容词部分:ADJage年龄;ADJbodily肌体功能;ADJcol颜色形容词;ADJemot情感/嗜好;ADJphys性质(硬、干净、热);ADJsize体积;ADJspeed速度;ADJtext质地;ADJval评价(好、坏、良),等。 语义域的基本分类字段包括:\sd语义域,该字段的使用有助于专业分析或从整个词汇库抽取某种主题的子集(如植物、动物词汇等)。可以将其放在\ps字段后毗邻位置,用\ps指明词条严格意义上的所属范畴(例如\ps vt),用\sd字段表示其选用限制。如果语义相关,一个字段中可以列出多个语义域,或对每个义项分别使用独立的。标记形式为[\sd Nkin,\sd Nplant,\sd Vcut,\sd Vspeak]。\is语义索引,可用于本地语语义范畴,用此进行反向检索,将产生用各种语义域系统[2-4]分组的、语义上彼此相关的词条。\th分类词汇集(本地语),用于本地语类属词,这些类属词反映出本地语使用者对主导词进行的区别性范畴分类。使用该字段有助于后期分析或提取并出版分类辞典或词汇专辑。标记形式为[\th utan]。 扩展链接包括“参考文献”和“图片”等扩展阅读或外部链接信息,包括:\bb参考文献,表示有关某词位的扩展阅读参考文献。这些词通常是语法词或具有人类学意义的词位。标记形式为[\bb BDG1991:328,\bb Schut 1917]。\pc图片,可以是数据笔记本中的一段内容、一张照片或词典编纂者搜集的幻灯片,出版物中的图片或照片,或者是一个电脑图形文件链接(例如,file.PCX)等。 7.说明字段组“说明字段”,包括一般的和专门的(音系学、语法学、语篇学、人类学、社会语言学、存在问题等)各种说明,内容宽泛。如:\nt说明,指一般说明字段,可以包括某字段的任何说明。可位于词条、副词条或义项的任何位置。标记形式如[Note:…]。这类字段有:\np说明:音系学和形态音系学的、\ng说明:语法学的、\nd说明:语篇学的、\na说明:人类学的、\ns说明:社会语言学的、\nq需要进一步调查核实的问题。这些字段是供编纂者使用的。 8.管理字段组用于字段编辑和控制等数据库内部管理的字段。如,\so数据和信息来源,当词典编纂工作涉及不同信息来源、多个研究人员或一个研究团队时,该字段具有重要意义。标记形式为[\so informant's name/initials,\so researcher's name/initials,\so village name/code]。\st编辑或打印状态,标记形式为[\st no print,\st done,\st check]该字段可用于那些不需要在词典中出现的词条,或用于标记那些打印前需要进一步编辑的词条,字段内容通常不打印。\dt日期,字段最近编辑日期,由DATESTAMP(日期戳)功能自动添加,通常不打印。\??不确定字段,程序遇到不能识别的字段内容时,将其放入方括号内,置于词条末尾,开头用双问号,如,[??…]。 四、缩写词形式设置 数据库中使用缩写词,实际上就是术语的代码化,通用、简短、一致性是缩写词的三个主要特征。通用,指的是缩写词尽可能使用跨语言的通用术语作为基础,比如英语;简短,指的是缩写词要尽可能简短,防止隔行对照时注文溢出;一致性,指的是缩写词的使用前后要高度一致。 词类标注用缩写词有:ADJR形容词化;MDL模式;ADV副词;ADVR副词化;NEG否定的;AFFM肯定的;NEGimp否定祈使语气;AL可让渡的;NOM主格的;AN有生命的;NOMR名物化成分;APPL裨益格;n名词;ART冠词;NUM数;ASP体;AUX助词;PTCL小词;PART分词;CLASS类别词;PAUS停顿词;CMPAR比较级;PL复数;CMPLR补语化成分;POSS/P所有格;CNJ连词;POSSR所有者;COND条件(词,句);POST后置词;CONF证实的;PREP前置词;CONN连接词,连词;PRO代(名)词/代词性的;COP系词;PropN专有名词;DECL陈述的;Q疑问的;DEIC指示的(空间的和时间的);QNT量词;DEM指示词;DIR定向的;REC互动;REL关系(化);EVID示证的;RFLX反身的;EXASP(不知对译词);RLR关系词;TAM时-体-式;FOC焦点标记;TIME时间表达;TNS时;HORT劝告的;TR及物(化));ID习语,成语;v动词/动词的;IMP祈使式;Vi不及物动词;INTJ感叹词;vm中间动词;INT/Q疑问句;non-agentive passive无施事被动句;ITR不及物(化);vn非主动态动词;vp被动态动词(带施事的);vr(反身动词/类反身动词/内指动词;LIG连字,合体字母;vt及物动词;LOC处所格;vt/i模糊及物动词。 一般注释用缩写词:A施事;HON/H敬语:ABL从格;HUM人类;ABS绝对格;i.e.即;ACC宾格;IMM直接的;ACMP随同格;IMPRF未完成体;ACT行为/施事;IMPRS无人称;ADDR称呼;INAL不可分割的;ADVNC提升(IO→DO);INAN非生命的;ADVS转折的;i/INC包括式;AFFT情感的;INCEP表始(体);AG施主/施事(的);INCHO起始(体);ALL向格;INDEF不定的;AN有生命的;INF不定式的;ANTP反被动;INST工具格;arch.古体的;IO间接宾语;AITR定语的;IRR未然;BEN受益格;IT反复(体),多次(体);CAUS使动(态);JUSS表示命令的;CESS(不知对译词);k.o.某种;CIRC间接的;COIL集合的;Lit.字面上,COM随同格;COMP补足性的;MAN方法,方式;CONC让步的;M/masc.雄性,阳性;CONT持续体;MOD修饰语;DAT与格;NARR叙述的;DEF定指;NEC必然的;DER派生的;NFUT非将来时;DES意愿式;NHUM非人类;DIM人称;DIST末端的;O/OBJ宾语;DISTB个体词;OBL旁格;DO直接宾语;obs.废弃的,旧的;DUB质疑式;opp.相反的;DS不同主语;OPT祈愿语气;DUR连续体;PAT/P受事者;e.g.例如;PTT部分;EMPH强调;PASS被动的;ERG作格;PAST过去(时)的;etc.等等;PRF完成体;e/EXC排除式(第一人称);PERS人称;EXCLM感叹句;PIV枢纽、中心;PRES现在(时)的;FACT使役式;PROG进行时;F/fem.雌性、阴性;PROX近指的;FIG比喻的;PURP目的;FREQ反复动词;FUT将来(时);QUOT引用语;GEN/G领属格;REAL/R实然;GER动形词;RED重叠;REF所指/相互关系词;HAB惯常体;REM远距离的;REP反复体;RES结果的;TEMP时态的;TOP话题;sp.种类;TOPR话题化;spp.种类(复数);s.o.某人;U/UG受事者;s.t.某事;S/SUBJ主语;viz.即,就是;SPEC特定的;VOC称呼语;SS相同主语;VOL意愿式;STAT(动词)状态的;VP动词短语;SBJV假设的,虚拟的;vs.与……相对;SUP最高级。 亲属称谓用缩写词有:B(兄(弟);M母亲;C子女;(m.s.)男性用语;D女儿;P父母;e年长的;S儿子;F父亲;W妻子;(f.s.)女性用语;y年少的;H丈夫;Z姐(妹)。 表示扩展的亲属称谓MDF的策略是组合使用亲属称谓缩写。例如,WBW表示“舅妈”(妻子兄弟的妻子)、MB表示“舅舅”(妈妈的兄弟)。用此方法,在不增加基本符号的前提下,可描述大部分亲属关系。 代词及其缩写词。对人称代词和指示代词尽可能用短的缩写形式。通过使用小写数字,可以自由使用大写字母来标记语法和语义范畴。标记形式见“词性变化字段组”。 借词来源与民族接触和语言接触有关,因而有一定的范围。有两种方案可供选择。第一,尽可能使用被当地社会广泛接受的缩写形式,比如汉语对中国少数民族语言的缩写形式:蒙、汉、维、哈、朝、苗、壮、满、达、锡。第二,试用国际上比较通用的民族语代码,优点是能够把代码细化到国家、地区和方言,缺点是不直观。对借词来源,如果都用缩写形式,那么根据最低要求,最好使用被公众广泛接受的习惯标记法。例如,用Eng(英).而不用Engl.,用Port.(葡)而不是用Portug.,用Skt.(梵),而不用Sans.。 五、字符格式设置 根据MDF格式,所有字段在打印时都将获得一个基本字符样式。如,\ge字段被标记为“英语”字符样式、\gn字段用“国语”字符样式。字段标记“本地语”字符样式涵盖所有交叉引用类字段\cf、\sy、\an,当然还包括\lx、\se、\xv等字段。因为每个字段中的数据只用一种语言,所以为其自动分配字符样式不会有大的问题。整个字段中的内容使用相同字体。但是“开放式”(free-form)讨论字段,与此有所不同,MDF为所有这类字段中的字符提供直接格式设置。 字符样式用字段有:fn:国语字体;fe:英语字体;fr:区域语言字体。字符格式用字段有:uc:下划线字。uc:代码能够检测出使用的是哪种类型的字段。如果是本地语字段,uc:将其变成下划线粗体字(随本地语字符样式);如果是国语字段,uc:将其转成下划线斜体字;如果是英语字段,uc:将使用带下划线的普通字符。如果需要特别控制,则使用ui:和ub:字段。ui:下划线斜体字;ub:下划线粗体字;sc:学科名称——下划线斜体。 此类编码及其标点符号的输入有其特殊要求。 六、标点符号设置 直线数据字段的末尾不加任何标点(如,\ps、\ge、\cf等)。只有开放式(讨论用类型)字段(\ue、\ee、\nt等)内容的中间和末尾使用标点。所有其他字段内容的末尾标点由转换过程自动添加。其他可选用的惯用符号有:*构拟形式(历史的);**中间假设形式(历史的);[…]隐含信息[放括弧];/选择性解释[or];-语素界限;(PRES.PROG)混成语素(PRES.PROG);=复杂单位重叠;~照……变化,跟着……变化。蒙古语多语种数据库标注规范研究_语义分析论文
蒙古语多语种数据库标注规范研究_语义分析论文
下载Doc文档