学习词典中成语例句的用途分类与提取
张永伟
[摘 要] 现代词典编纂离不开语料库,语料库可以为词典编纂提供大量例句。编纂词典条目时,编纂人员需要在整个编纂过程中花费大量时间查阅、分析、挑选例句,极为不便。为解决这种窘状,本文以学习词典中成语为例,按用途将例句分为归纳语义用例句、补配释义用例句、验证释义用例句三类,并分别提出了这三类例句的提取方案。与不分类的例句提取相比,该方案有助于例句查询的简便高效,义项的归纳准确全面,例句使用的适配可靠。该方案也适用于其他类词语的例句提取。
[关键词] 学习词典;成语;用途分类;例句提取;语料库
一、问题的提出
学习词典指以学习为目的的词典。自《说文解字》开始,例句就开始成为词典的重要组成部分。法国《小拉鲁斯插图新词典》中有一句著名的格言:“一部没有例句的词典只是一堆骷骨。”[1]针对学习词典,李红印(2008)指出,学习词典(特指外向型汉语学习词典)更应该加强词目的造句处理。[2]张志毅等(2015)指出,学习词典应该提供比普通语文词典更丰富的例句。[3]
本研究主要探讨HBO治疗对SNFH中期的保护作用,研究通过交叉对照试验,比较组内及组间HBO治疗之后的差异,发现HBO治疗可以改善SNFH中期的Harris评分、骨髓内的水肿程度以及提高SNFH中期患者的疼痛缓解有效率,但是不能改变股骨头坏死指数、股骨头坏死面积。这提示HBO治疗对于改善SNFH中期(ARCOⅡa~Ⅲa期)的临床症状及骨髓水肿程度具有一定的临床价值,但是HBO治疗无法改善SNFH中期已经出现的股骨头坏死,无法逆转病情。
语料库和语言信息处理技术对辅助词典编纂的作用越来越重要。李宇明、庞洋(2006)指出,语料库可以帮助选择或剪裁例句。[4]王均松、田建国(2013)认为借助语料库可短时间内获取大量可用例证,并筛选出可以代表某种语言现象的典型例证。[5]编写词典过程中,编纂人员可以借助语料库检索系统查询例句、挑选例句。
普通语文词典收录的词语使用频次较高,通过语料库检索系统检索得到的例句数量众多,质量参差不齐,为编纂人员的例句阅读和选择带来许多困扰。比如戴宝玉(2011)曾感慨,从语料库中提取例句时需要从大量例句中筛选,耗时长久。[6]
为了解决例句选择的困扰,许多研究者尝试从不同角度提供解决方案。比如,李德俊(2015)建议利用词性标注、句法标注以及索引行设计等语料库配例方法,以在语料库中快速准确定位合适的例证。[7]单天罡(2013)建议采用建立专门的例句语料库的方法,来解决在专门语料库或是开放的网络新闻中搜寻对外汉语词汇教学用例句时遇到的种种不便和问题。[8]该方法也可供提取词典例句时借鉴。
本文选择成语例句作为研究对象,是因为成语的配例主要是例句(整句例),很少使用词例、短语例,便于问题的聚焦。
二、例句的来源与用途分类
(一)例句源于书证
有的研究者认为,为了给出词条的源流演变,注明出处会占用更多篇幅,给出历时典型用法可能干扰词条用法描述,甚至影响对词条的理解。[10]30这种担忧主要是针对普通或专业的语文词典而言,对学习词典,尤其是学习词典中的成语而言,这种担忧则完全不必要。学习词典重在介绍成语的用法。了解成语的出处、语义的历时演变固然重要,但并非所有成语的源流演变都需要学生了解掌握。学习词典给出每条成语的源流演变,反而会增加学生负担。学习词典只需要给出特别需要学生掌握的成语出处、语义的历时演变内容即可。其他成语的源流演变,学生可以查阅更系统、更专业的成语专门词典获得。
自编例句难度较大,通常生造性明显,生命力较弱,典范性不足,容易出现不合情理或语法、逻辑等方面的问题,不同编者编出的例句风格也不统一。[9];[10]31-32;[7];[11]再者,自编例句的方法也违背了真实性原则。这就要求学习词典中成语例句应直接使用书证或改编自书证,尽量避免使用自编例句。
1.1.3 主要仪器 鼓风干燥箱(DHG-9123A,上海精宏实验设备有限公司)、分析天平(TP-214,美国DENVER公司)、分光光度计(T6,新世纪北京普析通用仪器公司)、锤式旋风磨(JXFM110,杭州大吉光电仪器有限公司),超声清洗机(DL400B,上海之信仪器有限公司)
有的研究者认为,书证例句提供语境相对完整,但拖沓冗长。[10]30候选例句数量比较少时,难以从中选取长度适中的例句。权威语料库中的句子都可以作为书证。随着语料库的不断增多,规模不断增大,语料库可以提供海量例句。学习词典中的成语均较为常用,所以例句数量更多,也更容易直接从语料库中选取长度适中的例句。
例句按来源不同分为书证例句(真实例)、自编例句、改编例句三类。有的词典所有例句均源自真实语料,如《新华成语词典》(商务印书馆,2002)、《成语大词典》第2版(商务印书馆国际有限公司,2016)等。有的词典所有例句均为自编例句,如《商务馆学成语词典》(商务印书馆,2010)、《新华语典》(商务印书馆,2014)等。也有的词典例句有多种不同来源,比如《商务馆中学生成语词典》(商务印书馆,2008)的例句以改编为主,自编为辅,《现代汉语小语典》(人民教育出版社,2008)是同时采用书证与自编例句。更多的词典是混合使用多种不同类型的例句。
此外,有的研究者还认为,书证语料库的制作、最新语料的增补,以及例句的原文核查都需要花费额外时间,大大增加了编纂人员的工作量。[12];[10]30词典编纂需条目编写人员和资料处理人员分工合作,语料库的制作、动态增补应该是资料处理人员负责且擅长的工作。此外,规范的语料库在研制时,通常都标注了语料的来源。取自语料库的例句自然也可以获取例句的篇章出处,所属段落等信息。借助语言信息处理技术,可以即时给出例句出处,从而大大降低例句原文核查的工作量。
JEV P3株C基因的PCR扩增产物经琼脂糖凝胶电泳检测的结果如图1,C基因大小约381 bp,与理论大小相符。
许多研究者认为,使用书证也存在一定的弊端,以下介绍几种典型的观点。
书证例句的语言规范,伴随的语境能帮助读者理解词条语义,此外书证选用方便,具有真实性、权威性、典范性、自然性,[4];[12];[10]30这些都是书证例句的优点。因此,学习词典中的例句应全部源于书证,尽量直接使用书证,迫不得已可以使用改编后的书证例句,尽量不使用自编例句。
(二)成语例句的用途分类
许多研究者从不同的角度对例句进行分类。比如,刘军怀(2010)按来源的不同将例句分为引例、自编例和半引半编例三类;按语体的不同分为书面语例句和口语例句;按例句内容所涉及题材的不同分为生活化例句和科学化例句;按是否符合语言规范分为正面例句和反面例句,等等。[12]张宏(2012)对前人关于普通语文词典和学习词典的例句功能分类也进行了系统的梳理与分析。[13]这样的研究成果很多,不再赘述。
这些分类对象都是出现在词典中的,读者可见的,用于补充配合释义的例句(本文称之为补配释义用例句)。除了补配释义用例句外,还有其他许多不同编纂阶段需要使用的例句。比如,归纳词条释义时,对归纳的释义进行全面性、系统性或者有针对性的验证时,都需要参考词条使用的真实上下文,即词语所在的真实句子(或句群)。在编纂过程中使用的这些句子也是例句。基于例句在词典编纂过程中的不同用途,本文将例句分为归纳语义用例句、补配释义用例句及验证释义用例句三类。
1.归纳语义用例句
2.2.4 右侧乳腺受照剂量体积对比 3组调强治疗计划健康右侧乳腺的剂量和受照体积参数见表5。3种计划的Dmean、 V5、V10等处三者间差异不具有统计学意义,均能很好地保护右侧乳腺。
平衡语料库指全面反映汉语使用面貌的语料库,兼顾汉语使用的各行各业、各种语体、各种汉语语言形式的语料,具有权威性、代表性、平衡性。教材教辅库由学生使用的语文教材和教辅材料组成,通常需要自建。词典例句库由多部权威词典中成语条目的例句及相应释义组成,通常也需要自建。词典例句库需要按条目、分义项提取每条成语、每个释义所搭配的例句。词典既可以是成语专门词典,也可以是包含成语的一般语文词典。所有语料库都应尽可能地标记语料出处,包括篇名、作者、词典名、版本等信息,以便例句的校对和原稿复查。
从不同词典对成语的义项选择呈现不难看出,绝大多数的成语都选择并呈现单一义项。但是,不同词典对同一成语义项个数的选定存在较大差异。例如,“昏天黑地”在《现代汉语学习词典》中有5个义项,在《新华成语词典》和《汉语成语小词典》中分别有3个义项和1个义项。“不堪一击”在《汉语成语小词典》中有2个义项,在《现代汉语学习词典》《新华成语词典》中都只有1个义项。“不声不响”在《新华成语词典》种有3个义项,在《汉语成语小词典》和《现代汉语学习词典》中分别有2个义项、1个义项。上述统计也同时说明了成语义项的个数和词典规模不成正比关系。
除了消息认证性和完整性外,签名还能提供不可否认性服务,即当签名人抵赖所签署过的消息时,签名σ可以提交给第三方仲裁机构来判定。除了上述3个多项式时间算法外,数字签名方案还需要满足一定的正确性要求:签名人所签署过的消息签名对必须以压倒性概率通过验证算法。
现在有很多银行都推出了一些“儿童账户”,得到了不少家长的欢迎。但是很多人的做法仅仅是用子女的名字开设一个账户而已,存款、取款的业务则都是家长包揽。其实,家长们不妨带上自己的孩子亲自办理一些基础的银行业务,告诉他们为什么要把钱存在银行里,不同年限的存款利率为什么会不同,如何填写存单和取款单,怎样给外地的爷爷奶奶汇款,等等。
理论上讲,归纳语义用例句要求“多而全”,即例句数量越多越好,语义覆盖越全越好。但是,这容易导致例句数量过多,需要词典编纂人员花费大量的时间阅读和分析。这个问题可以从两个角度解决:一是剔除完全不合用例句以削减例句数量;二是对例句按成语语义进行聚类,将例句划分为不同类别。
The patient underwent open right-sided partial nephrectomy.
有学者认为作为移动互联网时代的网络编辑,要提升信息产品的原创力与掌控力、平台适应力与创新力以及与信息用户的亲和力[18]。作为新时代的网络内容编辑,不仅要精通网络信息内容的生产和制作,而且要懂得如何设计和营销信息内容,使内容信息能够促进行业企业的生产经营,提高网络信息的应用价值,扩大信息的传播力和影响力,在为社会传播正能量、促进社会经济发展的同时,有效促进网络媒介自身的经济发展。
2.补配释义用例句
补配释义用例句指在词条注解中补充配合释义的例句,源于归纳语义用例句,是其中最有代表性的例句。归纳语义用例句供词典编纂人员使用,一般不会出现在辞书中;而补配释义用例句是词典读者可见的,是出现在词典中的例句。以前有关词典例句的讨论大多针对的是补配释义用例句。
例证包括例词、例语、例句等,是词条注解的重要组成部分,许多研究者都讨论过例证的功能。胡明扬等(1982)指出,例句可以证明词义或义项,证明源流和年代,说明词义和用法。[15]Drysdale(1987)指出,学习词典中的例证可以补充释义信息,展示语境,区分义项,说明语法结构,说明典型搭配以及说明语域或语体特征。[16]张宏(2012)综合国内外多种词典例句功能分类方案后指出,学习词典的例证可以提供词义、搭配、语法、语用、语篇衔接等语言信息,也可以提供文化信息。使用例证所展示的语言信息,可以辅助用户查检义项,也可以辅助用户吸收词语知识。[13]由此可见,虽然有许多不同例证功能的研究都认可例证对词条注解的重要作用:提供释义以外的更加丰富的信息,辅助使用者更好地使用词典,便于使用者更好地了解、掌握词条的用法。
例句是例证的重要形式,具有例词、例语不可替代的作用,它可以提供相对更加完整的词语上下文信息。更重要的是,成语的例证不可能包括例词和例语,成语的例证只能是例句。
3.验证释义用例句
验证释义用例句是用于检验成语义项个数、义项内容是否全面准确的例句。学习词典主要面向学生,不同地区学生可以选择使用不同教材和教辅材料。词条的释义应该适用于使用不同教材、教辅材料的学生。通常讲某部词典不适合学生使用,某部词典比其他词典更加适合学生使用,这大多是基于经验的判断。词典中词条的释义是否恰好涵盖并准确解释了学生学习中遇到的词语含义,才是衡量词典是否合用的最重要标准。学生使用的教材、教辅材料种类、数量相对有限,可以使用教材、教辅材料中的例句对释义进行验证。教材、教辅材料中没有出现,但是在通用领域里面使用广泛的释义可以有选择地保留;教材、教辅材料中出现,但是条目未释义的则需要补充。验证释义用例句正是进行上述检验工作所需要的例句。
验证释义用例句与归纳语义用例句的最大区别在于前者重在释义的验证,例句源于学生学习时最直接接触的教材、教辅材料等资料,与学生的校园学习、考试关系更为密切;后者重在服务例句的编写,例句源于平衡语料库,保障着词语义项的典型、全面与正确。验证释义用例句可以给词典编纂人员、教师甚至学生参与验证使用,归纳语义用例句只能给词典编纂人员使用。虽然在条目释义编写完成后,使用例句进行验证释义的准确性、全面性还不是通行做法,但这种做法在学习词典的编纂中应该更加重视。
虽然学习词典收录的成语相对常用,成语本身的用法也相对稳定且用法较少,但现有词典成语义项的选择依然存在分歧。为了更全面、准确地归纳成语义项,归纳语义用的例句必不可少。
验证释义用例句不会出现在最终的词典文本中,是学生不可见的例句。词语释义的准确和完整是词典的基本要求,只有通过验证的释义才是满足基本要求的释义。一般语文词典的释义验证难度较大。由于学生学习教材、教辅材料的有限性,学习词典的释义验证具有完全的可行性。学习词典的成语例句比普通语文词典的成语例句在验证时更具有可行性,这也学习词典区别于普通语文词典的特点之一。
三、例句的提取
(一)例句来源语料库
如前文所述,例句应全部源于书证、源于语料库。例句来源语料库应该包括通用平衡语料库、母语教材和教辅材料语料库、词典中成语条目例句库等(以下分别简称为平衡语料库、教材教辅库、词典例句库)。
用法稳定,义项数量相对较少是成语的重要特点之一。现有词典收录的成语义项大多以1个为主。例如《现代汉语学习词典》(商务印书馆,2010)收录成语4 020条,最多有5个义项,1至5个义项的成语数量分别为3 913条、97条、9条、0条、1条(昏天黑地),单一义项条目占比97.3%。《新华成语词典》(商务印书馆,2002)收录成语8 378条,最多有4个义项,1至4个义项的成语数量分别为8 290条、54条、33条、1条(改头换面),单一义项条目占比98.9%。《汉语成语小词典》(商务印书馆,2007)收录成语4 600条,约47条成语有两个义项,其余全部为1个义项(1) 《汉语成语小词典》并未通过义项序号严格区分不同义项,而是通过释义的文字性描述以及为不同释义配以不同例句加以区分。比如:【百发百中】 bǎi fā bǎi zhòng 发:发射。形容射箭或打枪准确,每次都命中目标。也比喻料事有充分把握,从不落空。〔例〕1.他是个~的神枪手。2.连长富有战斗经验,估计敌情~,极少有差错。[14] ,单一义项条目占比99.0%。
(二)归纳语义用例句的提取
即使是单一义项的条目,不同词典归纳的义项也存在差异。比如“安营扎寨”在《汉语成语小词典》中给出了“比喻建立临时的劳动或工作基地”的解释,但在《新华成语词典》中相应的解释却是“为完成某项任务而临时在某地住下”。再比如,“锱铢必较”在《现代汉语学习词典》中给出了“形容非常认真”的解释,但在《汉语成语小词典》中缺少这样的解释。
利用分散性土筑堤失败是由于通过裂缝或其他填筑孔隙而形成内部侵蚀。主要原因是干燥脱水、水力劈裂和不均匀沉降,破坏如图2所示。
例句的提取可以采用基于规则的方法进行。如果例句包含禁用词语(2) 比如新华社、国家新闻出版广电总局等单位会不定期更新发布一些禁用词语。 、不规范词语或者词语的不规范词形,包含用户自定义编码区间的汉字,包含极低频用字或者汉字比例明显偏低(比如包含大量数学公式、英文单词)等,则这样的例句应该剔除。此外,语法结构残缺不全或者语法结构过于复杂的例句也应该剔除。
文本自动聚类是语言信息处理领域的一项重要任务,可以将分属同一类别的句子通过算法自动聚在一起。借助文本自动聚类技术,可以实现成语的例句类别划分,为词典编写人员提供义项归纳的参考。
归纳语义用例句应源于平衡语料库、词典例句库、教材教辅库。只要选取的语料库达到一定的规模,就可以获取足量的例句,否则就说明成语不是高频成语、不常使用,或者不是成语的推荐词形。此时,需要考虑是否不收该成语。
(三)补配释义用例句的提取
提取补配释义用例句时,例句数量不宜过多,“像”最终可用的例句最重要,要求例句“少而精”。补配释义用例句以归纳语义用例句为基础,对每个例句量化打分,越“像”最终可用的例句得分越高,排序越靠前。截取其中适量的高分例句即是补配释义用例句。
例句的量化打分工作需要借助语言信息处理技术进行。例句的量化打分和具体成语有关,同一个例句对不同成语而言得分可能存在差异。
例句打分标准需要综合例句的用字、用词、句子长度、句法结构等多种因素。许多研究者如杜翔(2017)[17]、单天罡(2013)[8]、苏英霞(2015)[18]等提出了多种例句的设计原则或者选取标准。虽然这些设计原则和选取标准有的是针对词典领域,也有的是针对其他领域,但是都可以供语言信息处理技术参考。例如,满足以下条件的例句可以获得较高得分,反之只能获得较低的得分:(1)例句中用到的汉字及其他字符应限定于一定范围,比如汉字应尽量限定在《通用规范汉字表》一级字范围以内,控制二、三级汉字使用数量,不用表外字;(2)参构例句的词均应源于相应词表,以及教材教辅库常用词,词典例句库中成语例句常用词;(3)参构例句的词语的词级不高于该成语的词级(3) 词级的详细介绍可以参考苏新春《基础教育语文新课标教材用字用语调查》的介绍。一般来讲,词级越高,难度越大。 ;(4)句长适中,不过短又不超长;(5)句法结构相对完整但又不过于复杂;(6)包含常用搭配;(7)成语在其中处于语义突显地位;(8)体现展示文化信息。
除了远离以上几种食物,胃酸多的人饮食上还要注意以下几点:第一,定时定量、规律进食,避免过度饥饿,用餐时情绪平和、专心致志;第二,细嚼慢咽,咀嚼食物时,口腔会分泌大量唾液,其中的碳酸氢盐和黏液有抗酸作用,有助中和胃酸,其中的消化酶对胃黏膜有保护作用;第三,睡前3小时尽量不要吃东西,吃完饭后不要马上躺下,以免胃酸反流;第四,少吃盐,盐的渗透压高,对胃黏膜伤害很大,易导致胃炎或胃溃疡;第五,如果出现反胃、吐酸现象,可以吃一两块苏打饼干应急,能快速中和胃酸,缓解不适。
由于不同教材的词汇面貌和词汇量差异非常大,[19]为了让学习词典成语例句适合使用不同教材的学生理解和使用,应为使用不同教材的学生挑选不同的例句,也就是说,要尽量调查并根据不同教材情况全面选定例句。例如苏新春(2011、2017)研制词表时通过位序统计法调查某个词在一套教材中首次出现的位置,并对教材中的所有词语进行排序。不同教材的排序结果差异很大。[20-21]如果成语例句的参构词均是学生当前使用阶段已经学习过的,则不但便于学生理解成语含义和用法,也便于学生复习、掌握其他学习过的词语。此时,例句是否符合特定教材库的词语学习顺序和要求,也成为了衡量一个例句得分高低的重要标准。经过量化打分和排序的例句有助于编纂成语条目时简便快速地挑选例句,极大地节约补配释义用例句的挑选时间。
(四)验证释义用例句的提取
验证释义用例句应该全部源于教材教辅库,以教材为主,教辅材料为辅。如果某条成语的例句较多,也可以采取抽样的方法,或者按教材、教辅材料的重要性、优先级排序,优先验证排序靠前的例句。
四、结论
本文依据用途将成语例句分为归纳语义用例句、补配释义用例句、验证释义用例句,其提取方式、使用方式也各不相同。这样的分类具有其科学性和必要性。尤其是编写学习词典时,验证释义用例句的作用显得更加突出,可以确保成语释义更加适合学生使用。
各个年度在室内空气、物体表面、医护人员手、使用中消毒剂、压力蒸汽灭菌效果、医院污水、一次性医疗用品分析中,合格率最高的是室内空气、压力蒸汽灭菌、一次性医疗用品检测,均为100%,物体表面各年度合格率比较,差异有统计学意义(p<0.05),医护人员手、医院污水、使用中消毒年度合格率比较,差异无统计学意义(p>0.05)。见表2
归纳语义用例句如何自动聚类,补配释义用例句如何量化打分等工作,都离不开语言信息处理技术。本文从理论上对成语例句的分类及其提取方式进行了探讨,具有可操作性。由于本文不是工程技术类文章,所以不详细讨论其工程实现细节。
最后需要指出,本文工作属于词典智能编纂的范畴。词典的智能编纂是未来词典编纂的发展趋势,会在词典编纂领域发挥越来越重要的作用。
参考文献:
[1] 蔡永强.《当代汉语学习词典》配例分析[J].辞书研究,2008(3):75-85.
[2] 李红印.构词与造句:汉语学习词典编纂的两个重心[J].语言文字应用,2008(2):90-99.
[3] 张志毅,李智初,张庆云.理论词典学[M].北京:商务印书馆,2015:221.
[4] 李宇明,庞洋.关于辞书现代化的思考[J].语文研究,2006(3):6-11.
[5] 王均松,田建国.词典编纂的语料库方法[J].郑州航空工业管理学院学报(社会科学版),2013(1):71-73.
[6] 戴宝玉.日语语料库例句词典编纂构想[J].解放军外国语学院学报,2011(2):23-26.
[7] 李德俊.语料库词典学:理论与方法探索[M].南京:译林出版社,2015:104-106.
[8] 单天罡.基于语料库的对外汉语词汇例句收集研究[J].现代语文(语言研究版),2013(9):104-106.
[9] 高兴.汉语语文词典的自造例[J].辞书研究,1991(4):36-41.
[10] 陈玉庆,马志伟.谈语类辞书的例句编写问题[C]//温端政,吴建生,徐颂列.汉语语汇学研究(三).北京:商务印书馆,2015.
[11] 吴满蓉,朱俊玄.学习型成语词典编纂探析——以《商务馆小学生成语词典》为例[C]//温端政,吴建生,徐颂列.汉语语汇学研究(三).北京:商务印书馆,2015:46-55.
[12] 刘军怀.语文词典例证的类型[J].辞书研究,2010(1):84-92.
[13] 张宏.词典例证功能分类再探——以普通语文词典和学习词典为例[J].外语研究,2012(4):64-71.
[14] 商务印书馆辞书研究中心.汉语成语小词典(2003年修订本)[M].北京:商务印书馆,2003:8.
[15] 胡明扬,谢自立,梁式中,等.词典学概论[M].北京:中国人民大学出版社,1982:144-145.
[16] Drysdale P D.The Role of Examples in a Learner’s Dictionary[C]//A P Cowie.The Dictionary and the Language Learner.Papers from the EURALEX Seminar at the University of Leeds,1-3 April 1985.Tübingen: Max Niemeyer Verlag,1987:213-223.
[17] 杜翔.通用型成语词典编纂的难点与创新[J].中国编辑,2017(8):46-51.
[18] 苏英霞.语法教学方法技巧[M].北京:北京语言大学出版社,2015:85-88.
[19] 苏新春.基础教育语文新课标教材用字用语调查 [R]//国家语言资源监测与研究中心.中国语言生活状况报告(2007).北京:商务印书馆,2008:437-474.
[20] 苏新春.位序调查法与学习性字表[J].北华大学学报(社会科学版),2011(4):9-17.
[21] 苏新春.《义务教育常用词表(草案)》研制的理论与方法[J].语言文字应用,2017(3):2-11.
Usage Categories and Extraction of Exemplifications for Idioms in Learner ’s Dictionary
Zhang Yongwei
(Institute of Linguistics ,Chinese Academy of Social Sciences Research Center for Lexicology &Lexicography ,Chinese Academy of Social Sciences ,Beijing 100732,China )
Abstract : The contemporary lexicography must be based on corpora,which provides a large amount of exemplifications.It is extremely inconvenient for a lexicographer to spend a considerable period of time reviewing,analyzing and selecting exemplifications.In order to avoid such an embarrassing situation,this paper focuses on idioms in learner’s dictionary and classifies the idioms exemplifications into three main categories according to their usages: inductive semantic,supplementary interpretation and usage,verifying the interpretation.Compared to the unclassified extraction approach,each category has its own corresponding extraction approach which achieves simpler query,increases accuracy with the induction of the sense and enhances reliability with the adaptation of exemplification.The achievement of this paper can also be extended to the exemplification extraction of other words.
Key words : Learner’s dictionary;Idiom;Category of function;Extraction of exemplification;Corpora
[中图分类号] H16
[文献标识码] A
[文章编号] 1009-5101(2019)05-0021-06
[收稿日期] 2019-04-18
[DOI] 10. 19669/ j. issn. 1009-5101. 2019. 05. 003
[基金项目] 国家语委语言文字科研项目优秀成果后期资助2016年度项目“《基础教育学习性词表》分级、验证及推广”(HQ135-01)的阶段性研究成果。
[作者简介] 张永伟,中国社会科学院语言研究所、中国社会科学院辞书编纂研究中心副研究员,博士,主要从事计算词典学、计算语言学、语料库语言学研究。(北京 100732)
【责任编辑 李开拓】
标签:学习词典论文; 成语论文; 用途分类论文; 例句提取论文; 语料库论文; 中国社会科学院语言研究所论文; 中国社会科学院辞书编纂研究中心论文;