面向书面言语鉴定的言语人副词使用习惯研究论文

面向书面言语鉴定的言语人副词使用习惯研究

王虹

(中国刑事警察学院 文件检验技术系,辽宁 沈阳100035;东北大学 自然语言处理实验室,辽宁 沈阳110004)

摘 要: 目的 探讨副词使用习惯特征在汉语书面言语鉴定中作为同一认定依据使用的可行性。方法 采用实验研究和统计研究的方法,收集6位作家的24部作品,利用《案件书面言语量化辅助分析系统》统计每部作品的总词数、副词数、副词数占总词数的百分比、单个副词数、单个副词数占总词数的百分比,以及同一人作品副词使用频率的平均值、标准差等数据进行研究。结果 个人在是否使用副词上有偏好、个人在表示同类关系的副词中有选用上的偏好、不同人在表示同类关系的副词中有共同的选用偏好。结论副词使用习惯可以作为书面言语鉴定的辅助特征使用,但使用时要充分考虑到语料的形成过程、创作背景、个人经历等因素的影响。

关键词: 副词使用习惯;书面言语鉴定;长语料

书面言语是以文字形式存在的言语,包括纸质文本、网络文本和电子文本。书面言语鉴定,英语译作 Authorship Identification, Authorship Attribution或Authorship Comparison,是指通过检材言语与样本言语的比对鉴别,判断两者言语习惯是否一致,为案件侦查、审判提供证据的一种专门技术手段。

从中观上看,中小型制造企业更加擅长“精专特新”的创新,更加明确比较优势和分别“同化”和“异化”。新经济环境往往会在特定的细分产业中拣选出最精细化、专业化、特色化、新颖化的中小制造企业,并向大型制造企业输血形成稳定的生产链,或者自身成长成为大型制造企业。

西方早就有专门的文本鉴别学,1711年,一位德国牧师H.B.韦特最早提出了有关《圣经》作者的争议。随后,出现了莎士比亚著作权的纠纷。从20世纪60年代埃文斯案促成司法语言学的诞生以来,欧美各国作者鉴别技术发展方兴未艾,成果显著,应用广泛。很多国家和地区都有专门的语言证据研究机构,受理司法实践中与语言相关的案件。

(3)所谓共线性是指成对自变量(特征参数)之间的相关性。当相关性较高时,表示一个变量的信息含有对应变量的信息,可以剔除一个变量。如同时引入统计模型,除了增加计算工作量外,还会使模型计算性能变差。

国内汉语文体学、汉语语言学、英语语言学(主要是法律语言学)、图书情报学、自然语言处理等领域均有关于作者鉴别、作者归属、作者身份识别、作者识别的研究。公安技术领域自20世纪80、90年代起开始研究书面言语鉴定技术,并将用于文件检验鉴定,利用“语音特征”、“方音别字”、“特殊语法”等书面言语特征鉴定了多起无笔迹案件。

近年来,互联网及相关产业飞速发展,虽然在一定程度上方便了生活,但利用电子邮件、网络论坛等方式犯罪的案件也不断增多。此外,由于监管漏洞的存在,侵犯他人知识产权的案件也时有发生。这些现象都对书面言语鉴定技术的完善和提高提出了迫切需求。

副词使用频率特征是书面言语鉴定中常用的言语特征之一,鉴定人员基于副词属于虚词,而虚词受言语内容影响较小,具备较好的个人稳定性这一假设,一直在使用这一特征。但这种假设是否成立,我们并未见到相关的实验和统计研究。语言学领域对副词的研究暂时处于基础性、定义性的阶段。国外司法语言学的研究和实践中,已将副词使用习惯特征当作书面言语同一认定的依据使用。但在汉语书面言语鉴定领域,副词使用习惯特征是否能作为汉语书面言语同一认定的依据还有待研究。对副词研究的不断深入以及各种统计工具、分析方法的完备,为我们提供了研究这一领域的可能。

本文拟引入自然语言处理技术,采用实验研究和统计研究的方法,探讨副词使用习惯特征在汉语书面言语鉴定中作为同一认定依据使用的可行性。

增能理论和陆九渊心学各自有两个核心观念,增能理论的核心观念是“权能”和“增强权能”,“增强权能”也被翻译成“增能”,陆九渊心学的核心观念是“本心”和“发明本心”。通过比较我们可以发现这四个观念两两之间也存在相似性。

1 副词及其分类

1.1 副词定义

鉴于此,从我们的实验中观察到的数据来说,个人在是否使用副词上是有偏好的,不同人的平均副词使用频率有差别,且这种差别较稳定,尤其是在语料足够多、足够长,作品形成时间相近、作者言语风格没有阶段性变化、作品体裁相同的前提下,这种偏好能够得到较好的表现。

1.2 副词分类

为了观察个人在是否使用副词上的偏好,我们分别统计出了24部作品的总词数、副词数、副词数占总词数的百分比,以及同一人作品副词使用频率的平均值、标准差,并分别按副词使用频率平均值和副词占总词数的百分比进行了降序排序,如表1所示。分析表1我们发现:

价值链管理是人力资源管理的核心内容,价值链管理主要包括:(1)价值链管理的基础,企业中哪些因素为企业创造了较高的价值。(2)企业中的要素都创造了什么样的价值,这其中有关人力资源的问题是在管理系统中应该用什么样的评价标准和如何去评价。(3)如何处理价值分配的问题以及分配的方法是什么等。

程度副词,如很、最、极、太、非常、更加、越、稍、几乎、略微、尤其……

1.共享单车免押现状。2018年7月5日,摩拜单车宣布全面免押,按人均299元的押金初步测算,拥有2.32亿用户的摩拜公司将免除接近700亿元押金。然而反观共享单车另一巨头ofo公司,其对押金的态度更耐人寻味。ofo携手蚂蚁金服后,曾先后在全国25个城市采取芝麻信用免押,而又于2018年5月31日取消大部分城市免押服务,全国仅保留五个城市免押骑行。作为共享单车行业的两大巨头,经历之前相同的发展路径后,对押金的态度首次出现了不同。到底共享租赁企业该不该全面免除押金?应选择什么样的时机来实施全面免押,这是值得思考的问题。

范围副词,下分总括性范围副词:都、总、共、俱、皆、全然、全都、统统、统共、举凡、一概、一总等;唯一性范围副词:仅、只、就、才、单、唯、偏、惟独等;限定性范围副词有:约、大都、最多、最少、起码、只有、只是、不过……

我们整理出了每位作家使用的程度副词、范围副词、方式副词、肯定和否定副词、时间副词、语气副词中平均频率排名前5的高频词,以及处所副词中排名前4的高频词,发现6位作家使用的各类高频词中有很多是相同的:在程度副词中,“很、最、更、太”常被选用,出现频率高(表2)。在处所副词中,“到处”最常被选用,其余处所副词选用相对较少(表3)。在范围副词中,总括性范围副词上“都、全”最常被选用,唯一性范围副词“就、只、才”常被选用,限定性范围副词“不过、只是、只有”常被选用(表4)。在方式副词上,表现趋势并不稳定,但“悄悄、忽然”出现频率较高(表5)。在肯定和否定副词上,“不、没、没有”被大量使用(表6)。时间副词中,“还、再”常被选用,其他的出现频率不稳定(表7)。语气副词中,不同人的选择差异较大,并没有较为一致的选用习惯(表8)。

语气副词,如:难道、果然、岂、索性、究竟、简直、就、可、也许、难怪、大约、不妨……

肯、否定副词,分为肯定、必然、偶然、可能、否定判断副词。如必须、没有、必定、是否、未、别、莫、勿、不必、不用、不曾…….

采用SPSS 20.0软件对数据进行分析处理,计量资料以(均数±标准差)表示,采用t检验;计数资料以(n,%)表示,采用χ2检验,以P<0.05表示差异具有统计学意义。

方式副词,如:大肆、亲自、特意、公然、忽然、悄悄……

处所副词,如:处处、到处、随处、四处……

《中国文法要略》分为七类:方所副词,时间副词,动态动相副词,程度副词,判断副词,否定副词,一般副词。

2 材料与方法

2.1 语料

本文以古龙、莫言、韩寒、金庸、三毛、郭敬明等6位作家的长文本作品24部为研究语料,具体情况见表1。

(4)压缩空气潮湿。 广宁轨枕预制场位于广东省肇庆市,广东天气潮湿,由空压机输出的压缩空气含水分较大,空压机经多次使用后水分在输送管道内积留易堵塞气阀,使得压缩空气不能自由流动,气缸内进气量不同导致气囊顶升不同步,从而导致轨枕挡肩裂纹出现。

2.2 分析工具与内容

表2~8中所列副词是6位作家使用的高频副词,根据我们的经验,这些副词也正是人们普遍常用的副词,在人群中出现率高,反映的是言语的共性特点,在书面言语鉴定中特征价值较低。

泡沫混凝土的制备,水泥采用425普通硅酸盐水泥,发泡剂为MS-1型复合发泡剂。同时添加纤维素醚增加稠度,提高泡沫混凝土的水下不分散性能;添加减水剂,减少拌合用水量。为更符合实际工程情况,提高泡沫混凝土的水下性能,制备的泡沫混凝土密度调节至略大于水的密度,物理力学指标如表2所示。

3 结果与分析

3.1 个人在是否使用副词上的偏好

语言学领域中对副词的分类也有很多不同的看法,本文从研究需要出发,采用吕叔湘的分类方法,即按照语法功能将副词分为七类:程度、范围、时间、语气、肯定和否定、方式、处所[2]

为了观察个人在表示同类关系的副词中是否有选用上的偏好,我们分别抽取、统计6位作家24部作品中的程度、处所、范围、方式、肯定和否定、时间、语气等七类副词,计算出每个副词的出现数及其占总词数的百分比,进行了相应的数据分析和比较。我们发现个人在表示同类关系的副词中是有选用上的偏好的。这里仅以古龙的4部作品和郭敬明的4部作品为例做以说明。

第二,古龙和莫言在副词使用频率上相差较明显,平均值差了约3个百分点。古龙的4部作品的副词使用频率均很高,均高于莫言的4部作品。

第三,同一作家不同作品的副词使用频率的稳定性情况不同,由古龙、韩寒、莫言、郭敬明、三毛、金庸依次降低。古龙的5部作品之间副词使用频率差别较大,其平均值的标准差最大;而金庸4部作品之间副词使用频率的稳定性最好,其平均值的标准差最小。

第四,创作时间、作者的个人经历对同一作者不同作品的副词使用频率稳定性有影响。以古龙为例,1960年到1963年是古龙的试笔阶段,接触了大量的西方文学,作品也带有西方色彩;1963年之后,他向日本小说取经,探索武道,逐步形成自己独特的武打描写方式;后期古龙又将戏剧、推理、诗歌等元素和自己的人生感悟带入传统武侠。这样,随着时间的推移和个人经历的变化,古龙作品的风格前后有很大的变化。而作品中语言的变化则是形成作品风格变化的重要因素,因此导致《剑客行》(1963)《大旗英雄传》(1966)《三少爷的剑》(1974)《拳头》(1977)等不同时间节点上的作品中副词使用频率有较大的差异。

表1 语料基本情况及其副词使用频率统计表

第五,体裁对同一作者不同作品的副词使用频率稳定性有影响。以韩寒为例,他的两部作品《像少年啦飞驰》、《通稿2003》的副词使用频率分别为5.500%和7.932%,差距较大。这两部作品较明显的不同是体裁分别为小说和杂文。小说是客观性的语言,作者不会直接表达思想感情,而是让人物和情节代作者说话;杂文则是主观性的语言,作者直抒胸臆,而且论证和说理性强。体裁的不同,使得作品的语言风格也不同。

从中国第一本语法专著《马氏文通》提出近似现代“副词”的“状字”开始,关于副词的定义一直是众说纷纭。2004年,张谊生[1]提出将句法功能作为认定副词的根据并以语句的基本含义作为判断的基础,将副词定义为:“副词主要充当状语,一部分可以充当句首修饰语或补语,在一定条件下一部分还可以充当高层次消浯或准定语的具有限制、描摹、连接等功能的半开放类词。”

3.2 个人在表示同类关系的副词中是否有选用上的偏好

第一,6位作家使用副词的频率是有差别的,由古龙、韩寒、郭敬明、三毛、金庸、莫言依次降低。

古龙4部作品的同类副词选用情况:古龙在程度副词中选用“更、很、最、太”的情况远多于“极、越、几乎”等(图 1)。 在处所副词中,“到处”一词出现的频率较高,其余如“处处、四处、随处”都是偶尔出现(图2)。在总括性范围副词中,“都”的出现次数最多,远高于居于其次的“全、俱”等;唯一性范围副词中,“就、只、才”使用频率很高,“光、偏偏”也出现多次;限定性范围副词中,“不过、只有、只是”出现较多,“至少、约、大概”也有出现(图3)。在方式副词中,古龙偏向于选择“忽然”引发场景、情节的变化,“暗暗、猛然”少量出现(图 4)。在肯定、否定副词中,“不、没有”出现最多,“未、莫、必”等文言文化词亦有出现(图5)。时间副词出现的较多,“已、还、再”都有大量出现,“已”的频率明显高于“已经”,“正、常、曾”的频率分别高于“在、正在、常常、曾经”(图6)。语气副词中,表示疑惑时多用“难道、究竟”;表示惊讶时,多用“果然、居然、岂、竟然”(图 7)。

在我国南方许多地区的民居,为了降低夏季炎热,在坡屋顶构造中也有相似的设计,比较普遍的做法是屋面采用双层瓦屋顶,在两层瓦片中形成的空气间层作为屋面的通风隔热层,在屋檐设置进气口,在屋脊处设置出气口,形成空气流动带走一部分屋面的热量,达到隔热的目的[12]。与此原理相同,项目利用屋盖系统形成的中空层作为自然通风散热的通道,同样在坡屋顶檐口处预留通风条作为气流入口,在靠近屋脊处安装通风帽作为通风口[11]93,利用气体热压实现通风隔热(图8)。此外,宜兴地区属夏热冬冷地区,屋盖系统也做了保温措施,既考虑到屋面的夏季隔热,也兼顾到冬季保温,以适应各季节的气候条件,居住更加舒适。

郭敬明4部作品的同类副词选用情况:在程度副词中,郭敬明大量选择“很”,比例较高,“最、太、更”也有一定比例,“几乎、好像”也在每篇文章中都有体现(图8)。在处所副词中,“到处”出现频率明显高于其他两个。但总体而言,处所副词使用量较小(图9)。在总括性范围副词中,郭敬明大量使用了“都、全”;唯一性范围副词中,“就、只、才”使用频率高,其他如“仅仅、仅、光”等都是偶尔出现;限定性范围副词中,除了“只是、不过”占有一定比例外,其他副词均只零星出现(图10)。方式副词的整体使用频率偏低,都只是零星出现,相对来说使用“悄悄、赶紧”多些(图11)。 肯定、否定副词中,“不、没有、没”使用次数多,肯定副词则只用了“的确”(图12)。时间副词中,“还”出现频率最高,“已经、总是、再”频率接近,其他时间副词如“还是、依然、曾经”等都有出现(图13)。语气副词中,“也许”出现频率较高,其次是“居然、竟然、反正、可”(图 14)。

图1 古龙作品程度副词使用频率图

图2 古龙作品处所副词使用频率图

图3 古龙作品范围副词使用频率图

图4 古龙作品方式副词使用频率图

图5 古龙作品肯定和否定副词使用频率图

图6 古龙作品时间副词使用频率图

图7 古龙作品语气副词使用频率图

图8 郭敬明作品程度副词使用频率图

图9 郭敬明作品处所副词使用频率图

图10 郭敬明作品范围副词使用频率图

图11 郭敬明作品方式副词使用频率图

图12 郭敬明作品肯定和否定副词使用频率图

图13 郭敬明作品时间副词使用频率图

图14 郭敬明作品语气副词使用频率图

3.3 不同人在表示同类关系的副词中是否有共同的选用偏好

为了观察不同人在表示同类关系的副词中是否有共同的选用偏好,我们对每位作家4部作品中出现的每个程度副词、范围副词、时间副词、语气副词、肯定和否定副词、方式副词、处所副词的数量进行了平均和比较。我们发现,不同人在表示同类关系的副词中有共同的选用偏好,有些高频词是大家共同的选择。但同时,也有一些词,人们在选用他们时存在较大差异。

3.3.1 不同人均常会选用的副词

时间副词,如:已、曾、刚刚、才、正在、立刻、终于、时时、渐渐、从来、始终、屡次、重新、还、偶尔……

本文使用我们自主研发的《案件书面言语量化辅助分析系统》对语料进行自动分句、分词、词性标注等处理,并进行总词数、副词数、副词数占总词数的百分比、单个副词数、单个副词数占总词数的百分比,以及同一人作品副词使用频率的平均值、标准差等数据统计,以此分析总结个人在是否使用副词上的偏好、个人在表示同类关系的副词中是否有选用上的偏好和不同人在表示同类关系的副词中是否有共同的选用偏好。

表2 程度副词高频词表 (%)

表3 处所副词高频词表 (%)

表4 范围副词高频词表(%)

表5 方式副词高频词表 (%)

表6 肯定和否定副词高频词表 (%)

表7 时间副词高频词表 (%)

表8 语气副词高频词表 (%)

3.3.2 选用频率差异大的副词

在分析6位作家的副词使用情况时,我们也发现了一些在选用频率上差异较大的副词。举例如图15~21所示。

文中设计的BOOST电路主要参数为:输入电压2.5~3.5 V,输出电压为5 V,输出电压波纹设为5 mV,负载为10 Ω,工作频率设定为500 kHz。根据上述CCM模式模块下,同步BOOST电路原理,可计算出所需电感值为:4.7 μH,电容值为:300 μF。开关管则选择低导通电阻的MOS管,进一步提高电路效率。

从图15~21中我们可以直观地看出,不同作家在某些副词的选用上确实差异较大,体现了不同人的言语习惯,这类副词特征价值较高,可以用于书面言语鉴定。

图15 6位作家程度副词“尤其、过于”选用平均频率图

图16 6位作家总括性范围副词“俱、皆”选用平均频率图

图17 6位作家唯一性范围副词“偏偏、单、仅仅”选用平均频率图

图18 6位作家限定性范围副词“大约、多半、约”选用平均频率图

图19 6位作家时间副词“立刻、还是、将、总是”选用平均频率图

图20 6位作家语气副词“果然、岂、也许”选用平均频率图

图21 6位作家方式副词“赶紧、连忙、大力”选用平均频率图

4 结论

本文通过对6位作家24部作品副词使用频率、选用偏好等数据进行提取和分析,发现以下规律:

第一,个人在是否使用副词上是有偏好的,不同人的平均副词使用频率有差别,尤其是在语料足够多、足够长的情况下,这种偏好能够得到较好的表现。

第二,个人在表示同类关系的副词中有存在选用上的偏好,人们会有自己习惯使用的副词。

第三,不同人在表示同类关系的副词中会有共同的选用偏好。某些副词是人们都习惯选用的,这类副词的特征价值低,案件检验中我们应该尽量少选这类词作为特征词使用;某些副词在被选用的频率上有较大差别,这类词的特征价值高些,可以作为特征词使用。

第四,对于长语料来说,由于其文本数量大,副词使用频率相对稳定,受出版时间等因素的影响相对较小。我们认为副词使用频率可以作为同一认定的辅助特征使用,但使用时要充分考虑到语料的形成过程、创作背景、个人经历等因素的影响。

Zuo等[23]通过Illumina HiSeq 2000测序平台对36个菜豆品种构建了RRLs,生成7 600万条序列,获得43 698个SNPs和1 267个InDels.Guo等[24]利用NGS技术对5个大麦品种和1个突变株构建了RRLs,最终获得6 061个SNPs,其中的451个用于绘制大麦基因组草图,同时利用长度多态性等位PCR对其中的11个SNPs进行了验证.Conner等[25]证明在多倍体中可以利用RRLs对复杂位点进行定向测序,并对非洲狼尾草的F1代群体中编码特异的无孢子基因组区域和美洲蒺藜草中编码单性繁殖的基因组区域分别开发了39个和18个SCAR分子标记.

这些分析是建立在文本篇幅较长的前提下的,短文本的副词使用频率特点受言语内容、体裁、题材、形成过程等因素的影响很大,在没有大规模实验证明之前,我们认为要慎用短文本中的副词使用频率特征。关于短文中副词使用频率特征的具体内容,我们将另文讨论。

参考文献:

[1]张谊生.现代汉语副词探索[M].北京:学林出版社,2004.

[2]吕叔湘.中国文法要略[M].北京:商务印书馆,1982.

[3]王虹,欧阳国亮.司法语言学[M].刘扬菲,译.北京:中国人民公安大学出版社,2014.

Study on the Habits of Using Adverbs for Authorship Identification

WANG Hong
(Department of Questioned Document Examination,Criminal investigation Police University of China,Shenyang 110035,China;2.NLP Lab,Northeastern University,Shenyang 110819,China )

Abstract: Objective To discuss the feasibility of using adverb preference as the basis for authorship identification.Method The methods of experiment research and statistical research were used.We collected 24 books of 6 writers,and used the Written Langage Quantitative Analysis System to count the total number of words and adverbs,the percentage of adverbs in the total words,the number of each specific adverb and their percentage in the total words,and the average and the standard deviation of the frequency of adverbial use for each writer.Result s We found that writers have preference in using adverbs,and different writers had common preference for adverbs that express similar relationships.Conclusion Adverb using habits can be used as an auxiliary feature in authorship identification.On the other hand,the formation process of literature,creative background,the author's personal experience and age,and other factors ought to be taken into consideration.

Keywords: adverb preference;authorship identification;long corpus

中图分类号: D918

文献标志码: A

doi: 10.3969/j.issn.1671-2072.2019.05.008

文章编号: 1671-2072-(2019)05-0039-09

收稿日期: 2017-10-10

基金项目: 公安部技术研究计划项目(2017JSYJC07);辽宁网络安全执法协同创新中心资助项目;文件检验鉴定公安部重点实验室(中国刑警学院)资助课题(15ZZCX03)

作者简介: 王虹(1977—),女,副教授,硕士,主要从事书面言语鉴定、言语识别、声纹鉴定研究工作。E-mail:903829315@qq.com。

(本文编辑:卢启萌)

标签:;  ;  ;  ;  ;  

面向书面言语鉴定的言语人副词使用习惯研究论文
下载Doc文档

猜你喜欢