基于词语语义差异性的多标签罪名预测

王加伟¹,张虎¹,谭红叶¹,王元龙¹,赵红燕^1，2,李茹^1,3

(1. 山西大学计算机与信息技术学院，山西太原 030006；2. 太原科技大学计算机科学与技术学院，山西太原 030024;3. 山西大学计算智能与中文信息处理教育部重点实验室，山西太原 030006)

摘要 :罪名预测是智慧司法领域中的一项重要研究内容，其旨在依据犯罪事实自动预测出犯罪主体触犯的罪名。犯罪事实是案件的真实客观描述，犯罪事实中各词语的语义重要性在不同罪名的判决中有所差异，而现有方法在对犯罪事实建模的过程中往往忽略了这种语义差异性，且缺乏对数罪并罚情形的处理。为此，该文在对犯罪事实的建模过程中将词语的语义差异融入注意力机制；并将数罪并罚情形下的多标签罪名预测转化为多个独立的单标签罪名预测。实验结果表明，该文基于词语语义差异性建模和多标签转化策略均有利于提升罪名预测的效果，在“中国法研杯”2018司法人工智能挑战赛公布的数据集上达到了88.0%的F 1值。

关键词 :罪名预测；语义差异性；多标签

0 引言

随着人工智能技术在多个领域的成功应用，智慧司法也受到了相关领域研究者的广泛关注。智慧司法的实现，不仅能提升司法部门的工作效率，同时也能有效降低法律服务的门槛，这有利于促进司法公正公开透明。为了促进智慧司法的研究进展，推动自然语言处理技术在智能判决等实际问题上的应用，国内举办了2018“中国法研杯”司法人工智能挑战赛(CAIL2018)(http ://cail .cipsc .org .cn /)。

罪名预测是智能判决的核心任务之一，目的是在给定犯罪事实的条件下自动预测犯罪主体触犯的罪名。其中，犯罪事实是影响定罪量刑的最重要的客观真实情况。主要包括犯罪的基本事实、犯罪情节、性质和对社会的危害程度等要素；罪名是对犯罪特征的高度概括。包括盗窃、故意伤害、故意杀人等。

本研究中，以县为单位分别计算1985年、2000年和2016年的土地利用程度综合指数和土地利用程度变化指数，反映出1985－2000年、2000－2016年和1985－2016年3个时间段内人类活动程度对土地利用程度影响的剧烈程度，研究结果表明：

早期的罪名预测主张使用统计学方法，试图分析大量历史案例找出共性规律并使用统计学模型模拟判决流程。典型工作如Kort等^[1]提出的量化分析法和Nagel等^[2]提出的关联分析法。此类方法仅在限定规模和特定领域的数据上有效，较难推广到一般性案件中。现阶段多基于文本分类框架构建预测模型，即以大量历史法律文书作为训练文本，以罪名为类别标签，训练机器学习分类模型。代表性工作如Liu等^[3]基于文书浅层文本特征的K近邻算法分类预测模型、Luo等^[4]和Hu等^[5]基于深度神经网络的罪名分类模型等。此类方法在预测效果上取得了一定进步，但忽略了犯罪事实中词语语义差异性的影响，且没有解决数罪并罚情形下多标签罪名预测问题。因此，本文尝试从这两方面改进以提升罪名预测的效果：

(1) 词语语义差异性建模。犯罪事实中各词语的语义重要性在不同罪名的判决中不同，下面通过“盗窃罪”和“抢劫罪”案例解释这种差异性。

依据图1中法条规定： “盗窃罪”与“抢劫罪”的犯罪目的均为“非法占有公私财物”。但“盗窃罪”的犯罪手段为“秘密窃取”，对应案例中的“不备之机、扒窃”等词；而“抢劫罪”的犯罪手段为“使用暴力、胁迫或其他方法强行抢夺”，对应案例中的“言语威胁、劫得”等词。因此，在这两种罪名区分中，用于描述犯罪手段的词语起主要作用，而用于描述犯罪目的的词语起次要作用。而在侵财类罪名与非侵财类罪名的区分中，犯罪目的词则起到关键作用，如“盗窃罪”与“故意伤害罪”的区分等。注意力机制可在文本建模过程依据词语语义的重要程度自动赋予相应的权重，从而使得整体语义的表达更为准确。因此，本文使用注意力机制实现犯罪事实的差异性语义建模。

图1 “盗窃罪”与“抢劫罪”案例对比

(2) 数罪并罚预测。犯罪主体在实施犯罪行为的过程中可能会触犯多种罪行，如抢劫与故意杀人、贪污与受贿等。数据统计发现，数罪并罚案件约占全部的9.1%，因此在罪名预测中须考虑到数罪并罚情形。下面给出数罪并罚案例，如图2所示。

为了适应数罪并罚情形的罪名预测，本文将其对应的多标签罪名分类问题分解为多个独立单罪名的0-1分类问题。这种预测方式相当于对每一个罪名标签都训练了一个独立的分类器。下面详细介绍这种预测方式的工作机制：

图2 数罪并罚犯罪事实

该案件中被告人实施了两类犯罪行为(酒后驾驶和殴打他人)，同时触犯了“危险驾驶罪”与“故意伤害罪”的法条规定，且罪名之间不存在交集。故而，其属于数罪并罚案件。由于本文是基于文本分类框架构建罪名预测模型，则数罪并罚预测可转换文本分类中的多标签分类问题。而数罪并罚中的各罪名相对较为独立，因此，我们便使用分解策略将多标签罪名分解为多个独立的单标签罪名，并对每个罪名进行二元分类。这种策略使得模型既适用于单标签罪名预测也适用于多标签罪名预测，有效地提升了罪名预测的通用性。

1 相关工作

判决自动预测在很早以前就展开了研究。早在1957年，Kort等^[1]就试图分析大量历史案例，并使用统计学模型分析预测美国联邦最高法院对于案例的判罚决策。1963年，Nagel等^[2]试图使用关联分析的方法解决判决预测问题。1980年，Keown R等^[6]验证了一系列线性模型在法律领域相关任务上预测的可行性。1987年，斯坦福大学Gardner^[7]探讨了在合同法领域上研究法律推理模型的思路。1991年，Deedman^[8]尝试在加拿大的法律体系下构建人工智能专家断案系统。可是，上述模型仅在某些特定的情况下才适用，其通用性较差，且预测能力还处于一个较低的层次。

随着机器学习方法的流行，人们开始将机器学习模型用于罪名预测中。Thompson等^[9]使用最近邻算法、重复增量剪枝算法、决策树算法等实现裁判文书的分类；台湾国立大学Liu等^[10]针对罪名预测中的多标签问题，将部分多标签的共现视作固定组合，但因罪名共现并非一般性规律，所以其方法通用性较差。Liu等^[11]基于之前工作进一步改进，将判决预测分成三个阶段并使用支持向量机模型(Support Vector Machine，SVM)分类，预测结果得到有效提升。2017年，Sulea等^[12]则以犯罪事实、犯罪时间和法律规定作为特征，同样使用SVM分类并取得了较好效果。

包括研究者决定退出与受试儿童自行退出两个方面。过去常用的病例剔除标准（如随机化后发现严重违反入选或排除标准或未使用试验药物），从指导研究者操作角度考虑，应划入研究者决定退出范畴。儿童FC属于功能性疾病，确诊需用排除诊断法，如治疗观察中发现了器质性病因，研究者应及时决定其退出试验。

由于同一案件各罪名之间相互独立，则上式loss _i 的计算可简化如式(13)所示：

4.学习。有一部分自控能力较差，心理还不够成熟的大学生，他们把爱情当成了人生的全部，陷入而不能自拔。他们经常因为恋爱迟到早退或旷课，荒废学业，不仅考试挂科，还浪费了青春年华，辜负了父母望子成龙、望女成凤的苦心，浪费国家的教学资源。

2 基于词语语义差异性的多标签罪名预测模型

本文的罪名预测模型主要包括两个部分：第一部分是对犯罪事实的语义差异性建模，第二部分是针对数罪并罚情形改进的罪名预测模型。该模型的优势是可以较为准确地表示犯罪事实语义且能同时实现单罪名与数罪并罚罪名预测。模型结构如图3所示，2.2节和2.3节将分别介绍其中文本建模层和罪名预测层的工作机制。

第三，收缩在伊石油业务。在市场无法预测美对伊制裁期限的情况下，中国油企应主动收缩在伊投资业务，避免形成坏账。

2.1 问题描述

犯罪事实可被视作长度为n 的词序列S ={w ₁,w ₂,…,w _n }，本文将每个词映射为一个多维连续值的词向量x _i ∈R ^d ，则犯罪事实可以表示为矩阵E =x ₁⊕x ₂⊕…⊕x _n ，E ∈R ⁿ×d 。罪名标签{盗窃,抢劫,…,故意杀人}表示为集合L ={l _1,l _2,…,l _m }，其中m 为罪名数目，集合元素l _i 在{0,1}上取值，l _i =1时表示案件涉及罪名i ，等于0则相反。罪名预测是基于犯罪事实S 的矩阵表示E ，使用预测模型f (E )预测出罪名标签集合L 。

11）在搭设中不得随意改变构架设计、减少杆配件设置和对立杆纵距作≥100mm的构架尺寸放大。确有实际情况，需要对构架作调整和改变时，应提交技术主管人员解决。

图3 基于词语语义差异性的多标签罪名预测模型

2.2 基于注意力机制的语义差异性建模

2.2.1 Bi-GRU层

门控循环单元Bi-GRU是LSTM模型的一种变体，通过门控机制有效地优化了模型的参数规模，且保留了LSTM在长距离依赖问题上的有效性。本文Bi-GRU层的作用是进行输入序列上下文信息的语义合成。式(1)、式(2)表示对输入词向量x _i 正向、反向编码，对应生成隐层向量和式(3)表示对进行向量拼接操作，输出为融合了上下文语义信息的隐层向量h _i ，h _i 可视作犯罪事实信息的总体概览。

2.2.2 注意力层

对于犯罪事实文本，除了需要考虑各词语之间的语义依赖关系，还要体现出各词语在罪名的预测中的语义重要性差异。对于包含犯罪信息较为丰富的词语，在进行高级向量表示时，需要赋予较高的权重。Bi-GRU层有效地融入了上下文信息，使得注意力值的计算更依赖于整体语义，因此本文在Bi-GRU编码后引入注意力机制，从而使得整体语义的表达更为准确。这种结构也符合定罪的逻辑，法官会首先了解案件的整体情况，然后重点关注犯罪过程、犯罪方法、犯罪性质的等细节特征。

本文注意力机制的实现方式如下：式(4)表示使用多层感知机对Bi-GRU层输出h _i 进行非线性变换，输出中间向量u _i ；式(5)用于度量词语语义的重要程度(注意力值)α _i ，通过计算u _i 和上下文向量u _c 的余弦相似度并归一化得到。其中，上下文向量u _c 可视作当前犯罪事实的抽象语义表示。其本质上是一个可动态更新的模型参数，作用是为各词语语义重要性的计算提供参照。训练过程中随机赋予u _c 初始值，通过式(5)初步计算各词的注意力权重。然后，通过分类器预测得到属于各类罪名的概率，计算当前时刻的预测概率与实际概率的loss。若loss较大，则代表当前参数不能准确表达犯罪事实的语义。因此，使用反向传播算法继续迭代更新u _c 参数直到loss值最小，此时的u _c 可认为是准确表示出了犯罪事实全文信息。关于loss的详细计算将在3.3节给出。

词语的加权向量计算如式(6)所示，由α _i 与对应Bi-GRU隐层向量h _i 相乘得到，是由多个拼接形成的矩阵，S _att ∈R ⁿ×d ，n 为犯罪事实中词语个数，d 为隐层向量的维度，其将作为卷积层的输入，如式(7)所示:

(7)

2.2.3 特征提取层

Bi-GRU编码层与注意力机制实现了上下文信息与词义权重的融入，输出犯罪事实的抽象矩阵表示S _att 。由于S _att 维度较高且包含部分噪声，故引入多核卷积神经网络对其进行优化表示。而且卷积神经网络可通过滑动窗口机制对同一区域内的所有特征进行卷积变换从而有效保留词语的局部特征。以S _att 作为卷积层输入，使用大小为h 的卷积核W ∈R ^h×d 对其进行局部特征提取，如式(8)所示:

其中f (·)为卷积操作，S _att(i ,i +h -1)表示S _att 第i 行到i +h -1行的局部特征。上下滑动卷积窗口得到特征图M _i ,如式(9)所示:

下采样使用Max Pooling，目的是选取局部最优特征，计算如下,如式(10)所示：

何谓“人渣”？当年迅翁未明确界定。但从他所言文坛“人渣”多分析，用他“我宁愿向泼辣的妓女立正，也不要向死样活力的文人打绷”的话判断，他说的“人渣”当是那些无良知的软骨头以及“才子加流氓”模样的败类，还有某些不爱学习又不肯用功“留长头发，放大领结”的青年。仅就以上意思，还难以确定“人渣”内涵，但也可看出，现说的“人渣”与当年迅翁说的，无论内涵外延，都更宽泛了。

首先将每个案件的罪名标签映射为列表[l _1,l _2,…,l _n ]，n 为罪名总数，l _i ∈{0,1}，l _i =1代表涉及罪名i ，l _i =0相反。这种标签转化策略可将复杂的多标签分类转化成相对简单的0-1分类。基于这种转换，我们使用Sigmoid交叉熵损失函数^[18]计算每个标签上的loss ，其输入为真实概率分布p (x _i )和预测概率分布(置信值)q (x _i )。p (x _i )使用one-hot映射方式得到，p (x _i )∈{0,1}；q (x _i )由Sigmoid函数对logits _i 激活得到，q (x _i )∈(0,1)，q (x _i )计算方式，如式(11)所示：

2.3 多标签罪名预测模型

展会注重与行业协会紧密合作，浙江省环保机械行业协会、宜兴市环保产业协会等多家与主办方长期合作的行业协会将为展会带来更多优质的污水处理设备厂商新面孔。浙江省大型环境工程公司、浙江海拓环境技术有限公司、浙江四通环境工程有限公司、浙江弘润机械制造有限公司、浙江爱迪曼水科技有限公司等早已确定集体出展，向专业观众展示最新处理技术和解决方案。

经过上述操作，完成了犯罪事实的建模与特征抽取，其经全连接层变换后即可输入分类器进行罪名预测。

其中，logits _i 为未经归一化的预测“概率”，logits _i ∈(-,+), Sigmoid的作用是归一化logits _i ，使其值域限定在(0,1)区间，以便与p (x _i )计算。下面是loss 的具体计算过程。

参数设置上，使用skip-gram模型^[19]训练字向量和词向量，维度均设置为256。对犯罪事实长度统计，发现以字符作为最小语义单元时输入序列的长度总数为450，以词语作为最小语义单元时的长度总数为200。因此，本文将输入序列长度分别固定为450和200，对于长度不符的样例进行padding或者cut处理。卷积核尺寸分别为2，3，4，5。设定学习率随着训练的进行逐渐衰减，初始学习率为0.001，衰减率为0.8，使用批正则化的方式降低过拟合的影响。优化器使用AdamOptimizer^[20]。

上述方法大多基于浅层文书特征，训练数据规模也较小，难以应对案情复杂冗长或数据规模较大的情形。随着神经网络在NLP各子任务纷纷取得突破性的成果，如Kim Y^[13]、Hochreiter S ^[14]、Zichao Y^[15]及Vaswani A^[16]等，研究者也开始尝试将上述神经网络模型融入判决预测中。典型工作有Luo等^[4]使用注意力机制将法律条文信息融入文本建模部分以辅助罪名预测；Hu^[5]针对低频和易混淆罪名，列出了十个有区分性的属性，并使用注意力机制和多任务学习的方法将这些属性用到预测任务中，取得了较好的效果；Ye H等^[17]针对罪名预测可解释性差的问题，从自然语言生成(Natural Language Generation，NLG)的角度，使用了基于编码端罪名标签的Seq2Seq模型，自动生成法院判决观点。

一个案件的所有罪名loss 和如式(14)所示：

以p (x _ji )表示批次训练样本中案件j 的第i 个罪名的实际概率分布，q (x _ji )表示其预测概率分布，则一个batch中所有样本的损失总和如式(15)所示：

为了验证本文方法的有效性，分别设定传统机器学习模型和深度学习模型作为基线对比。传统机器模型分别使用词频-逆文档频率算法(TF-IDF)和卡方检验(CHI)构建特征词典，使用支持向量机SVM作为分类器。深度学习方法主要包括Bi-GRU、CNN、未融合注意力机制的级联模型Bi-GRU-CNN及本文模型GAC(Bi-GRU-Attention-CNN)。为了检验模型对于数罪并罚情形下多标签罪名的预测效果，修改GAC模型得到其单标签罪名预测模型S-GAC。方法是使用Softmax作为分类器，归一化logits 后取置信值最大的类别作为预测的罪名。此外，为了研究语义单元粒度对预测性能的影响，以170万篇法律文书作为训练数据训练字向量和词向量，并分别作为深度学习模型的输入。

使用Adam优化函数优化loss _batch ，反向传播迭代更新卷积核W 、上下文向量u _c 等模型参数。预测时基于最优参数计算得到预测概率q (x _i )，比较每个罪名的q (x _i )与阈值γ 的大小，取q (x _i )>γ 的所有罪名作为最终预测结果。

3 实验与分析

3.1 数据集及评价指标

实验数据来源于2018“中国法研杯”司法人工智能挑战赛，该数据集基于中国裁判文书网上的公开文书构建，本文依据规模将其划分为Charge-S和Charge-L，表1给出两个数据集的分布情况。对全体数据统计分析得出: 单标签罪名约占90%，多标签罪名约占10%。预处理过程中将出现次数小于80的罪名删除，原因是其对应样本较少，难以支撑深度学习模型训练。此外，由于原始数据集中金钱、年龄、重量等为离散数字表示。如盗窃金额1 000元和10 000元、年龄16岁和30岁等。为提升整体语义表示准确性，减少该类特征的多元化离散分布对判罚的影响，本文依据刑法法条和司法解释对其进行规范化处理，将金额划分为一级金额、二级金额等十个级别；并按是否成年将年龄分为成年和未成年两个级别等。

表1 数据集的分布

评价指标使用微平均F 1值F 1_micro 、宏平均F 1值F 1_macro 及综合F 1值F 1_union ，其计算公式分别如式(16)～式(18)所示：

3.2 实验参数设置

单案件单罪名的交叉熵loss 计算如公式(12)所示：

3.3 结果及分析

参照组采用常规肝癌治疗，应用常规5F导管实施介入治疗，实施动脉造影了解其肿瘤位置、大小、周围血供情况，制定介入治疗方案，应用5F导管实施插管，药物处方：阿奇霉素50mg、顺铂75mg、5FU900mg[2]。实验组行微导管超选插管介入治疗，在5F导管之中同轴插入3F微导管，将微导管送至肿瘤末梢位置，在造影引导下注入药液，处方：碘油10ml、阿奇霉素15mg乳化物[3]。观察到病灶组织被药液填塞后，持续推注，直至患者肿瘤周围动脉受到点状染色，应用明胶颗粒对其供血动脉予以栓塞，共持续1个月治疗。

表2、表3列出了基线模型和本文模型的预测结果对比，图4使用了灰度热力图对注意力层进行可视化，表4给出了分别以字向量和词向量作为输入的实验结果。

表2 Charge-S上的实验结果

续表

表3 Charge-L上的实验结果

从表2～3的结果可以看出，本文提出的罪名预测模型GAC在两个数据集上均取得较好的预测效果。其F 1_union 值相较于最优基线模型Bi-GRU-CNN，在Charge-S和Charge-L上分别提升了1.2%和 1.4%。Bi-GRU-CNN模型未考虑词语语义之间的差异性，其粗略认为犯罪事实中所有词语的重要性一致或接近，而GAC模型使用注意力机制实现了各词语语义差异表示，该方式的语义表示更为准确。这表明了该模型可以在训练过程中准确捕获各罪名的类别关联性，并有利于提升罪名分类的准确率。

为了检验本文方法对相似、相关罪名的区分能力，以及进一步分析文本建模过程中注意力机制的作用机理，本文选取相似罪名“容留他人吸毒罪”与“贩卖毒品罪”中的两个案例。在预测过程中，分别对其犯罪事实中各词语对应隐层向量的注意力权值α _i 进行可视化。结果如下图4所示，可以看出，尽管“容留他人吸毒罪”与“贩卖毒品罪”均为毒品犯罪类罪名，但其犯罪事实整体语义侧重仍有所差异。依据司法解释，“容留他人吸毒罪”客观方面表现为容留他人吸食、注射毒品，重点强调主观容留性，忽略其是否存在有偿交易。而“贩卖毒品罪”更多强调毒品的交易行为，毒品种类、交易数量、毒资金额是其关键特征。因此，在“容留他人吸毒罪”案件的可视化图中，“容留”“吸食”等强调容留吸食行为词语的颜色较深；“贩卖毒品罪”中描述毒品交易特征的词语则颜色较深，如“购买”“交易”“出售”“毒资”。这种注意力分布的差异是区分两类相似罪名的关键。通用性词语如“被告人”“李某”“路边”等，其罪名区分能力较弱，对应注意力值也较低。我们同时发现，“海洛因”“冰毒”等毒品名称的权重也较高。原因是其所指语义为“毒品”，而该语义在毒品犯罪与非毒品犯罪(如盗窃、抢劫等罪名)的区分中较为关键。值得注意的是，“在毒品贩卖罪”中出现了标签“money_1”，其是预处理过程中对金钱类数字规范化替换的结果，因为毒资金额在“毒品贩卖罪”相似罪名(如走私、运输毒品罪等)区分过程中较为关键，所以其权重也相应较高。上述分析说明本文注意力机制的使用的确能有效关注到犯罪事实中词语的语义重要性差异，而这种差异性对于同类案件或非同类案件的罪名区分十分关键。

你知道吗？万花筒可是一种历史悠久的玩具呢！出生于苏格兰的物理学家大卫·布鲁斯特从小就痴迷于光学实验，喜欢观察周围的事物，热爱动手操作。后来，在一次偶然的多面镜光学实验中，他发现如果把物体放在由几块镜子组成的空腔里，就能呈现出对称的图像。

关联结构水平（relational leve1）：采用两种或两种以上的分析方法，得到至少两种结果．如：由于，加上乌市有两个优级天气，所以乌市空气质量好；由，昆明空气质量稳定，且昆明没有污染等级的天气，所以昆明空气质量好．

第一，对于3台空气压缩机，建立远程后台监控平台，能够准确的故障跳闸，具有实时曲线、生成报表、历史记录、故障录播等功能；

图4 可视化注意力层

从表2、3中还可看出，F 1_micro 值与F 1_macro 值相差较大。在Charge-S数据集中，GAC模型预测结果的F 1_micro 与F 1_macro 相差高达16.8%，Charge-L中也相差15.2%。其主要原因是不同罪名的样本数目占比倾斜严重，从而导致了模型训练的偏置。

图5给出了Charge-S数据集上部分罪名的训练样本数目对比，可以发现不同罪名的样本数量分布很不均衡。其中，“盗窃”与 “倒卖文物”的样本数目比300:1。分类器是以总体分类精度为学习目标，在这种情况下，训练算法势必会导致分类器过多关注多数样本，从而使少数样本分类精度下降。本文也尝试使用采样算法改进模型，但该类方法对性能的提升极为有限，本文将在后续工作中研究更有效的改进思路。

回到村庄的英，一刻也闲不下来，她又开始忙碌了起来，洗衣做饭，捡拾柴火。英又开始悉心照顾丈夫，她感觉听丈夫使唤也是一种幸福。

图5 Charge-S上部分罪名的训练样例数目

为了验证模型在数罪并罚类案件的有效性，本文设置了对应的单标签预测模型S-GAC作为对比模型。观察表3发现，在Charge-L数据集上通用GAC模型相比于单罪预测模型S-GAC，F 1_union 提升4.2%。数据集中全部多标签案件约占9%，这表明本文使用的基于Sigmoid的方法确实能有效解决数罪并罚情形下的多罪名预测问题。

为了研究不同粒度的语义单元对于犯罪事实建模的影响，本文还分别对比了预训练字向量和词向量作为输入时的预测结果。表4给出了结果对比。从表4中可以看出，以词向量作为语义表示时的效果在各项指标上均显著优于字向量。在Charge-L数据集上，Word-GRU 与Word-CNN相比于Char-GRU 和Char-CNN，F 1_union 分别提升了1.2%和0.6%，本文使用的GAC模型也提升了1.1%。这一方面，是由于法律文书的撰写用词较为规范，使得分词错误率较低，但使用字向量优势并不明显。另一方面，以词作为语义单元时，便于对犯罪事实中时间、地点、数字这类语义整体性较强的词语编码。而字向量以单字作为语义单元，编码过程中会将整体语义信息拆分成零散信息，影响了语义表示的准确性。由于字典规模远小于词典(本文实验中分别为4 786 和170 827)，故基于字向量的模型效率要明显优于基于词向量的模型。

表4 字向量和词向量对比实验结果

4 结语

本文针对性地研究了罪名自动预测中词语的差异性建模以及数罪并罚情形下的罪名预测问题。首先，使用Bi-GRU融入上下文信息以生成犯罪事实总体语义表示。然后，使用注意力机制刻画不同词语的语义重要性差异，再使用多核卷积池化对特征向量降维。最后，经过全连接层和Sigmoid分类器预测得到罪名预测结果。针对数罪并罚情形改进的罪名预测模型也有效解决了其对应的多标签罪名预测。由于法官定罪时的影响因素不仅只有犯罪事实，证据是否完备充足、犯罪情形严重与否、法律条文与司法解释的符合程度等因素对判决的走向也有较大影响。因此，在接下来的工作中，本文将尝试将证据信息、法律条文，司法解释等外部信息融入以辅助罪名预测，改进模型并提升其预测性能。

在此，感谢中译语通科技股份有限公司对于本工作提供的帮助和建议！

参考文献

[1] Kort F. Predicting supreme court decisions mathematically: A auantitative analysis of the “right to counsel” Cases[J].American Political Science Review, 1957, 51(1):1-12.

[2] Nagel S S. Applying correlation analysis to case prediction[J].Texas Law Review, 1964, 42(7):1006-1017.

[3] Liu C L,Chang C T,Ho J H.Classification and clustering for case-based criminal summary judgments[C]//Proceedings of the 9th international conferenceon Artificial Intelligence and law.ACM,2003: 252-261.

[4] Luo B, Feng Y, Xu J,et al. Learning to predict charges for criminal cases with legal basis[C]//Proceedings of EMNLP 2017, 2017: 2727-2736.

[5] Hu Z,Li X,Tu C,et al.Few-shot charge prediction with discriminative legal attributes[C]//Proceedings of the 27th International Conference on Computational Linguistics.2018: 487-498.

[6] Keown R. Mathematical models for legal prediction[J]. The John Marshall Journal of Information Technology & Privacy Law. 1980, 2: 829.

[7] Anne von der Lieth Gardner. An artificial intelligence approach to legal reasoning[D].PhD Thesis, Department of Computer Science, Stanford University. MIT Press, Cambridge,1987.

[8] Deedman C, The nervous shock advisor: A legal expert system in case-based law[J].Operational Expert System Applications in Canada, 1991:56-71.

[9] Thompson P . Automatic categorization of case law.[C]//Proceedings of the International Conference on Artificial Intelligence & Law.ACM Press, 2001:70-77.

[10] Liu C L, Hsieh C D . Exploring phrase-based classification of judicial documents for criminal charges in chinese[C]//Proceedings of the International Conference on Foundations of Intelligent Systems. Springer-Verlag, 2006:681-690.

[11] Liu Y H, Chen Y L, Ho W L . Predicting associated statutes for legal problems[J].Information Processing & Management, 2015, 51(1):194-211.

[12] Sulea O M, Zampieri M, Malmasi S, et al. Exploring the use of text classification in the legal domain[J]. arXiv preprint arXiv, 1710.09306,2017.

[13] KimY. Convolutional neural networks for sentence classification[J].arXiv preprint arXiv: 1408.5882,2014.

[14] Hochreiter S, Schmidhuber, Jürgen. Long short-term memory[J].Neural Computation, 1997, 9(8):1735-1780.

[15] Zichao Y, Diyi Y, Chris D, et al . Hierarchical attention networks for document classification[C]//Proceedings of the NAACL-HLT. Cambridge, MA: MITPress, 2016: 1480-1489.

[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the Annual Conference on Neural Information Processing Systems, 2017: 5998-6008.

[17] Ye H, Jiang X, Luo Z, et al. Interpretable charge predictions for criminal cases: Learning to generate court views from fact descriptions[J], arXiv preprint arXiv, 1802.08504,2018.

[18] Xie S, Tu Z. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2015, 125(1-3):3-18.

[19] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems. 2013: 3111-3119.

[20] Kingma D P,Ba J.Adam: A method for stochastic optimization[J].arXiv preprint arXiv: 1412.6980,2014.

Multi -label Charge Prediction Based on Semantic Differences of Words

WANG Jiawei¹, ZHANG Hu¹, TAN Hongye¹, WANG Yuanlong¹, ZHAO Hongyan^1,2, Li Ru^1,3

(1. School of Computer and Information Technology, Shanxi University,Taiyuan, Shanxi 030006, China; 2. School of Computer Science and Technology, Taiyuan University of Science and Technology,Taiyuan, Shanxi 030024, China;3. Key Laboratory of Ministry of Education for Computation Intelligence and Chinese Information Processing, Shanxi University,Taiyuan, Shanxi 030006, China)

Abstract : Charge prediction is an important part in the field of intelligent judicature, which is aimed to predict the charge of the criminal subject based on the criminal facts. Criminal facts are the authentic and objective description of a case, in which the semantic importance of each word in criminal facts differs in the judgment of different charges. Existing studies ignore this semantic difference during modeling crime facts, and neglect the situation of cumulative punishment. In this paper, we incorporate the semantic differences of words into the attention mechanism in modeling crime facts. We then decompose the multi-label charges into several independent parts to realize the prediction under the condition of cumulative punishment. The experimental results show that the modeling based on semantic differences and multi-label transformation strategies are helpful to improve the effect of crime prediction, achieving F ₁ of 88.0% on CAIL2018 dataset.

Keywords : charge prediction；semantic differences；multi-label

中图分类号 :TP391

文献标识码: A

文章编号：1003-0077(2019)10-0127-08

收稿日期: 2019-01-22

定稿日期: 2019-02-26

基金项目: 国家社会科学基金(18BYY074)；山西省重点研发计划项目(201803D121055)；山西省研究生联合培养基地人才培养项目 (2018JD01)

王加伟(1994—)，硕士研究生，主要研究领域为自然语言处理。E-mail： 782534132@qq.com

张虎(1979—)，通信作者，博士，副教授，主要研究领域为自然语言处理。E-mail： zhanghu@sxu.edu.cn

谭红叶(1971—)，博士，副教授，主要研究领域为中文信息处理，信息检索。E-mail： hytan_2006@126.com

标签：罪名预测论文; 语义差异性论文; 多标签论文; 山西大学计算机与信息技术学院论文; 太原科技大学计算机科学与技术学院论文; 山西大学计算智能与中文信息处理教育部重点实验室论文;

基于词语语义差异性的多标签罪名预测论文