面向刑事裁判文书的罪名自动预测技术论文

面向刑事裁判文书的罪名自动预测技术

李艾林

（甘肃政法大学公安技术学院，甘肃兰州 730070）

摘要：法律文书智能化处理作为司法人工智能技术的基础工作，特别是基于裁判文书的法律判决预测逐渐引起自然语言处理领域学者的关注。罪名预测作为是法律判决预测的重要子任务，决定着自动量刑、案件推荐等任务的准确率。本文以海量的刑事裁判文书为数据集，利用HanLP对裁判文书文本进行分词和词性标注，再借助word2vec工具训练词向量进行文本表示，通过对比实验SVM-TFIDF和深度神经网络学习（DPCNN）算法实现罪名预测。实验结果表明，本文方法能够较好的实现罪名自动预测。

关键词：司法人工智能自然语言处理罪名预测深度神经网络

公正是法治的生命，证据是诉讼的灵魂。但是，在传统的司法领域中，由于各种主客观因素的影响，不可避免的会出现量刑偏差。近年来，研究人员开始在法律的背景下应用人工智能（artificial intelligence , AI）技术来补充和增强法律^[1]。随着司法人工智能技术的不断融合发展，希望能进一步防范冤假错案、避免“类案不同判”、破解“案多人少”难题。

综上，对大数据伦理价值观的研究，一方面会激发学者们对技术创新引领下的制度建设和安排进行深度思考。技术总走在制度之前，引导制度研究的方向，尤其是法律具有明显的滞后性，在这个技术快速变革的时代更是如此。那么，法律制度应当如何应对这些由技术变革引发的社会变革呢?另一方面，也预示着大数据问题的复杂性，需要进行包括经济、法律、哲学、公共政策等在内的广泛的社会对话，以实现大数据技术应用的社会价值与个人信息利益之间的平衡。

近些年，基于深度学习的自然语言处理技术快速发展，利用深度学习算法解决诸如分词、词性标注、机器翻译、信息抽取、分类、自动摘要等问题的模型逐渐成为研究主流。法律判决预测 (legal judgment prediction, LJP )是一项自然语言处理技术在法律领域上的应用，不仅能够提高法律专业人士的工作效率、给予更加专业的法律建议，而且能打消部分技术壁垒，使得公众更为广泛的了解法律知识，清楚案件形势。本文主要研究法律判决预测环节中的罪名预测子任务，通过神经网络模型研究适用于司法文书罪名自动预测。

一、相关工作

罪名预测指机器在分析案件事实描述之后预测法律案件的罪名，如欺诈、盗窃或杀人等罪名。目前，大多数现有工作都是在文本分类框架下进行研究，由于公开案例的局限性，早期工作通常对少数案例的判决结果进行统计分析，而不是进行预测。随着机器学习的发展，越来越多的法律研究工作采用机器学习的方法提取稀疏特征解决罪名预测问题。Liu 等人^[5]在罪名预测任务中考虑了短语特征信息。 Lin 等人^[4]融合21种法律要素解决案例分类问题。Luo等人^[2]采用基于注意力机制的神经网络模型在罪名预测任务中融入法条信息，使罪名预测更具有合理性。Hu 等人^[3]把罪名分为10大类，通过人工将相关罪名属性信息进行标记，在此基础上，利用神经网络模型解决易混淆罪名问题。

二、裁判文书数据处理

1.数据说明

本项目采用 CAIL2018 发布裁判文书数据，该数据由 2676075 份刑事裁判文书、183条刑法条文、202 条罪名以及刑期等相关信息组成，每份裁判文书结构良好分为若干个部分，如案件事实描述、法院观点、当事人、判决结果和其他信息；然后将刑事裁判数据集进行划分，划分策略为训练集（97%）和验证集（3%）。上述裁判文书数据分布很不均匀，例如在罪名分布中，盗窃和故意伤害罪名占数据的大部分，而引诱和敲诈勒索罪名占数据的很少一部分，这个问题也为罪名预测的准确分析提供了难度。

2.数据预处理

裁判文书属于文本数据，文本由各类字词句构成，每类裁判文书文本经过分词之后，均有部分字词对于裁判文书的主题无关，如：“判决书”，“意见书”等司法术语占 90%以上。为了提高后续模型训练效率和准确率，必须去除主题无关和无意义的词汇数据质量很大程度地影响后续模型的训练效果，为提高数据质量，本文对裁判文书进行大量的预处理工作。首先是数据清洗，去除一些无效样本。其次，根据分词和分句的分析结果，对部分词语以及一些无效短句作为停用词予以去除。再次，将大量的干扰信息进行归一化处理。

3.文本表示

采用交叉熵损失函数作为目标函数，先利用式（3）的Softmax计算金标答案概率；最后再采用式（4）的交叉熵损失函数计算真实概率分布与预测概率分布的差距。

三、学习模型

DPCNN：它能够学习更复杂的非线性特征，提取更深层次特征，从而高效地建立长距离文本的语义。

为了解决BiLSTM隐层向量对词语重要程度信息缺失的问题，本文利用注意力机制（attention）得到词级别的向量表示。注意力机制的计算公式如下：

为了能够充分捕捉文本上下文特征信息，本文采用双向长短期记忆神经网络（bi-directional long short-term memory , BiLSTM）对词和句子进行编码。那么，对于案情描述可以进行这样输入：{ w ₁ ,w ₂,...,w_n }，则词的向量集合{e _w ₁,e_w ₂,...,e _wn }作为神经网络模型的输入。那么，将词向量集合经过式（1）得到BiLSTM的隐层向量表示。

适合的温度有利于酿酒酵母更好的生长代谢，研究了温度对Y17aM3生长及生产RNA的影响，结果如图 13。Y17aM3随着培养温度升高而生长减慢及RNA产量减少，因此低温更有利于Y17aM3生长和积累RNA。最适温度为26 ℃，此时Y17aM3生长OD600最高为14.5，RNA含量最高为115 mg-RNA/g-DCW，比在30 ℃条件下提高了3 mg-RNA/g-DCW。

文字是人类认知过程中产生的高层认知抽象实体，因此，需要将其转换为计算机可以处理的数据类型，即向量。目前文本表示主要包括两类方法one hot encoding和word-embedding方法。其中，one hot encoding方法主要应用的词袋模型（BOW）+TF-IDF技术，优点是简单粗暴配合LR效果也不赖，缺点也明显，维度太高且有词义鸿沟问题，不适合大语料。word-embedding方法中的word2vec +TF-IDF加权平均方法训练词向量效率和效果均表现不俗，首先通过word2vec训练词向量，再通过简单的词加权/关键tag加权/tf-idf加权平均得到文档向量表示。根据当前研究热点，结合本文数据体量要求，本文采用word2vec进行文本表示。

四、实验及结果分析

1.实验设置

目前，自然语言处理研究领域成熟的分词工具包括 JieBa、HanLP、LTP；由于缺乏法言法语专用词典，那么在没有词典的情况下，HanLp 的分词效果最佳。因此，本文采用HanLP分词器(http://hanlp.com/)对案情描述进行中文分词。使用Word2vec在CAIL2018全部数据集上训练外部词向量。词向量中的向量维度设置为200，BiLSTM隐层维度设置为200, Dropout值设置为0.5，批处理大小为70，优化器采用的是Adam ( adaptive moment estimation )，学习率为0.001。

2.评价方法

刑事裁判文书数据存在数据分布不平衡问题，仅有不足300条训练数据的罪名数量占到50%以上，而有3000条以上训练数据的罪名仅有7个。因此，本文采用分类任务中的微平均F1值(Micro-F1-measure)、宏平均F1值(Macro-F1- measure) 以及这上述两类的平均值作为模型的评价指标作为模型评价指标。

式（2）中，N表示词的数量；g表示最终的向量；α 表示词的贡献度值；W是权重矩阵；u 表示全局向量，以达到区分有信息词和无信息词。其中，初始值利用随机初始化形式产生，并且在训练过程中不断进行权值更新，BiLSTM 的隐层向量表示作为输入。

3.实验模型

实验中采用以下模型进行对比分析：

2）第14届世锦赛决赛各项目前8名成套动作中被选用的动力性力量难度动作主要为高难度动作，其次为中难度动作，显示出竞技健美操动力性力量难度动作技术已经由相对稳定时期逐步进入成熟期；对超高难度的尝试和应用，更体现着现代竞技体育更高、更强的体育精神和趋高化的发展态势。

本文借鉴刘宗林等^[6]的相关工作进行学习模型的建立。裁判文书中都是基于段落对案情进行描述的，而段落由一系列句子组成。那么，段落编码问题可以转换对词和句子进行序列编码，即基于词级别的序列编码和词级别的注意力机制和基于句子级别的序列编码和句子级别的注意力机制。

SVM-TFIDF：利用TF-IDF抽取案情描述部分的特征信息。其中 TFIDF 提取的特征个数设置为5000，并且使SVM 作为分类器。

4.实验结果及分析

表1 实验结果

实验结果如表（1）所示，本文采用了SVM-TFIDF 和DPCNN模型对罪名预测进行了对比实验。实验结果表明，基于DPCNN罪名预测模型的罪名预测的性能较好。但是，实验中仍然存在一些罪名的预测准确率不高的问题，比如对破坏交通设施罪名的预测。通过对实验进一步的研究发现，破坏交通设施的训练数据不足100条，而其他几个罪名的至少300条训练数据，训练数据极度不均衡。因此，本文方法在训练数据不足的情况下还不能达到很好的效果。

另外，本文通过对预测结果的观察，发现导致实验结果准确度不高的另外一个原因是存在大量的易混淆罪名案例，实验模型无法辨识，例如存在很多的盗窃案例被预测成为非法侵入住宅。

治疗结束后，研究组患者34例，治疗痊愈8例，占比23.53%，治疗显效12例，占比35.29%，治疗有效13例，占比38.24%，治疗无效1例，占比2.94%，研究组患者治疗的总有效率为97.06%；对照组患者34例，治疗痊愈3例，占比8.82%，治疗显效10例，占比29.41%，治疗有效9例，占比26.47%，治疗无效12例，占比35.3%，对照组患者治疗的总有效率为64.7%；将两组数据进行比较，研究组患者治疗的总有效率要高于对照组，差异有统计学意义（x2=33.858，P=0.000＜0.05）。

五、结论

本文借助自然语言处理相关技术理论，基本实现了对裁判文书罪名的自动预测，但是实验过程中仍然存在诸多问题，如训练资源不均衡、易混淆罪名等。接下来，本文将围绕两方面工作进行开展，首先，对相关算法和模型进行对比实验分析并及时优化；其次，建立优质的覆盖面广的刑事案件术语词汇库。

[3]我从现在开始努力生活当您们的好女儿吧，我还{CJX}年纪[B级]小{CC少}，经验也很少{CC泛}。

参考文献

[1]Firat O ， Cho K ， Sankaran B ， et al.Multi-way， multilingual neural machine translation[J].Computer Speech & Language， 2016：S0885230816301097.

[2]Luo B ， Feng Y ， Xu J ， et al.Learning to Predict Charges for Criminal Cases with Legal Basis[J].2017.

[3]Zikun Hu， Xiang Li， Cunchao Tu， Zhiyuan Liu， and Maosong Sun.2018.Few-shot charge prediction with discriminative legal attributes[J].In Proceedings of COLING.

[4]Liu C L ， Hsieh C D .Exploring Phrase-Based Classification of Judicial Documents for Criminal Charges in Chinese[C]// International Conference on Foundations of Intelligent Systems.Springer-Verlag， 2006.

[5]LIN W C ， KUO T T ， CHANG T J.Exploiting machine learning models for Chinese legal documents labeling， case classification ， and sentencing prediction [C]// Proceedings of the 24th Conference on Computational Linguistics and Speech Processing （ROCLING 2012） .Chung-Li， Taiwan， China ：ACL-CLP， 2012： 140-141.

[6]刘宗林，张梅山，甄冉冉，等.融入罪名关键词的法律判决预测多任务学习模型[J].清华大学学报（自然科学版）， 2019，59（7）：497-503.

中图分类号： DF81

文献标识码： A

文章编号： 1003-9082（2019）11-0278-02

标签：司法人工智能论文; 自然语言处理论文; 罪名预测论文; 深度神经网络论文; 甘肃政法大学公安技术学院论文;