基于《中图法》的自动分类研究现状与展望,本文主要内容关键词为:现状论文,中图法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
文本自动分类是指在给定的分类体系下,根据文本的内容将其自动确定为相应预定义类别的过程[1],是人工智能研究领域中通过知识工程[2]、机器学习[3]等方法对文本进行自动分类的一种技术。在人工智能领域,文本自动分类研究的重点在于分类算法,通过不断改进现有算法或者开拓新的分类算法,努力提高分类准确性以及分类速度。为验证算法的有效性,通常要使用一定的类目构成、准备相应的文本等分类材料,并在由此所组成的试验环境中进行分类试验。但是,在试验环境中表现优秀的分类算法一旦应用到真实世界,往往差强人意,缺乏对实践中实际使用的分类材料的针对性。而在人工智能领域的文本自动分类研究中,由于类目构成、文本等分类材料不是其研究对象,针对应用范围的分类材料的研究主要体现在电子邮件中垃圾邮件过滤等分类应用之中,这类应用的特点是类目体系简单、文本数量相对较少,如文献[4]。
《中国图书馆图书分类法》(以下简称《中图法》)分类体系下文本自动分类是指分类材料中,类目结构采用《中图法》,文本主要是需要图书馆人工编目的图书以及数字图书馆环境下电子期刊论文、网页等数字化信息资源。
在图书馆等信息资源管理的核心机构,类目构成是对信息进行组织的基础,统称为分类法或分类体系。不仅每一个图书馆都会按照特定的分类体系,如《中图法》,对图书、期刊等文献资源进行分类组织,即使是以关键词检索为核心技术和服务的Google搜索引擎,也有按照分类目录对网页进行组织的检索页面(见http://directory.google.com/)。由于图书馆的资源组织需要遵循严格的分类体系,作为文本的文献资源有多种不同的类型,因此,在图书馆等信息资源管理的实践环境下开展文本自动分类研究与应用时,需要清楚了解分类体系、文本等分类材料的特性,尊重图书馆现有分类体系和文本等现实情况,才能充分发挥各种文本自动分类方法的优势,将两者有机结合,使文本自动分类在信息资源管理领域得到有效的应用。
本文以中国知网、重庆维普及万方数据三大电子期刊数据库为数据来源,查找出自1995年以来,以《中图法》和文本自动分类为共同研究主题的文献20余篇,结合作者近年来对文本自动分类研究的认识和经验,对《中图法》分类体系下文本自动分类研究的现状,从研究目的、类目体系、资源类型等方面,参考国外相关研究的成果和方法予以分析和评价,探讨其存在的问题和发展趋势,以期为今后该项研究提供参考。
2 《中图法》分类体系下文本自动分类研究综述
2.1 研究目的
将文本自动分类技术应用到图书馆等信息资源管理领域时,其首要目的是实现或者辅助实现图书编目的自动化。图书馆按照《中图法》等一定的分类体系对图书等文献资源进行分类、编目、建立馆藏目录体系等资源组织工作是图书馆的基础工作,其核心是分类,长期以来由人工完成。随着图书等文献资源出版量的日益增大,完全靠手工完成已力不从心。实现图书馆编目自动化,是文本自动分类的重要应用领域,到目前为止已经取得部分成果[5-14]。
另一方面,随着数字化图书馆的发展,数字化信息资源的种类和数量越来越多。针对《中图法》分类体系下电子期刊论文和网页的自动分类研究也有部分进展,如文献[15-25]。
针对期刊论文、网页等电子资源的分类,其最终目的是,将图书、电子期刊论文、网页等信息资源在数字图书馆中进行统一分类方式的组织,以便将目前需要分别由OPAC、电子期刊数据库、Web搜索引擎等分别完成的检索工作,在一个整合后的资源组织中,在一个用户界面下一次性完成。
2.2 自动分类的方法
知识工程方法主要是手工编制和维护分类规则并利用这些规则来判断文本的类别。由于这种方法主要利用专家的经验知识,以解决问题为前提来实现人工智能在文本分类中的应用,构建这种有效的分类系统需要许多有经验的专家,耗费大量人力和时间,代价较高、更新较慢并且很难适用于不同领域的应用。到上个世纪九十年代,随着电子文档的大量出现,机器学习开始兴起,被有效地用于文本分类中,并逐渐取代知识工程方法而成为人工智能领域中的研究重点。
但是,在《中图法》分类体系下应用文本自动分类技术时,一直是基于知识工程方法的研究占主流,直到近几年机器学习方法才逐渐增多。虽然笔者认为基于机器学习的方法是未来的发展趋势和研究重点,但同时也认为,有必要对迄今为止的基于知识工程方法的研究成果,特别是对该方法中有代表性的研究成果加以总结,以便今后参考。
基于知识工程方法的文本自动分类研究的基本做法是,建立基于《中图法》的专家知识系统,包括《中图法》库、《汉表》库、分类号主题词对应库、同义词库、关键词库以及人工标引词库等若干数据库或者其中一部分,应用文本自动分类技术,通过对原始数据的有效整理,找出关键词、主题词和分类号之间隐含的概念关系,形成分类类目与标引词串的对应款目,自动生成分类号[26-28]。应用知识库方法的另一种有效形式是建立词典,在词典中存储词条、分类号、权值等信息,利用该词典对文章进行分类等工作[29-30]。
基于知识工程方法的代表性研究成果是文献[31]。该研究在知识库方法的基础之上,通过引进机器学习的方法测定关键词和类目概念之间的关联度,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配。这项研究也标示着单靠知识库的方法已经不能完全解决《中图法》分类体系下的自动分类问题,正如文献[32]指出的那样,中文词共计只有20万左右,被划分为5万个类别,每一个类别平均只有4个特征词。这必然使找出关键词、主题词和分类号之间隐含的概念关系变得非常困难,必须引进新的思路或方法。部分研究也与文献[33]一样,在知识工程方法中引进机器学习方法[34-40]。而文献[41]则是利用短语代替关键词建立短语与分类号之间的联系。从机器学习的角度看,短语代替关键词实际上起到降维的作用。
在《中图法》分类体系下应用机器学习方法进行自动分类的研究,较早的有文献[42-44],但试验材料中使用的文本分别是新闻稿、网页和期刊论文。直到2010年以后才有文献[45-46]针对图书进行自动分类研究。由于机器学习方法存在词-文本矩阵维度较高、不易计算等缺陷,在机器学习方法中也引入本体等方法达到降维的目的[47]。在这些基于机器学习方法的分类研究中,各种具体的机器学习方法均得到实际的应用,如KNN最邻近算法[48]、决策树(Decision Tree)、贝叶斯分类法[49]、支持向量机[50-52]、神经网络[53]等。
2.3 试验材料的制作方式
机器学习需要一批已经由人工进行过准确分类的文本作为学习的材料,即通常所称的“训练集”;分类方法或者系统在不需要人工干预的情况下通过对训练集的自动学习,从这些文档中挖掘出一些能够有效分类的规则,然后根据这些规则对待分类的文本进行分类。在评价试验阶段或评价试验环境下,机器学习的文本自动分类方法还需要组织一批待分类的文本(通称为“测试集”)输入到分类方法或者系统之中测试自动分类的准确性。这些测试集文本各自的所属类目是已知的,而且认为是正确的,可以与分类方法或者系统所完成的自动分类结果进行对比,方便系统对自动分类结果的准确性进行自动评价。
上述文本自动分类研究中使用的训练集和测试集等分类试验材料通常产生于两种方式。一种是由相关机构组织多位专家共同讨论、专门制作的专门语料库;这种材料是通用的且通常在网上公开,如代表性的Reuters-21578英文分类语料集[54],互联网搜狗实验室提供的语料库(SogouT)[55]、复旦大学语料库[56]、北京大学语言研究中心语料库提供的《人民日报》标注语料库[57]等。这种通用且公开的专门语料库通常类目之间界限清晰、各个类目中有足够数量的文本。这既节约了研究者们搜集整理分类材料的时间和精力,更大的好处是可以用来对不同分类方法或系统进行公开、透明的比较和评价。另一种是研究者个人采用自制的方式、针对特定的学科领域从现实世界中获取的真实数据,这种试验材料能证明自动分类技术或所开发的分类系统的实用性,如文献[58]利用的是研究者取自CiteSeer[59]网站所载计算机领域的有关文献,文献[60]则是将学术期刊的常设主题栏目作为不同的类目,将已发表的文章的标题、摘要及关键词所构成的短小文本作为自动分类的试验材料。这种试验材料通常由研究者自己按照特定的学科领域和文献类型或类目构成从特定的现实数据中获取,并按照其研究目的进行组织,生成的试验材料一般没有对外公开。
到目前为止,将文本自动分类法应用于《中图法》的研究中,分类试验所使用的材料都是由研究者各自制作的,例如,文献[61]所用试验材料取自该文作者所在单位的图书馆的书目信息,文献[62]所用试验材料由该文作者从中国知网电子期刊数据库中随机抽取。迄今,针对《中图法》的自动分类研究中,还没有一个通用的试验材料,可以供广大的研究者共用,并可以对各种方法进行公开透明地比较评价。
2.4 试验材料的类目构造或分类体系
在人工智能领域中使用的自动分类试验材料之中,复旦大学的语料库将试验材料分成了包括农业、艺术、经济等在内的20个类别。《人民日报》标注语料库分为体育、计算机、交通等10个类别。互联网搜狗实验室提供的Sogou语料库分为IT、军事、体育等10个类别。虽然三个语料库所包括的类目数量不尽相同,但所有类别之下均不存在下位类。即,文本自动分类研究中所使用的中文试验材料的类目结构都是单层的,所有类目下不再细分为更小的类目。
国外文本自动分类研究中使用较多的Reuters-21578英文分类语料集[63]由21 578篇与经济相关的新闻报道构成,共有五种类目体系,分别是EXCHANGES(交易所)、ORGS(机构)、PEOPLE(人物)、PLACES(地方如国家)、TOPICS(与经济相关的主题)。但大多数研究选择TOPICS的135个类中的某些类构成训练集和测试集,进行分类试验。因此,从文本自动分类的目的来看,Reuters-21578英文分类语料集仍然是单层类目结构。
上述通用且公开的专门语料库是由相关机构各自组织专家为自动分类以及信息检索等其他目的而专门制作的;其分类体系没有统一的标准,采用单层类目结构且未能覆盖更广泛的学科主题范围,类目之间的区分显而易见,为自动分类试验打下了良好的基础,分类正确率通常都能够达到90%左右甚至更高的水平。
不论在文本数量上还是类目构造或分类体系上,由研究者自制的试验材料都比通用且公开的专门语料库的少而简单。例如,文献[64]和[65]不仅使用的是单层类目结构,而且通常只有3至5个类目。只是这些类目及其相应的文本是特定的领域中真实存在的数据,更接近分类的实际需要和环境。
而在图书馆等信息资源管理的核心领域中应用文本自动分类技术时,所参考的类目结构主要是使用传统的图书馆分类体系,而不是由研究者们,包括相关机构任意地自编类目结构。这一点是与上述人工智能领域中使用的试验材料的类目结构的最大不同之处。
国内开展自动分类研究所使用的分类体系主要是《中图法》,尚未见到使用其他如《中国科学院图书馆图书分类法》、《中国人民大学图书馆图书分类法》等开展自动分类研究的成果。这也符合我国绝大部分图书馆均使用《中图法》的实际情况。
实际上,国外的同项研究中,也多使用著名的分类体系,包括《国会图书馆分类法》[66],《国际十进分类法》[67],《杜威十进分类法》[68-70]等。
此外,也有借鉴多种分类体系自行构建一个新的分类体系进行自动分类研究。例如,文献[71]结合DDC、中图法、Yahoo目录等自编了一个新的分类体系进行文本自动分类研究。国外(含大陆以外地区)也有同样研究,如文献[72]试图根据自动分类的现实,建议对所使用的LCC体系进行简化。
其次,使用《中图法》等传统的分类体系进行文本自动分类时,其类目结构不再是单层的,而是多层类目结构,类目数量也不再以数十、数百计,而以数千、数万计。例如,《中图法》(第四版)一级大类22个,二级类目729个,三级类目2 464个,四级类目6 917个,五级类目15 672个,更多的类目分布在六至十一级类目之中。
具体在各项研究成果中,除少数研究成果没有提到具体使用的类目结构[73-75],或者仅使用单层类目结构展开分类试验以外[76-77],大多数研究都使用《中图法》两层或两层以上类目构建试验材料[78-89]。
以《中图法》的大类计,试验材料涉及的大类数目多少不一。涉及某一个一级大类的研究包括:文献[90]是有关地质学的图书自动分类研究,文献[91]是有关自动化技术、计算机技术大类的期刊论文自动分类研究,文献[92]是有关文化、科学、教育、体育大类的图书自动分类研究。其中,试验材料以F经济大类下的下位类为主的研究较多[93-97],试验材料涉及三个或者以上大类的研究也有[98-103]。其中,文献[104]的试验材料涉及《中图法》全部22个一级大类的自动分类研究。
类目的不断细分不仅意味着类目数量的增加,更意味着处于类目边缘的文献在类目之间难于得到正确的分类。这是在《中图法》等传统图书馆分类体系下,将文本自动分类技术应用于图书等信息资源分类时,分类正确率偏低的一个重要原因。
2.5 试验材料的来源及类型
由于《中图法》分类体系下文本自动分类的最终目的是为数字图书馆的建设服务,其特点是分类对象包含多种数字化信息资源,研究中使用的试验材料除主要来自图书的相关书目信息之外,还包括电子期刊数据库、Web网站。
来自图书的试验材料主要是图书的题名和摘要等书目信息[105-109]。图书的书目信息的原材料主要取自图书馆的MARC记录,也有取自Web的,例如文献[110]将来自网站豆瓣读书(http://book.douban.com/)、亚马逊(http://www.amazon.cn)、GoogleBooks等开源图书资源库的图书信息,包括书名、内容题要、目次、中图法的类名和类号等收集到试验材料中供分类试验时使用。
来自期刊论文的试验材料既有论文全文,也使用包括题名、摘要以及作者关键词等书目信息,以后者居多。其原材料多取自电子期刊数据库[111-115]。
来自Web的试验材料主要是通过人工或爬虫等自动搜集程序取自特定网站的网页[116-120]。
采用新闻稿作为试验材料的仅有文献[121],其文本主要来自人民日报和新华社。
本领域开展文本自动分类研究时,试验材料的最大特点是将两种类型的信息资源作为分类对象,如文献[122]采用了来自中国资讯行网站的经济新闻语料和来自中文科技期刊数据库(维普数据库)电子期刊的期刊论文语料。文献[123]选用了来自《中国期刊网数据库》的期刊论文数据和来自图书馆MARC记录的图书书目数据。将文本自动分类技术应用于《中图法》等传统图书馆分类体系时的一个重要特征是,对混合图书、期刊论文、新闻稿在内的网页等多种信息资源的文本进行分类。
2.6 评价
2.6.1 评价指标
在《中图法》分类体系下应用机器学习方法进行自动分类时,对分类结果的评价也采用通用的分准率、分全率以及综合指标F1。这些指标原本就起源、借鉴于信息检索评价中的查准率、查全率以及F1,对信息资源管理领域的研究者来说是比较熟悉的内容。
表1列举了评价指标中各字母的含义。其中a是原人工分类标准中属于此类,而系统也判断属于此类;b是人工分类不属于此类,而系统判断属于此类;c和d以此类推。
2.6.2 评价方法
除个别研究采取事后组织专家对自动分类的结果进行评价的方法以外,大多数研究均采用自动评价的方法,即在试验材料中,不仅用于学习的“训练集”已经按照预定的类目结构或分类体系将文本分门别类设置完毕,而且用于评价的“测试集”文本进行自动分类的试验之前也已经过人工判断知道其类目属性,系统在自动分类之后,可以自动判断其分类结果与已知的类目属性是否一致,从而可以避免每一次试验之后反复组织专家论证。
2.6.3 评价结果
在目前有实验结果的研究中,大部分分类试验的综合指标F1大约在70%~80%之间[124-134];也有个别分类试验的综合指标F1达到甚至超过90%的程度[135];但即便如此,也不如2.4节所述通用且公开的专门语料库环境下的一般分类结果理想。更有个别分类试验的综合指标F1在大约在40%~60%之间[136]。还有部分研究提出了分类方案,但没有给出实验结果数据[137-142]。
3 《中图法》分类体系下文本自动分类研究展望
正如起始于20世纪50年代的信息检索自动化的发展过程所展示的那样,机编索引不仅开拓了计算机应用的重要领域,奠定了计算机信息检索的基础,而且促进了布尔检索模型、向量空间检索模型等新技术的产生和发展,而这些技术目前正在图书馆集成系统、Web搜索引擎等信息检索系统中发挥着巨大的作用。
笔者相信,将人工智能领域中的文本自动分类技术与信息管理领域的信息资源分类结合起来,不仅可以开拓文本自动分类的实际应用领域,对文本自动分类研究本身提出新的课题,也会极大地促进信息管理领域的信息资源分类自动化的发展。
通过对文本自动分类的实验材料以及作为信息管理领域分类对象的信息资源的分析和归纳,笔者认为,在《中图法》分类体系下开展自动分类研究需要重点关注以下几个方面:
(1)建立通用且公开的试验材料,供相关研究机构或个人共同使用,由此提供一个可以展开正确评价并比较分类结果的平台。文本自动分类在人工智能领域的飞速发展得益于广大研究人员可以通过Reuters-21578分类语料集等公共平台开展研究并取得技术上的进步。我国大多数图书馆对信息资源均使用《中图法》进行分类,尽管分类工作是各个图书馆独自进行的,但绝大多数文献的分类在图书馆之间是相同或者相似的。因此,在信息管理领域中,从一个或者多个图书馆现有分类完毕的信息资源中组织一批得到大家公认的试验材料是完全必要的,也是完全可能的。
(2)试验材料既要提供可供单层类目结构试验的文本集,也要包括可供多层类目结构试验的文本集。前者是为了证明所使用的自动分类方法或系统能够与人工智能领域的相关研究或试验处于同一个水平,为后者的试验提供基本的技术保障。在此基础之上开展对后者的试验,满足图书馆实践中对图书的自动分类需要。
(3)试验材料尽可能涉及较多的大类,各类目下尽可能包含更多的细分类目。由于《中图法》的分类对象涉及所有学科,而不同学科具有不同的用词和表述方式上的特征,为各个学科或类别分别准备充分的试验材料是实现自动分类的前提。细分类目是图书馆实际分类工作的需要,也是自动分类的难点。提供能够显示难点的文本及类目,才能够有效帮助方法上的改进和提高。
(4)试验材料尽可能混合图书、期刊论文、网页等不同类型的信息资源作为文本。这一方面是图书馆和数字图书馆为满足读者的需求而对自动分类产生的实际要求,另一方面也是人工智能领域的相关研究中未予重视的部分。不同类型的信息资源在内容上存在巨大差异、具有不同的特征,必然会给自动分类带来不同影响和新的问题。
(5)组织和推进信息管理领域的专家开展文本自动分类研究,而不是坐等人工智能领域的相关研究成果。随着IT技术在信息管理领域的广泛而深入的应用,信息管理领域的各项研究也与时俱进,加大与计算机科学等学科的交叉研究和应用。但无论这些相关学科发展如何快速,当以《中图法》作为分类体系,以图书、期刊论文等学术性为主的文献作为自动分类对象时,还是要以信息管理领域的自主研究为主体,借鉴相关学科的技术和方法,通过自力更生在本领域取得具有实践意义的研究成果。