数字图书馆多种类型文献混合自动分类研究,本文主要内容关键词为:文献论文,数字图书馆论文,多种论文,类型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
DOI:10.13663/j.cnki.lj.2014.11.009 0 引言 数字图书馆作为图书馆的一种新形态,既继承了图书馆的组织和传递文献信息等基本职能,又伴随着互联网在展示和获取各种文献信息方面的发展和普及,将馆藏文献的对象从图书、学术性期刊等类型文献扩展至网页、以报道和分析时事为主的非学术性期刊文章等类型的文献。因此,数字图书馆馆藏文献的组织面临一些新问题:不仅要利用MARC元数据或DC元数据组织传统的印刷和声像型资源,还要组织浩如烟海、特征独特的电子资源(如电子图书、电子期刊等)。数据库数量庞大、数据质量参差不齐、数据类型众多,如何将多种类型的信息资源整合是数字图书馆面临的严峻问题之一[1]。 自动分类需要使用预先分类完毕的语料库及其所含的文本作为训练集让分类算法学习各个类别的特点,以便对待分类的对象实施类别确定。各种类型文献的单独自动分类是将训练集和待分类对象假定为同种类型文献,而多种类型文献的混合自动分类是将训练集和待分类对象假定为不同类型文献。训练集各个类别的组织、类别内各个文本的获取和甄选针对不同类型的文献具有不同的特点。 例如,网页容易获取,但网页的类别确定大不易;图书的类别可以从馆藏目录中获取,但代表该书内容的摘要、目录等内容却来之不易;期刊本身由于已经划定类别,甚至部分文章亦有分类号,但学术性期刊的严谨性,非学术性期刊的新闻性,在内容上会使分类算法给出不同的模式供待分类时使用。因此,从训练集的组织性和文本的易获取程度及文献特征上,不同类型的文献体现出不同的特点,这对自动分类必然产生重要影响。 当前,大数据的概念及其相关技术以数据量大且数据类型多样化等特性在金融、企业营销等领域得到广泛支持和普及。图书馆界也借鉴大数据中数据类型繁多的思想,开始有研究将大数据应用于数字图书馆,其主要研究内容是针对图书馆数据库中的检索历史、浏览记录,读者个人信息、地理位置、搜索时间等进行数据挖掘处理,试图通过对用户数据的分析来提升图书馆个性化服务的水平,开展跟踪、精准个性化、知识关联服务等[2-3]。然而,不管是过去、现在还是将来,数字图书馆的主要数据是馆藏的各种类型的文献,其核心业务仍然是针对这些种类众多的文献进行组织和安排,使各种类型的文献能够在数字图书馆中统一实现分类与检索。因此,即使是在大数据环境下,数字图书馆的大数据也主要是指馆藏文献中多种类型的文献;而且只有对包含了图书、期刊、网页等多种类型的文献进行有效管理,才能够在完成文献组织和传递等基本职能的基础上,进一步与用户数据等其他非核心类业务数据相关联来达到提高图书馆服务水平的目的。 本文以图书、网页、学术性期刊和非学术性期刊四种类型文献为研究对象,探索数字图书馆环境下对馆藏文献进行分类组织,多种类型文献单独及混合自动分类的可行性及特点,重点研究不同类型文献特征对多种类型文献混合自动分类效果的影响,以实现数字图书馆多种类型文献的有效组织和整合。 1 研究现状及意义 国内外针对数字图书馆各种类型文献的自动分类已经有相当的研究成果,但以针对各种类型文献单独自动分类的研究居多。文献[4-7]分别针对中国图书分类法和美国国会图书馆分类法分类体系下的部分类目的图书文献的书目信息开展自动分类研究。文献[8-11]针对中国图书分类法分类体系下的部分类目的期刊文献实现自动分类。文献[12-15]对网页文献实现自动分类。也有少量针对各种类型文献开展混合自动分类的研究。文献[16]采用期刊文献作为训练文本,选取期刊、网页和图书三种类型文献作为测试文本进行分类效果比较;文献[17]将实时抓取的网页文献和来自某大学的真实MARC记录的图书文献进行混合分类,目的是比较不同分类算法的自动分类效果;文献[18]则是进一步细化文献类型,对选自数字图书馆CiteSeer的研究论文、学术论文和报告等多种类型文献实现自动分类,并评估该系统自动分类效果。 上述研究主要采用图书[4-7]、期刊[8-11]或者网页[12-15]中的一种或两种[17-18]类型文献进行分类实验。文献[16]也将期刊、网页和图书中两种以上的类型文献作为分类对象;然而这些研究的主要目的是评价、比较分类算法的优劣或改进程度,而未从文献类型的角度系统地研究不同类型文献的特点给数字图书馆多种类型文献自动分类带来的影响,没有注意区分学术性期刊文献和非学术性期刊文献的不同和某些类型文献之间可能具有的亲和性对统一组织数字图书馆多种类型文献的作用。本文正是在这样一个背景下选题并开展研究,因此具有较高的应用和实用价值。 2 自动分类方法的选择和实验设置 2.1 自动分类方法及评价方法 由于本文需要对分类过程的各环节透明化以减少中间过程的不可控因素,因此统一选取信息增益方法进行特征选择。不同的分类算法会对分类结果产生较为明显的影响,本实验选择经典的KNN分类算法构造分类器。此外,从理论上讲,Nave Bayes分类算法应该能够达到最好的分类效果[19],但其特征项独立假设并不严格成立,所以经常被用作其他方法的比较标准[20]。本文也采用该分类算法对多种文献混合自动分类实验结论进行验证。 分类效果的评价采用文本自动分类研究中通用的宏平均值F1,它是对分准率和分全率的综合评价、代表分类系统的整体分类正确率[21]。 2.2 实验材料构成 本文使用的实验材料主要包括由网页、图书和期刊等三种类型的文献所构成的文本。其中,期刊文献进一步细分为学术性期刊文献和非学术性期刊文献。网页文献选取搜狗语料库中体育、IT和军事三个类别的文本构成实验材料。图书文献取自某大学图书馆的馆藏目录OPAC,选取中国图书分类法分类体系下体育、计算机技术和军事三大类中部分图书的书目信息,提取其中的书名和摘要等内容构成实验材料的文本。期刊文献选自《中国知网》电子期刊数据库在中国图书分类法分类体系下的体育、计算机技术和军事三大类的部分期刊,提取其篇名和摘要等内容构成实验材料的文本。其中学术性期刊文献实验材料取自体育、计算机技术、军事三大类的典型学术性期刊,如《计算机学报》、《体育科学》、《军事历史研究》等;非学术性期刊文献实验材料则取自这三大类中的典型非学术性期刊,如《IT时代周刊》、《当代体育》以及《现代军事》等,以方便与图书和网页两种类型文献分别进行单独及混合自动分类效果的比较。取自搜狗语料库的网页文献虽然也是来自互联网上的真实网页,但是经过专家遴选,而上述方式构建的图书和期刊两种类型文献的实验材料完全取自数字图书馆中的真实数据,更接近数字图书馆现有馆藏资源的实际情况,即多种类型文献自动分类所要处理的具体对象和应用的实践领域。 本文对以上四种类型文献各建立多套实验材料重复开展实验。每套实验材料包括一种类型文献的训练集和测试集,均由体育、计算机技术和军事三个大类构成,每一个类型文献的训练集分别由50、100、150和200篇文本构成,每个测试集由100篇文本构成,保证训练集与测试集之间无重复文本。 图1 四种类型文献单独自动分类效果 3 实验结果及分析 3.1 多种类型文献单独自动分类实验结果 首先针对四种类型文献的实验材料单独进行自动分类实验,即实验中训练集和测试集均为同种类型文献的实验材料,对四种类型文献的实验材料采用KNN分类算法分别开展分类实验。每一种实验材料使用包含4种不同文本数的训练集和包含100篇文本的测试集,分类效果如图1所示。 图中纵坐标表示宏平均F1测度值,横坐标表示训练集文本数。图1说明在训练集四种不同文本数的情况下,网页文献的分类效果远高于其余三种类型文献的分类效果,学术性期刊文献的分类效果与其非常接近,然后是非学术性期刊文献,图书文献的自动分类效果最低。但如果增加训练集各个类别的文本数,分类正确率会随之逐渐提高。例如,在三个类、每个类别包含200个文本时,分类效果相对较低的图书文献的分类正确率可以提高到72.9%,相较于50个文本时的分类正确率67.9%,提高程度达到5%;同样,学术性期刊和网页两种类型文献的提高程度分别达到3.9%和2.4%,而非学术性期刊文献的提高程度高达7.8%。本实验结果说明,无论是哪一种类型文献,随着训练集文本数增加,其分类效果都会有所改善,且对训练集文本数的增加有较好的敏感性。 3.2 多种类型文献混合自动分类实验结果 针对多种类型文献进行混合自动分类实验,即对于每一种类型文献的实验材料,均作为训练集分别与自身类型文献的测试集以及其他类型文献的测试集进行分类实验,以检验不同类型文献之间在自动分类方面的亲和性。以包含100篇文本的训练集为例说明,分类结果见图2。 图2 四种类型文献使用KNN算法的混合自动分类效果 多种类型文献混合自动分类实验结果表明,当以网页文献作为训练集进行混合自动分类时,非学术性期刊文献作为测试集的分类正确率达到88.2%,甚至高于以非学术性期刊文献自身作为训练集时的分类正确率78.1%;相反,图书文献和学术性期刊文献作为测试集的分类正确率分别从原来单独自动分类时的70.8%和91.5%下降到48.8%和49.6%。当以非学术性期刊文献作为训练集进行混合自动分类时,网页文献作为测试集的分类正确率也能够达到86.1%的较高水平;相反,图书文献和学术性期刊文献作为测试集的分类正确率分别从原来单独自动分类时的70.8%和91.5%下降到33.5%和23.1%。实验证明网页和非学术性期刊这两种类型文献互相做训练集和测试集时,分类效果达到80%以上,即网页文献和非学术型期刊文献之间的亲和性较好。 以图书文献作为训练集进行混合自动分类时,网页文献和非学术性期刊文献作为测试集时的分类正确率均较低,分别从原来单独自动分类时的95.7%和78.1%下降到50.9%和39.7%,而学术性期刊文献作为测试集的分类正确率仍然能够达到75.2%。以学术性期刊文献作为训练集进行混合自动分类时,网页文献和非学术性期刊文献作为测试集时的分类正确率也很低,分别从原来单独自动分类时的95.7%和78.1%降到53.4%和42.9%,但图书文献作为测试集的分类正确率仍然能够达到71.9%,甚至略高于以图书文献自身作为训练集时的分类正确率70.8%。实验说明图书文献和学术性期刊文献互相做训练集和测试集时,分类效果较好,即图书文献和学术性期刊文献之间的亲和性较好。 3.3 不同分类算法混合自动分类实验结果 为进一步验证以上结论,本文继续选取Nave Bayes算法进行混合自动分类实验,比较不同类型文献在不同算法下的混合自动分类效果。 表1说明使用Nave Bayes算法的实验结论与使用KNN算法的实验结论完全一致。具体来说,当使用Nave Bayes算法时,以网页文献作为训练集进行混合自动分类,非学术性期刊文献作为测试集的分类正确率达到92.2%;当以非学术性期刊文献作为训练集进行混合自动分类时,网页文献作为测试集的分类正确率达到91.9%的较高水平。网页文献和非学术性期刊文献互相做训练集和测试集的分类正确率均在90%以上,由此验证前一实验的结论,即网页文献和非学术型期刊文献之间的亲和性较好。同样,以图书文献作为训练集使用Nave Bayes算法进行混合自动分类时,学术性期刊文献作为测试集的分类正确率达到91.2%的较高水平,以学术性期刊文献作为训练集进行混合自动分类时,图书文献作为测试集的分类正确率能够达到84.4%。这也说明图书文献和学术性期刊文献互相做训练集和测试集时,分类准确率均在80%以上,它们之间的亲和性较好。且表1的结果比较显示,在所有类型文献的实验材料上,使用Nave Bayes算法的分类准确率总体上好于使用KNN算法的分类准确率。 图书馆的多种类型文献进行自动分类时,存在可以利用某些类型文献间的亲和性,相互作为训练集和测试集进行混合自动分类的可能性。本文中实验抽取的四种类型文献均为数字图书馆典型馆藏资源,在不同的算法下得出的同一结果可以证实对四种类型文献进行混合自动分类时,网页文献和非学术性期刊文献之间的亲和性较好,特别是将网页文献作为训练集时,可以同时使待分类的网页文献和非学术性期刊文献整体具有较高的分类正确率;而图书文献和学术性期刊文献之间的亲和性较好,特别是将学术性期刊文献作为训练集时,可以同时使待分类的图书文献和学术性期刊文献整体具有较高的分类正确率。相反,网页文献和非学术性期刊文献与图书文献和学术性期刊文献之间不宜进行混合分类。 此外,本文选取的非学术性期刊、学术性期刊和图书这三种类型文献的实验材料均来自自建语料库,与现实中数字图书馆多种类型文献自动分类需要处理的具体对象和应用的实践领域十分接近,因此本实验的结论既适用于经过专家甄选的专门语料库,更重要的是也适用于来自由真实数据构成的自建语料库,具有很强的实践意义。 3.4 实验结果原因分析 当现有文本自动分类技术应用到对真实数据进行分类时,各类型文献的分类效果会低于在专门语料库证实的结果[22]。但多种类型文献单独自动分类实验说明所有类型文献,即使是来自由真实数据构成的自建语料库的多种类型文献实验材料,随着训练集文本数增加,其分类效果会有所改善,且对训练集文本数的增加有较好的敏感性。这意味着在大数据环境下,随着数字图书馆需要组织和处理的多种类型的文献数量的增加,采取现有的文本自动分类技术对海量的类型众多的文献进行处理是完全可行的,且文献数量越多,其自动分类效果越好。 其次,本研究使用的网页文献取自搜狗语料库,该语料库的文本来源于Sohu新闻网站的网络资源。一般来说,网页文献的特点是数量庞大,内容异常丰富,更新速度快;期刊文献的特点是论文发表的及时性,论文内容的新颖性、获取方式的灵活性等[1]。而对期刊文献进一步细化出的非学术性期刊文献则还具有学术程度低、表达形式新颖等特点,在发表时间、内容和表达形式上都十分贴近网页文献。由此可以说明图2和表1的结果,即使在不同算法下,非学术性期刊文献与网页文献在多种类型文献混合自动分类上均有较好的亲和性。 与此相反,图书文献编撰和出版的周期较长,内容相对滞后,传递情报的速度较慢;其论述的内容相比网络文献和非学术性期刊文献,一般还具有比较科学、系统、全面、成熟、可靠等特点。内容专业程度和表达形式的差异是图书文献与网页和非学术性期刊这两种类型文献之间的混合自动分类效果较差的主要原因。本研究还选取分别来自核心或关键期刊的文献构成学术性期刊文献的实验材料,实验材料同样来自专业学术领域,内容学术性较强,用词比较严谨,出版周期相对较长,与图书文献较为接近。一方面可以代表学术性期刊文献进行单独自动分类实验;另一方面,通过检查其与网页、非学术性期刊这两种类型文献的混合自动分类实验结果,进一步验证了上述图书文献与网页和非学术性期刊这两种类型文献之间混合自动分类效果较差的主要原因,也说明在不同算法下,图书文献与学术性期刊文献亲和性较好,可以互相作为训练集和测试集对数字图书馆的多种类型文献进行混合自动分类。 4 总结及展望 本文从多种类型文献混合自动分类的角度研究了数字图书馆自动文本分类的问题。重点研究不同类型文献的特点给数字图书馆多种类型文献自动分类带来的影响。实验证明,数字图书馆馆藏的多种典型类型文献之间的亲和性可以将多种类型文献的组织与检索工作统一到一个整合的资源组织系统,除了能实现数字图书馆环境下准确、高效的文献自动分类,履行组织和传递文献等的基本职能,在未来还能与用户数据等其他非核心类业务数据相关联,以达到进一步提高和完善图书馆服务水平和层次的迫切要求。 今后,在扩大类别数的基础上,本研究拟对数字图书馆多种类型文献的混合自动分类提高分类效果的途径和方法等方面开展更深入的探讨。数字图书馆中各类文献的混合自动分类研究_数字图书馆论文
数字图书馆中各类文献的混合自动分类研究_数字图书馆论文
下载Doc文档