引文内容分析的理论与方法_文献分析法论文

引用内容分析的理论与方法，本文主要内容关键词为：理论论文,方法论文,内容论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

引文分析包括了基于著录的引文分析和引用内容分析两方面，与引文著录信息分析相比，引用内容分析研究相对较少。近年来，随着电子数据库逐渐完善，全文数据库不断发展，为引用内容研究提供了良好的数据基础，基于引用内容的引文分析研究也成为引文分析发展的新阶段[1]。围绕引用内容展开的研究主要包括了引用位置分析[2-3]、引用动机研究[4]、引用主题分析[5-6]以及引用内容在信息检索[7-9]、引文评价[10-14]等领域的应用研究。虽然人们已经从不同角度对引用内容的相关理论与方法进行了探讨，但仍缺少关于引用内容分析的系统性的理论研究，因此，本文从引用内容的概念、引用内容分析的范畴、步骤及功能角度，系统性地构建引用内容分析的理论。

1 引用内容的概念

对引用内容最具影响力的定义是由Small[15]在1982年提出的，他将引用内容表述为“Citation Context”，将其定义为“The Text Surrounding the References”，即参考文献周围的文本内容。例如，句子“This comparison is made using BLASTX[18]…”就可以视为“参考文献[18]”的“Citation Context”。Small在提出此概念时，全文数据库并未出现，引用内容相关研究也较少，人们多以单本期刊为数据样本来研究引用内容，具体研究中也未对引用内容所包含的文本内容范围进行限定。随着全文数据库的发展，人们从不同角度研究引用内容时，在Small的引用内容定义基础上，限定了引用内容的文本范围，将引用内容限定为一个句子或多个句子。但他们对引用内容定义过程中，并没有对引用内容的文本内容进行详细阐述，并不是所有参考文献周围的文本内容都可以视为引用内容，只有那些可以表征施引文献引用参考文献的文本内容才可以作为引用内容，并且这些文本内容所包含的信息应充分体现出引用内容的价值和作用。

本文认为引用内容就是指能够表征施引文献引用参考文献的文本内容，这些文本内容通常用一个或几个句子来表达。一般情况下，文本内容包含的信息既有量的信息，也有质的信息。量的信息包含引用的多与少，这类信息反映在文本中就是指引用内容中包含的句子数量、引用句子中主题词的多少以及参考文献在施引文献中被引用的次数等，量的信息可以表征参考文献对施引文献的影响力。质的信息包括以下3类：一是引用内容发生的位置，有研究表明，引用发生在施引文献中的不同位置时，所体现的作用并不相同[6]；二是引用动机，引用内容中的文本语义可以反映出施引作者在引用参考文献时的引用目的；三是引用主题，此主题揭示的是施引文献与参考文献的直接联系。

一条引用内容包含以下5个要素：①文本内容T：表征施引文献引用某条参考文献时的上下文内容。②参考文献R：引用内容所对应的参考文献，可以采用参考文献编号来识别。③施引文献D：此条引用内容所在的文档，可以采用文档编号来识别。④引用句子编号P：包含引用标签的句子在施引文献中的句子编号，用于表示引用内容所发生的位置。⑤句子长度L：引用内容包含的句子数量。

在Small的定义中，并未对引用内容的文本范围进行限定，本文采用的是句子数量来界定。根据不同研究目的，可以将引用内容限定为一个句子，也可以是多个句子。

2 引用内容分析的研究范畴与步骤

2.1 引用内容分析的范畴

本文采用管理学领域常用的5W1H方法系统地讨论引用内容分析的研究范畴，5W1H方法也叫六何分析法，该方法从以下6个方面对选定的项目、工序或操作提出问题并进行思考：Why(目的)、What(对象)、Where(地点)、Who(人员)、When(时间)、How(方法)。针对引用内容的特征，从以上6方面提出引用内容研究所涉及的范畴及围绕引用内容可展开的相关研究。

1)研究的是谁引用的引用内容(Who)？即引用内容的主体研究。对主体的研究是科学计量学研究的基本问题。引用内容的主体来自施引文献，包括施引作者、施引机构、施引国家、施引文献、施引期刊。不同主体中的引用内容，可以体现出不同的引用价值，如不同作者对同一篇文献的理解并不相同，他们在引用同一篇文献时，采用的引用内容也会有差别，因此在对引用内容分析时，需要识别出引用内容的主体，并对这些主体进行分析。对于引用内容主体的研究可以从以下两个方面展开：①研究引用内容在不同主体中的特征，如高影响力作者与低影响力作者在引用同一篇参考文献时，引用内容所表现的特征差异；引用内容在不同影响因子的施引期刊中，所表现出的不同特征等。②主体耦合研究。在文献耦合研究中，如果两篇文献同时引用一篇或多篇参考文献，它们就具有耦合关系，而并未考虑它们在引用同一篇文献时，引用内容的差别。引用内容的差别可能会对文献耦合关系产生一定影响，具体影响有待人们进一步研究。

2)研究的是什么时候引用的引用内容(When)？即引用时间研究。通过引用内容时间的研究，可以揭示出引用内容的变化规律，通常一篇论文在发表初期被引用时，施引文献引用的是这篇文章的核心理论或方法，而随着理论或方法的成熟，人们可能从其他角度来引用这篇论文，同时随着时间的推移，这篇论文被引用的位置可能也会有所变化。因此，对引用时间的研究主要揭示的是引用内容和引用位置随时间演化的特点。

3)研究的是引用了什么内容(What)？即引用内容的主题研究。引文的引用主题多样化体现出该引文多方面的引用价值。通常一篇论文在被别人引用时，人们并不是从同一角度对其引用，而是根据不同需求进行引用。因此，一篇论文的引用内容也会体现出多个主题方面。通过引用内容主题的分析，可以揭示出引用过程中多种方向的知识继承与扩散。每篇论文在写作过程中都会在论文摘要中描述出这篇论文所研究的主题内容，而在分析这篇论文的引用内容主题时，如果这些引用内容主题与被引文献摘要中的主题相似，那么该引用过程所体现的更多是知识的继承过程，而如果二者主题相差较远，那么该引用过程更体现为知识的扩散过程。

对于引用内容主题的研究主要包括两方面，一方面是研究如何揭示引用内容的主题，可以采用主题词词频统计、主题词可视化以及主题分类等方式来实现；另一方面是比较引用内容主题与施引文献主题、引文自身主题的差别，进而揭示引用主题及其演化的特征。主题比较过程中首先需要识别出引用内容的主题，其次计算引用内容的主题与施引文献主题、引文自身主题之间的关联性，主要通过各个主题中的主题词相似性比较来实现，最后，根据比较结果，揭示出引用主题以及知识演化的特征。

4)研究是在什么位置引用了引用内容(Where)？即引用位置研究。引用位置指的是引文在施引文献中标注的位置，通常可以采用句子、段落或章节来描述引文的引用位置。例如，一篇引文C在施引文献A中的引用位置是第3章、第10个段落、第95句话。通过对不同位置上的引用内容的文本内容分析，可以揭示出引用内容在不同位置上的分布特点及规律。传统的基于著录信息的引文分析研究中，通常忽略引用位置的信息，因而缺少对引用发生位置的特点及其与传统引文分析的联系的研究。引用位置的研究主要包含以下3个方面：

首先分析的是在科技文献中引文在文章不同位置中的分布情况，根据引文的引用内容信息，揭示出不同位置上的引用内容所具有的特点和功能。引用内容在科技论文中不同位置出现时，它们的作用有所不同，如论文前言部分中的引用内容多是介绍他人工作，而方法部分的引用内容会描述施引文献所采用的方法，相对而言，方法部分的引用内容对施引文献更为重要。由此可见，引用内容与科技论文结构具有一定关系。Sombatsompop等的研究中将引用位置划分为4类[16]，分别是引言、实验、结果讨论、结论，这4部分是一篇科技论文所包含的基本内容，但科技论文的结构中可能还包含一些其他章节，如背景章节、数据章节等，因此，在具体研究中，还需要根据科技论文的结构，对引用位置进行详细划分，从引用内容的位置和内容分布特征，揭示出不同位置上的引用内容所表现出的特点和功能。

其次，分析共被引位置分布规律。引用位置所对应的是引用内容所在的绝对位置，通常采用章节号、章节类型、段落号、句子号来表示，而共被引位置指的是两篇引文的引用内容的相对位置，采用相对距离来表示。本文根据科技文献的结构特点，将共被引相对距离分为4类，分别是句子层次共被引、段落层次共被引、章节层次共被引和文章层次共被引，通过对这4类共被引在不同期刊和不同章节中的分布研究，揭示出共被引分布规律。

最后，研究共被引位置与共被引分析的关系。传统的共被引分析研究没有考虑共被引文献在施引文献中位置，只要它们被同一篇文献引用，它们就被同等对待，没有考虑它们在施引文献中的出现位置的远近。参考文献中有些文献可能在同一句话中被同时引用，然而还有一些参考文献可能在文章中比较远的位置被同时引用。直观看来，发生在同一句子中的两篇共被引文献间的关系应该比在不同段落中共被引的文献关系更紧密，而不同段落中的共被引文献间的关系，可能会比不同章节中的共被引关系更紧密些。而且在Elkiss的研究中也发现，相同句子中的共被引关系要比相同章节中的共被引关系更紧密[6]。但这种共被引位置的分布会对引用或共被引行为产生如何的影响？这种位置分布给共被引分析提供哪些信息？这些都将是引用位置研究的主要任务。

5)研究的是为什么引用(Why)？即引用动机。引用动机是引文分析的一项重要任务，研究人员无论引用哪条参考文献，都是有一定原因的。人们研究发现，引用动机包含较多种类，包括了对开拓者的尊重、对著作的肯定、提供背景材料、应用实验方法等。在早期引文分析研究中，引用动机主要采用调查访谈的方式来总结归纳，而随着计算机技术的发展及引用内容的批量获取得以实现，引用动机可以从引用内容的文本内容中挖掘出来，借助自然语言处理及文本挖掘技术来实现。

6)研究的是如何引用的引用内容(How)？即引用内容的倾向性和引用强度研究。一篇论文中的多条参考文献价值并非均等，作者在施引参考文献时，由于动机不同，对每条参考文献的描述也不同，有时会赞扬参考文献内容，而有时也会批评参考文献中的不足。有些参考文献在施引文献中可能被引多次，说明这些参考文献与施引文献内容较为相近，施引文献在引用过程中，对这些参考文献的引用强度较大。传统的引文分析，主要分析的是被引频次，在对引文进行评价时，也是通过引用频次来衡量，并未考虑这些引文是如何被引用的。因此，本文将从引用内容的文本内容和位置信息中挖掘出引用内容的倾向性和引用强度，进而将其应用在引文评价研究中，完善引文评价方法。

以上6方面研究内容之间存在紧密的联系，在具体研究中通常也将几方面内容放在一起研究。如研究引用内容的主体时，通常也会研究不同主体的引用动机差别、引用内容主题差别等。

2.2 引用内容分析的步骤

传统的内容分析法把媒介上的文字、非量化的有交流价值的信息转化为定量的数据，通过建立有意义的类目系统分解交流内容，并以此来分析信息的某些特征，测验文献中本质性的事实和趋势，揭示文献所含有的隐性情报内容，对事物发展作情报预测[17-18]。

本文认为引用内容分析指的是对科学引证过程中，具有明确引用标识的知识传播内容(即引用内容)进行的客观、系统、定量的分析。

引用内容分析属于内容分析研究范畴，但其分析的文本内容是引用内容，既具有一般的文本属性，又具有引用行为及过程所生成的独特性质。因此，在对引用内容分析时，在传统的内容分析法基础上，还需要结合科学计量学的分析方法。

引用行为的发生和进行，事实上也伴随着知识的继承与传播，而引用内容正是记录了这一过程的文本载体。传统的文献计量分析虽然可以从引用频次统计上推断引用行为特点，但无法深入引用内容层面，无法从内容角度揭示知识传播的特点。而内容分析法是一种以研究传播内容为主的定量与定性相结合的分析方法，可以应用于研究任何文献或信息记录的交流传播事件，因此，采用内容分析法对引用内容分析具有一定的适用性。

通常内容分析法的应用，主要分为6个步骤，即：①确定研究问题或假设；②抽取样本；③确定分析单元；④对材料进行编码或分类；⑤计算和保存记录；⑥分析汇总。

根据以上内容分析的6个步骤，提出引用内容分析包含的主要步骤，如图1所示。

1)确定研究目的，提出研究问题。引用内容研究主要有3个目的，首先是揭示施引者的引用行为规律，包括了引用动机、引文位置分布、共被引位置分布等。其次是揭示引用过程中知识传播与继承规律，包括引用内容的主题基本特征、主题演化特征等。最后是探索引用内容分析的应用价值。传统引文分析的应用价值可以体现在遴选核心期刊、科研人才评价、揭示学科发展特征、信息检索等领域，引用内容分析将在传统引文分析应用基础上，体现出其独特的应用价值。针对以上几个研究目的，具体研究过程中需要解决以下几个问题：第一，如何识别引用行为规律？引用行为规律对传统引文分析有什么影响？第二，引用过程中所采用的引用内容有什么特点？它与施引文献和引文本身有什么关系？第三，引用内容分析在哪些研究领域可以应用？如何应用？

图1 引用内容分析的步骤

2)选择数据样本。依据引用内容分析的目的，选择合适的数据样本。首先，数据样本中要有足够的信息量，既要有引用内容相关信息，又要有施引文献相关信息，以便对施引者的引用行为展开分析。其次，数据样本要具有连续性，在研究引用内容的主题和位置随时间变化特征时，需要在时间连续的样本上展开分析。最后，数据样本需要有一定的完整性，在对一篇引文的引用主题分析时，需要分析这篇引文的所有引用内容，但目前没有一个完整的数据库可以提供一篇引文的所有引用内容。在这种情况下，必须进行合适的数据样本选择，选择信息含量大、具有连续性、内容体例基本一致的数据进行研究。

3)选择分析单元。即寻找分析所需的各项考察因素，这些因素都应与分析的目的有一种必然的联系，单词或单个符号、主题、人物以及意义独立的词组、句子或段落及至整篇文献都可以作为分析单元。在引用内容分析过程中，所涉及的分析单元包括引用内容所在的句子编号、段落编号、章节编号和章节类型、引用内容所涉及的句子、单词、名词短语。

4)建立分析类目。内容分析的核心问题在于建立分析内容的类目系统，该系统的构成随着研究主题的不同而变化，在有效的类目系统中，所有的类目都应具有互斥性、完备性和可信度。互斥性是指一个分析单位可以且只可以放在一个类目中；完备性是指所有分析单元都应有所归属，类目中必须有适合每一个分析单元的位置；信度是指类目系统应具有可信度，不同的编码者对分析单位所属类目的意见应有一致性。在引用内容研究中，可以将分析类目划分为引用位置和引用内容。引文位置中所包含的分析单元包括引用内容所在的句子编号、段落编号、章节编号和章节类型；引用内容中所包含的分析单元包括句子、单词、名词短语。

5)定量处理与计算。在采用计算机处理数据的情况下，首先要对分析单元进行编码，把数字语言转换成计算机能识别的符号，在引用内容分析时，主要采用自然语言处理技术来实现，其次采用统计分析方法对这些编码进行简单统计分析，如引用内容的位置分布、引用频次分布等，最后采用文本挖掘技术、科学计量学方法对这些编码进行深入分析。

6)结果分析。根据研究目的和所要研究的问题，对结果进行分析，主要从定性角度对研究结果进行总结归纳。

3 引用内容分析的功能

基于著录信息的引文分析在图书馆情报学、文献计量学、科技管理及信息科学领域都有重要的应用，如核心期刊认定、信息检索系统建设[19-20]、科研绩效评估、科技人才选拔、科技期刊评价、科技发展趋势预见等。同时，它也存在一定的局限性，著者引证文献是一个人为控制的思维和判断过程，而作为其表现形式的引证文献，仅仅是宏观的、表面的测度。这种单纯的计量方式，随着作者引用动机、学科领域、学术环境等不同因素的影响，很难有公平、准确的评估结果[21]。因此，基于著录信息的引文分析法也暴露出很多缺点和不足，引文分析也受到很多限制因素的影响。

1)著者引用文献是受主观控制的思维和判断过程，难免受到各种客观、主观因素的影响。例如，著者引用的文献大部分是个人收藏的文献，少部分是本部门和就近图书馆的资料，而其他城市或其他国家的文献所占比例就更小，这样著者选用参考文献时范围很小，还要受到著者语言能力、文献本身年代、流通周期等多种因素影响，人们在应用引文分析时难免不够客观、准确。Seglen指出，影响因子是用于测度科学实用性的而不是测度科学质量的。作者在选择参考文献时存在很强的主观偏见，这与文献质量无关[22]。

2)引用文献的原因多种多样，两篇论文可能出于完全不同的原因或从不同的角度引用同一篇早期文献，一篇可能是引用其方法，另一篇可能是引用其结果，那么这两篇文献在内容上的联系就有可能是虚假的。引文有些是发生在前言和篇名中，有些是发生在正文中，有些发生在结论或讨论中。在这些情况下，作者对原著的引用内容和程度是不相同的，引文对原著的关系和重要性也各不相同。但在目前的引文分析中，对它们都是同等看待，不加区分的，这样也容易造成虚假关系。新刊的论文得不到大量引用，小型期刊被引率往往低于大型期刊，引而未用或用而未引的情况也时有发生。文献引用中的这些现象都会影响引文分析方法的应用和效果。

3)文献被引用并不完全等于重要。文献被引用，不一定反映其重要性。一篇错误观点的论文，可能因为批评指正的需要，被引频次(数量)会很高；相反有些用而不引，作者在论文中不自觉地吸取了别人论文的某些观念，却没有将它当做引用文献。有些学科领域，有不引用论文的传统，引文很少。被引次数上的微小差别也不能完全说明质量上的优劣，它有很大的随机性。

4)马太效应的影响[23]。有的研究者认为，在文献引用方面也存在着马太效应的影响。人们往往以“名著”“权威”作为选择引文的标准，有的确是出于需要，也有的则是为了装饰门面，抬高自己论文的身价。一种期刊因为发表名人的文章而为众人所引用，以至引起连锁反应，结果其引文率很高。这种马太效应的心理作用，掩盖和影响着文献引用的真实性。

从上述基于著录信息的引文分析研究可以看出，传统的基于著录信息的引文分析存在较多弊端，一方面受施引作者主观因素影响，存在错引、乱引等不规范引用行为，同时施引作者引用目的不同，引文对施引文献的作用也不同，存在正面引用和负面引用的影响。另一方面，引文在施引文献中被引用的位置和引用次数不同，所体现出的作用也不同。基于著录信息的引文分析无法将这些引文影响因素考虑在内，从而导致在应用引文分析时，所得到的结果不够精确。

引用内容分析可以从根本上解决上述种种弊端，如通过引用内容情感倾向性的分析，可以直接判断出施引作者的引用动机；通过引用内容的主题分析，可以直接排除错引、乱引等不规范引用，并且直接体现出引文的引用价值；通过分析引用内容发生的位置和频次，可以直接揭示出参考文献对施引文献的作用。

近年来，随着引用内容分析的兴起，其在引文分析的不同应用领域中也体现出不同的功能。

1)对科学家和出版物进行定性与定量评价。传统的基于引文的评价主要通过引文的被引频次来实现，但这种评价方法存在较多弊端。一方面引用频次无法体现出施引者的引用动机，施引者是在赞扬引文的工作还是批判引文的工作，在具体引文评价时应区别对待。另一方面基于频次的评价方法将所有的引文价值视为等同，而没有考虑他们在被引过程中的价值差异性。如在一篇文章中多次被引用的论文的引用价值要明显高于只被引用一次的论文，而引文在文章中被引用的不同位置也体现出引文的不同价值。

通过对引用内容的文本倾向性分析和引用位置分析，可以更精确地评价出一篇论文的引用价值。引用内容的文本倾向性分析可以辅助传统引文评价方法，使人们更准确地判断被引文献是“好评如潮”，还是“千夫所指”。引用强度分析可以直接改进传统的基于频次的引文评价方法，包括了用于期刊评价的影响因子、用于人才评价的H指数。

2)深入发现科学知识演化特征。科学论文的引证过程体现科学知识的演化与发展。传统的引文网络研究，是通过文献的主题分析来揭示网络中科学技术的发展特征，这种分析方法虽然可以发现科学技术的发展特征，如共被引聚类主题的演化可以揭示领域内研究热点的变化，但所得到结论较为宏观，无法精确的揭示出引用过程中科学技术知识的继承与拓展。

引用内容是施引文献与被引文献的直接关联信息，一方面可以揭示出被引文献的哪些知识被他人引用了，而另一方面可以揭示出施引文献的研究基础。在具体的应用研究中，可以利用引用内容来揭示直接引用网络和共被引网络中科学技术的发展特征。在直接引用网络中，如果将网络中的每个节点转换为引用内容的概念，就可以直观地揭示出科学知识的演化历程。在共被引网络中，通过共被引内容的分析，可以揭示出新的科学知识是以哪些知识为基础而产生出来的。

3)提高引文检索精度。引用内容可以应用在信息检索研究中，研究的主要手段是将引用内容中的索引词抽取出来，与引文本身的索引词相结合，进而提高引文的检索效率[24-25]。一篇文献之所以被引用，说明它某一方面或多方面具有引用价值，而具体它在那些方面具有引用价值，是通过这篇文献的引用内容体现出来的。这些引用内容中所包含的索引词可能与该引文本身的索引词(通常来源于标题、关键词和摘要)重复，也可能与该引文本身的索引词不相关，当索引词重复时，说明这篇文章在这些索引词方面具有较高的引用价值，因此需要对这些索引词赋予较高的权重，以便人们在查找此索引词相关文献时能够快速检索到这篇文献。当引用内容中的索引词与引文本身索引词不相关时，说明这篇文章的一些引用价值并没有被作者本身意识到，但这些引用内容中的索引词仍然与该文献密切相关，也可以作为该篇文章的索引词，以便人们在检索此索引词时，能够找到该篇文章。

4 结束语

本文从4个方面构建了引用内容分析的理论，首先界定了引用内容的概念，将引用内容定义为能够表征施引文献引用参考文献的文本内容，并从质量和数量两个角度，深入解读了引用内容的含义。其次，从管理学角度提出引用内容的研究范畴，包括了引用主体研究、引用时间研究、引用主题研究、引用位置研究、引用动机研究、引用倾向性和强度研究，并从内容分析角度提出了引用内容分析的主要步骤。最后，从应用角度提出引用内容在科技论文评价、揭示知识结构演化和信息检索3个方面的功能。

标签：文献分析法论文; 文本分类论文; 文本分析论文; 动机理论论文; 文献论文; 论文; 参考文献论文; 句子论文;

引文内容分析的理论与方法_文献分析法论文

猜你喜欢