引用内容分析的理论与方法,本文主要内容关键词为:理论论文,方法论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引文分析包括了基于著录的引文分析和引用内容分析两方面,与引文著录信息分析相比,引用内容分析研究相对较少。近年来,随着电子数据库逐渐完善,全文数据库不断发展,为引用内容研究提供了良好的数据基础,基于引用内容的引文分析研究也成为引文分析发展的新阶段[1]。围绕引用内容展开的研究主要包括了引用位置分析[2-3]、引用动机研究[4]、引用主题分析[5-6]以及引用内容在信息检索[7-9]、引文评价[10-14]等领域的应用研究。虽然人们已经从不同角度对引用内容的相关理论与方法进行了探讨,但仍缺少关于引用内容分析的系统性的理论研究,因此,本文从引用内容的概念、引用内容分析的范畴、步骤及功能角度,系统性地构建引用内容分析的理论。 1 引用内容的概念 对引用内容最具影响力的定义是由Small[15]在1982年提出的,他将引用内容表述为“Citation Context”,将其定义为“The Text Surrounding the References”,即参考文献周围的文本内容。例如,句子“This comparison is made using BLASTX[18]…”就可以视为“参考文献[18]”的“Citation Context”。Small在提出此概念时,全文数据库并未出现,引用内容相关研究也较少,人们多以单本期刊为数据样本来研究引用内容,具体研究中也未对引用内容所包含的文本内容范围进行限定。随着全文数据库的发展,人们从不同角度研究引用内容时,在Small的引用内容定义基础上,限定了引用内容的文本范围,将引用内容限定为一个句子或多个句子。但他们对引用内容定义过程中,并没有对引用内容的文本内容进行详细阐述,并不是所有参考文献周围的文本内容都可以视为引用内容,只有那些可以表征施引文献引用参考文献的文本内容才可以作为引用内容,并且这些文本内容所包含的信息应充分体现出引用内容的价值和作用。 本文认为引用内容就是指能够表征施引文献引用参考文献的文本内容,这些文本内容通常用一个或几个句子来表达。一般情况下,文本内容包含的信息既有量的信息,也有质的信息。量的信息包含引用的多与少,这类信息反映在文本中就是指引用内容中包含的句子数量、引用句子中主题词的多少以及参考文献在施引文献中被引用的次数等,量的信息可以表征参考文献对施引文献的影响力。质的信息包括以下3类:一是引用内容发生的位置,有研究表明,引用发生在施引文献中的不同位置时,所体现的作用并不相同[6];二是引用动机,引用内容中的文本语义可以反映出施引作者在引用参考文献时的引用目的;三是引用主题,此主题揭示的是施引文献与参考文献的直接联系。 一条引用内容包含以下5个要素:①文本内容T:表征施引文献引用某条参考文献时的上下文内容。②参考文献R:引用内容所对应的参考文献,可以采用参考文献编号来识别。③施引文献D:此条引用内容所在的文档,可以采用文档编号来识别。④引用句子编号P:包含引用标签的句子在施引文献中的句子编号,用于表示引用内容所发生的位置。⑤句子长度L:引用内容包含的句子数量。 在Small的定义中,并未对引用内容的文本范围进行限定,本文采用的是句子数量来界定。根据不同研究目的,可以将引用内容限定为一个句子,也可以是多个句子。 2 引用内容分析的研究范畴与步骤 2.1 引用内容分析的范畴 本文采用管理学领域常用的5W1H方法系统地讨论引用内容分析的研究范畴,5W1H方法也叫六何分析法,该方法从以下6个方面对选定的项目、工序或操作提出问题并进行思考:Why(目的)、What(对象)、Where(地点)、Who(人员)、When(时间)、How(方法)。针对引用内容的特征,从以上6方面提出引用内容研究所涉及的范畴及围绕引用内容可展开的相关研究。 1)研究的是谁引用的引用内容(Who)?即引用内容的主体研究。对主体的研究是科学计量学研究的基本问题。引用内容的主体来自施引文献,包括施引作者、施引机构、施引国家、施引文献、施引期刊。不同主体中的引用内容,可以体现出不同的引用价值,如不同作者对同一篇文献的理解并不相同,他们在引用同一篇文献时,采用的引用内容也会有差别,因此在对引用内容分析时,需要识别出引用内容的主体,并对这些主体进行分析。对于引用内容主体的研究可以从以下两个方面展开:①研究引用内容在不同主体中的特征,如高影响力作者与低影响力作者在引用同一篇参考文献时,引用内容所表现的特征差异;引用内容在不同影响因子的施引期刊中,所表现出的不同特征等。②主体耦合研究。在文献耦合研究中,如果两篇文献同时引用一篇或多篇参考文献,它们就具有耦合关系,而并未考虑它们在引用同一篇文献时,引用内容的差别。引用内容的差别可能会对文献耦合关系产生一定影响,具体影响有待人们进一步研究。 2)研究的是什么时候引用的引用内容(When)?即引用时间研究。通过引用内容时间的研究,可以揭示出引用内容的变化规律,通常一篇论文在发表初期被引用时,施引文献引用的是这篇文章的核心理论或方法,而随着理论或方法的成熟,人们可能从其他角度来引用这篇论文,同时随着时间的推移,这篇论文被引用的位置可能也会有所变化。因此,对引用时间的研究主要揭示的是引用内容和引用位置随时间演化的特点。 3)研究的是引用了什么内容(What)?即引用内容的主题研究。引文的引用主题多样化体现出该引文多方面的引用价值。通常一篇论文在被别人引用时,人们并不是从同一角度对其引用,而是根据不同需求进行引用。因此,一篇论文的引用内容也会体现出多个主题方面。通过引用内容主题的分析,可以揭示出引用过程中多种方向的知识继承与扩散。每篇论文在写作过程中都会在论文摘要中描述出这篇论文所研究的主题内容,而在分析这篇论文的引用内容主题时,如果这些引用内容主题与被引文献摘要中的主题相似,那么该引用过程所体现的更多是知识的继承过程,而如果二者主题相差较远,那么该引用过程更体现为知识的扩散过程。 对于引用内容主题的研究主要包括两方面,一方面是研究如何揭示引用内容的主题,可以采用主题词词频统计、主题词可视化以及主题分类等方式来实现;另一方面是比较引用内容主题与施引文献主题、引文自身主题的差别,进而揭示引用主题及其演化的特征。主题比较过程中首先需要识别出引用内容的主题,其次计算引用内容的主题与施引文献主题、引文自身主题之间的关联性,主要通过各个主题中的主题词相似性比较来实现,最后,根据比较结果,揭示出引用主题以及知识演化的特征。 4)研究是在什么位置引用了引用内容(Where)?即引用位置研究。引用位置指的是引文在施引文献中标注的位置,通常可以采用句子、段落或章节来描述引文的引用位置。例如,一篇引文C在施引文献A中的引用位置是第3章、第10个段落、第95句话。通过对不同位置上的引用内容的文本内容分析,可以揭示出引用内容在不同位置上的分布特点及规律。传统的基于著录信息的引文分析研究中,通常忽略引用位置的信息,因而缺少对引用发生位置的特点及其与传统引文分析的联系的研究。引用位置的研究主要包含以下3个方面: 首先分析的是在科技文献中引文在文章不同位置中的分布情况,根据引文的引用内容信息,揭示出不同位置上的引用内容所具有的特点和功能。引用内容在科技论文中不同位置出现时,它们的作用有所不同,如论文前言部分中的引用内容多是介绍他人工作,而方法部分的引用内容会描述施引文献所采用的方法,相对而言,方法部分的引用内容对施引文献更为重要。由此可见,引用内容与科技论文结构具有一定关系。Sombatsompop等的研究中将引用位置划分为4类[16],分别是引言、实验、结果讨论、结论,这4部分是一篇科技论文所包含的基本内容,但科技论文的结构中可能还包含一些其他章节,如背景章节、数据章节等,因此,在具体研究中,还需要根据科技论文的结构,对引用位置进行详细划分,从引用内容的位置和内容分布特征,揭示出不同位置上的引用内容所表现出的特点和功能。 其次,分析共被引位置分布规律。引用位置所对应的是引用内容所在的绝对位置,通常采用章节号、章节类型、段落号、句子号来表示,而共被引位置指的是两篇引文的引用内容的相对位置,采用相对距离来表示。本文根据科技文献的结构特点,将共被引相对距离分为4类,分别是句子层次共被引、段落层次共被引、章节层次共被引和文章层次共被引,通过对这4类共被引在不同期刊和不同章节中的分布研究,揭示出共被引分布规律。 最后,研究共被引位置与共被引分析的关系。传统的共被引分析研究没有考虑共被引文献在施引文献中位置,只要它们被同一篇文献引用,它们就被同等对待,没有考虑它们在施引文献中的出现位置的远近。参考文献中有些文献可能在同一句话中被同时引用,然而还有一些参考文献可能在文章中比较远的位置被同时引用。直观看来,发生在同一句子中的两篇共被引文献间的关系应该比在不同段落中共被引的文献关系更紧密,而不同段落中的共被引文献间的关系,可能会比不同章节中的共被引关系更紧密些。而且在Elkiss的研究中也发现,相同句子中的共被引关系要比相同章节中的共被引关系更紧密[6]。但这种共被引位置的分布会对引用或共被引行为产生如何的影响?这种位置分布给共被引分析提供哪些信息?这些都将是引用位置研究的主要任务。 5)研究的是为什么引用(Why)?即引用动机。引用动机是引文分析的一项重要任务,研究人员无论引用哪条参考文献,都是有一定原因的。人们研究发现,引用动机包含较多种类,包括了对开拓者的尊重、对著作的肯定、提供背景材料、应用实验方法等。在早期引文分析研究中,引用动机主要采用调查访谈的方式来总结归纳,而随着计算机技术的发展及引用内容的批量获取得以实现,引用动机可以从引用内容的文本内容中挖掘出来,借助自然语言处理及文本挖掘技术来实现。 6)研究的是如何引用的引用内容(How)?即引用内容的倾向性和引用强度研究。一篇论文中的多条参考文献价值并非均等,作者在施引参考文献时,由于动机不同,对每条参考文献的描述也不同,有时会赞扬参考文献内容,而有时也会批评参考文献中的不足。有些参考文献在施引文献中可能被引多次,说明这些参考文献与施引文献内容较为相近,施引文献在引用过程中,对这些参考文献的引用强度较大。传统的引文分析,主要分析的是被引频次,在对引文进行评价时,也是通过引用频次来衡量,并未考虑这些引文是如何被引用的。因此,本文将从引用内容的文本内容和位置信息中挖掘出引用内容的倾向性和引用强度,进而将其应用在引文评价研究中,完善引文评价方法。 以上6方面研究内容之间存在紧密的联系,在具体研究中通常也将几方面内容放在一起研究。如研究引用内容的主体时,通常也会研究不同主体的引用动机差别、引用内容主题差别等。 2.2 引用内容分析的步骤 传统的内容分析法把媒介上的文字、非量化的有交流价值的信息转化为定量的数据,通过建立有意义的类目系统分解交流内容,并以此来分析信息的某些特征,测验文献中本质性的事实和趋势,揭示文献所含有的隐性情报内容,对事物发展作情报预测[17-18]。 本文认为引用内容分析指的是对科学引证过程中,具有明确引用标识的知识传播内容(即引用内容)进行的客观、系统、定量的分析。 引用内容分析属于内容分析研究范畴,但其分析的文本内容是引用内容,既具有一般的文本属性,又具有引用行为及过程所生成的独特性质。因此,在对引用内容分析时,在传统的内容分析法基础上,还需要结合科学计量学的分析方法。 引用行为的发生和进行,事实上也伴随着知识的继承与传播,而引用内容正是记录了这一过程的文本载体。传统的文献计量分析虽然可以从引用频次统计上推断引用行为特点,但无法深入引用内容层面,无法从内容角度揭示知识传播的特点。而内容分析法是一种以研究传播内容为主的定量与定性相结合的分析方法,可以应用于研究任何文献或信息记录的交流传播事件,因此,采用内容分析法对引用内容分析具有一定的适用性。 通常内容分析法的应用,主要分为6个步骤,即:①确定研究问题或假设;②抽取样本;③确定分析单元;④对材料进行编码或分类;⑤计算和保存记录;⑥分析汇总。 根据以上内容分析的6个步骤,提出引用内容分析包含的主要步骤,如图1所示。 1)确定研究目的,提出研究问题。引用内容研究主要有3个目的,首先是揭示施引者的引用行为规律,包括了引用动机、引文位置分布、共被引位置分布等。其次是揭示引用过程中知识传播与继承规律,包括引用内容的主题基本特征、主题演化特征等。最后是探索引用内容分析的应用价值。传统引文分析的应用价值可以体现在遴选核心期刊、科研人才评价、揭示学科发展特征、信息检索等领域,引用内容分析将在传统引文分析应用基础上,体现出其独特的应用价值。针对以上几个研究目的,具体研究过程中需要解决以下几个问题:第一,如何识别引用行为规律?引用行为规律对传统引文分析有什么影响?第二,引用过程中所采用的引用内容有什么特点?它与施引文献和引文本身有什么关系?第三,引用内容分析在哪些研究领域可以应用?如何应用?引文内容分析的理论与方法_文献分析法论文
引文内容分析的理论与方法_文献分析法论文
下载Doc文档