基于作者同被引分析的我国图书情报学知识结构及其演变研究,本文主要内容关键词为:情报学论文,知识结构论文,我国论文,作者论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 国内外研究述评
作者同被引分析自从1981年由H.D.White和B.C.Griffith提出后便引起了学术界的广泛关注,当前其应用不仅局限在信息科学领域,而且已经渗透到其他学科领域。对于作者同被引关系的研究国外主要集中在三个方面:一是关于同被引矩阵如何转化的探讨和争论。这场讨论始于2003年P.Ahlgren、B.Jarneving等人[1]对同被引矩阵转化方法——“皮尔逊相关系数”的质疑,他们认为皮尔逊相关系数不适合作为同被引矩阵转化的方法,因为它对0模块敏感,且不符合相似性测度的两个基本条件,并建议使用Cosine等方法取代皮尔逊相关系数。他们的质疑吸引了众多科学计量学家的争论[2-4]。二是共现关系的可视化研究。当前,这方面的研究是科学计量学研究的热点领域之一。传统方法利用多维尺度分析(MDS)进行可视化[5],后来许多作者又利用Pajek、Ucinet既有工具进行图情学领域的可视化研究①。C.Chen等[6]和White等[7]利用Pathfinder算法、自组织映射(Self-organization)对作者同被引进行了可视化。还有一些作者提出了自己的可视化方法[8-10]。C.Chen[11]还研发了应用广泛的CiteSpace开放软件,极大地促进了该方面的研究。NWB科研小组[12]研发了功能强大的Network Workbench tool,可以实现基于多种算法的可视化需求。最近,Leydesdorff等[13]利用Google Earth、Googel Map等工具对科学的地理分布进行了可视化研究。三是探索了纯网络环境下作者同被引的适用性。Leydesdorff和L.Vaughan[2]研究了Goolge Scholar环境下的作者同被引关系,他们发现作者同被引在纯网络环境也有较好的适应性。R.M.Ma和C.Q.Ni等[14]也研究了中文Google Scholar下的中文作者同被引,发现得到的结果和实际情况基本相符,再次证明了作者同被引在纯网络环境下的适用性。
作者同被引分析在我国也是研究热点,该领域有较多文章。主要集中在两个方面:一是利用作者同被引进行学科知识结构研究,比如刘林青[15]研究了战略管理研究领域的科学共同体;马费成和宋恩梅[16]研究了我国情报学的学科知识结构;刘则渊和他的博士生[17]在多个学科领域进行了科学知识图谱的研究。二是基于同被引的可视化系统开发,比如最近朱学芳、周挽澜等人[18]设计的中文作者同被引系统,该系统利用最小生成树等算法较清晰地勾勒出作者之间的同被引关系。
本文首先尝试提出一种新的领域知识图谱构建方法,在此基础上利用中文社会科学引文索引(CSSCI)分时段进行我国图情学知识结构研究。本研究将选用大样本作者(大于100)为研究对象,力求对我国图情学的知识结构及其演化有一个全面而深刻的阐释。
2 研究方法、数据来源与样本选择
2.1 一种新的领域知识图谱构建方法的尝试
首先,就作者同被引分析得到的知识图谱而言,我们认为作者同被引分析结果的可视化需要达到以下几个标准:①结果呈现的简洁性。在一些作者同被引分析结果可视化中,我们看到很多作者之间都有着连线,纵横交错,呈现出复杂的网状结构,很难分辨清楚。比如一个作者可能和许多作者都有同被引关系,如果在图上都用连线表示出来,显得主次不分、重点不突出。所以,结果呈现要简洁,勾勒出作者之间、研究方向之间最主要的关系即可。②结果呈现的易读性。我们进行可视化的目的是为了让读者更加清晰方便地认识一个学科或者领域的科学交流知识结构。不仅是这个学科或者领域的读者,还包括其他学科或者领域对该领域感兴趣的读者。并且,每个读者对于一个学科或者领域的交流结构认识程度和水平是有差别的,如何让这些读者更明确地了解一个学科或者领域的结构无疑是非常重要的,让读者更便捷地了解结果应是可视化追求的目标之一。需要强调的是,简洁性和易读性有一定差别,简洁的结果不一定易读,而易读的结果应该是简洁的。③多研究方向作者的合理呈现。在作者同被引分析中,作者的研究方向决定了它的群体归属,如果用聚类分析进行分类,就难以看出作者研究方向的多样性,而作者研究方向的非单一性是普遍存在的。作者同被引分析结果的可视化满足这样的要求,才能更加科学。
基于以上考虑,我们尝试提出一种集“聚类分析”和“pathfinder算法”为一体的可视化方法,具体原理如下:
(1)就简洁性而言,pathfinder算法是当前最成熟且应用最广泛的实现方法,它可以勾勒出作者之间最重要的关系,简化掉那些相对不重要的关系[11]。但由于pathfinder算法要求计算矩阵为非相似性矩阵[19],而作者同被引矩阵是典型的相似性矩阵。另外,进行同被引分析时,一般都要对原始矩阵进行转化,本文使用的转化方法为标准化的欧几里得距离的平方(标准化的方法为Z-Score)这一非相似性算法,这样便较好地满足了pathfinder算法对矩阵属性的假设前提要求。
(2)虽然pathfinder算法得到的结果简洁明了,但并不适合于分类分群解释②。本文使用聚类分析来弥补这一“缺陷”。在聚类分析中,矩阵转化算法仍使用标准化的欧几里得距离的平方,保证与pathfinder算法使用数据矩阵形式的一致性。聚类算法使用ward算法。通过两种方法的有机结合保障了可视化结果既简洁明了,信息又较为丰富,易于理解。
(3)由于pathfinder和聚类算法毕竟是两种不同的算法,pathfinder的原理是最小生成树和三角形不等式公理[19],而聚类算法是ward算法,这就导致了一些作者归属类别的不一致性,这正好在一定程度上挖掘出并体现了作者研究方向的多样性,从而实现了“多研究方向作者的合理呈现”这一目的。
这种可视化方法的具体实现步骤如下:
①将原始矩阵转化为标准化的欧几里德距离的平方,标准化方法仍为Z分数③。
②将标准化的欧几里德距离的平方矩阵作为输入矩阵求得它的pathfinder关系矩阵④,并转化为.net格式的文件,具体结构如图1所示。
图1.net格式的PFNet结果
③利用SPSS得到变量的聚类结果,并用M+1,M+2,…,M+N来表示聚类的类别,其中M为作者个数,N为聚类的类别个数。
④将聚类类别加入第②步生成的.net文件的Vertices中,并且将每个作者的标号与聚类标号对应,强度可都设为-1(表示出来的是虚线),并且加入到Edges中。这样.net文件就变为图2的情况。
图2.net格式的新方法关系网络结果
⑤将第④步得到的结果进行Kamada-Kawai和Fruchterman-Reingold算法优化,使节点在平面分布更加合理⑤。
2.2 数据来源和作者选择
本文的数据来源于中文社会科学引文索引CSSCI,具有较高的权威性,数据著录规范,并可以方便下载,但其并不能直接用于作者同被引分析,我们首先将数据下载,然后编写代码完成作者同被引原始矩阵的自动构建。
本文选择1998-2007年,1998-2002年,2003-2007年这三个时间段分别探究图情学的知识结构及其演化,每个时间段的作者选择也有不同的标准,具体如下:
①1998-2007年时段:这十年间按照总被引次数高低,筛选出被引次数在100次以上的作者,共132位。删除了与其他作者最大同被引强度在10以下的8位作者,最终选择124位作者作为最后的研究样本。
②1998-2002年时段:这五年间按照总被引次数高低,筛选出被引次数在40次以上的作者,共134位⑥。删除了与其他作者最大同被引强度在5以下的16位作者,最终选择118位作者作为最后的研究样本。
③2003-2007年时段:这五年间按照总被引次数高低,筛选出被引次数在60次以上的作者,共134位。删除了与其他作者最大同被引强度在10以下的22位作者,最终选择112位作者作为最后的研究样本。
2.3 其他一些细节说明
①矩阵对角线赋值:本文使用“一个作者与其他作者同被引次数的最大值+1”作为该作者和自己的相似性度量方法,即作为矩阵对角线的值,保障了该作者和自己的相似性相对于其他作者是最大的[20]。
②可视化结果的进一步解释:其中方块表示作者,方块大小表示作者相应时间段的总被引次数;圆圈代表研究方向(即聚类结果);虚线表示聚类结果得到的作者归属类别,实线表示pathfinder算法得到的作者之间的关系。
3 结果分析
3.1 图情学总知识结构分析(1998-2007年)
从图3看出,这十年间图情学学者们的研究主要集中在11个方向,具体如下:
①“三计学”(文献计量、科学计量与信息计量):三计学是LIS中最有特色的研究方法和研究领域之一,越来越得到大家的重视。从图3来看,我国当前三计学的研究不仅有文献计量和科学计量这样比较传统的研究,也有网络信息计量这样新兴的研究。
②竞争情报:这是我国图情学较有特色的一个研究方向,主要涉及企业竞争情报的获取来源、方式和企业竞争信息系统等。包昌火、谢新洲、缪其浩、沈固朝四位作者在我国竞争情报领域作了许多奠基性研究,出版了多部相关著作,在科学界和企业界产生了较大影响。
③情报学基本理论与方法:这一方向包含有影响力的作者比较多,其中邱均平、马费成、严怡民等是情报学界的先驱人物。他们在情报学的基本方法(包括信息分析、文献计量)、情报学基本理论(包括情报学的构成和原理、信息经济等)等方面卓有成就。
④网络信息组织、检索与服务:这一方向是适应当前互联网迅猛发展而产生的研究方向,包括网络信息搜集的工具、方法和技巧,也包括网络信息的组织方式(由传统的目录学、文献组织演化而来),还包括网络环境下的信息服务等。
⑤知识产权:最近几年知识产权尤其是数字图书馆涉及的知识产权研究非常热,是一个交叉性较强的研究方向。陈传夫、秦珂、张平三位作者就数字图书馆的版权、数据库、计算机软件等方面如何更好地进行知识产权保护展开了深入研究,也出版了相应的专著。在我国越来越注重知识产权保护的背景下,该研究方向的前景应该很广阔。
⑥知识管理与信息资源管理:如果再进一步地细分,盛小平、李华伟、马海群和丁蔚四位学者在知识管理方面有较大的影响力(主要是偏向于图书馆知识管理,近几年也逐渐深入到企业知识管理),都有高被引论文或著作。其他一些作者在信息资源管理方面进行了广泛深入的研究。这两个方向是传统图情学的拓展,大大丰富了图情学的内涵和范围。
⑦信息标引与检索:这一方向是情报学非常有特色的研究方向之一,张琪玉、侯汉清等作者在信息标引和检索方面作出了重要贡献,是我国情报学学者中进行情报检索的先驱。他们在信息语言学、信息分类学等方面都有精深的造诣。
⑧数字信息资源开发与利用:这一方向人员众多,也说明对于网络信息的研究在图情学领域进行得如火如荼,包括数字参考咨询、信息资源有效共享、数字图书馆基本理论、数字图书馆的元数据研究等。这一研究方向和“数字信息资源”密切相关,尤其对数字图书馆方面的研究更为出彩。
⑨目录学:这一方向的研究是图书馆学的特色研究方向,历史悠久,在图书馆学研究中占有重要地位。王重民、彭斐章等在古典目录学、文献编目等方面有着精深研究。
⑩图书馆学基本理论1:这个方向研究作者众多,主要研究图书馆研究对象、图书馆教育、知识交流、文献传播等,使大家对图书馆的本质有了进一步理解。
(11)图书馆学基本理论2:这个方向研究作者也很多,主要研究图书馆管理与服务、公共图书馆、图书馆精神和图书馆哲学等,他们试图解决图书馆如何服务好读者这样一个根本性问题。
图3不仅提供了研究分类的单一信息,其包含的信息内容也是比较丰富的,在此我们以“三计学”为例进行进一步说明。
图3 基于作者相对相似性和聚类分析的PFNet(1998-2007年)
首先,从虚线来看,该方向包含了8位作者(与该圆圈的连线有8条),其中王崇德的影响力最大(该作者的方框最大)。
第二,从该群体内部来看(即基于pathfinder算法得到的图谱),M.Thelwall和P.Ingwersen之间有实线连接,说明他们之间有着最为相似的研究方向,即网络计量学研究。其他几位作者又形成了一个连通网络,形成了传统的文献计量学和科学计量学研究方向群体。在该群体中丁学东、孟连生、王崇德与罗式胜之间有着最大的相似性,他们都著有文献计量学方面的专著;E.Garfield和苏新宁有着最大的相似性,两者对引文索引数据库以及科学评价都有着精深研究,前者创建了举世瞩目的SCI,后者则研发了我国的第一个中文社会科学引文索引(CSSCI)。
第三,从该群体与其他群体关系来看,该群体和“情报学基本理论与方法”群体有着紧密联系,因为该群体中的两位作者(P.Ingwersen和王崇德)与情报学基本理论与方法群体中的两位作者有联系,结合他们实际的研究方向,我们可以说三计学与情报学基本理论与方法有着一定的交融性,这是比较符合实际的。
第四,从个别特殊节点来看,以王崇德为例,他自身归类于三计学,而他与研究情报学基本理论与方法的严怡民有着实连线,说明两者有着最大的相似性,结合他们的实际研究情况,可以看出王崇德在三计学和情报学基本理论与方法两个研究方向都有着精深研究,图3体现了其研究的多样性。
另外,从图3看出,“知识管理与信息资源管理”与其他研究方向有着较多的交叉,这在一定程度说明这一方向要么是新兴领域,要么是即将分化的、过渡性的一些领域,它们的稳定性有待进一步观察。还需要注意的是,一些研究方向虽然已经崭露头角,但相关研究人员的平均影响力还不是很大,比如知识产权研究方向,这说明该方向还需要时间的积累和沉淀,需要更多学者投入到该方面的研究。
3.2 图情学知识分时段研究(1998-2002年)
从图4看,这五年间图情学的知识结构可以划分为9个部分。
图4基于作者相对相似性和聚类分析的PFNet(1998-2002年)
①信息标引与检索:此方向在这五年间有影响力的学者数量较多,是图情学比较有特色的研究方向之一。
②网络信息资源检索:包括网络信息资源的收集工具、检索策略、检索语言等方面的研究,是传统情报检索在网络环境下的扩展。
③数字信息资源开发、利用与管理:包括数字图书馆(包括前期的电子图书馆)的理论、方法,尤其是元数据的研究;数字信息的组织;数字信息过滤等方面,内容比较庞杂,都集中在数字信息资源这一大的研究模块中。
④情报学基本理论与方法:这个方向包含了众多作者,很多在情报学界有着重要影响,是图情学影响最大的群体之一。
⑤文献计量:这里的研究主要是传统的文献计量,包括期刊评价和引文分析,对于新兴的网络信息计量在这五年间没有形成特别引人关注的群体。
⑥知识组织、服务与管理:很多作者在图书馆知识管理、数字参考咨询和知识组织方面作了较多研究,将信息升华到知识层面进行研究,并形成了一定的规模,值得关注。
⑦知识产权:知识产权的研究已在我国图情学界兴起,并且赋予了图情学特色,即进行图书馆或者信息资源相关的知识产权研究。
⑧目录学:目录学的研究群体比较庞大,可见目录学在这期间占据着较为重要的学术地位。
⑨图书馆学基本理论与方法:这一方向包含了众多作者,说明图书馆学的研究对象和范围比较集中,大家就相同或相近的问题进行研究,形成了一个很大的知识群体。
另外,从图4看,“知识组织、服务与管理”和“目录学”与其他研究方向有着较多的交叉,对于前者来说,是一个新兴的研究方向,处于萌芽状态;对于后者来说,面临着传统研究方向转型和分化的局面,这两个研究方向的稳定性有待进一步考察。
3.3 图情学知识分时段研究(2003-2007年)
从图5来看,这五年间图情学的知识结构由14个部分构成。
①网络信息计量:网络信息计量已在我国兴起,但是我国的领军人物群体还没有出现,主要还是借鉴国外的相关研究。
②文献计量:文献计量仍然有着旺盛的生命力,从事相关研究的学者较多,成果较丰富,影响也较大。
③竞争情报:竞争情报研究势头迅猛,队伍不断扩大,且有影响力的学者也较前五年要多。
④信息资源配置:关于信息资源配置的研究非常多,产生了一系列的研究成果,值得关注。
图5 基于作者相对相似性和聚类分析的PFNet(2003-2007年)
⑤情报学基本理论与方法:对于情报学基础理论的研究一直是图情学的研究重点,这五年间也有很多学者在从事相关研究,包括信息构建、基本理论和方法应用等方面。
⑥信息标引与检索:这是情报学的特色研究方向,仍然是情报学的核心研究方向之一。
⑦本体检索与系统设计:这是一个比较新的研究领域,包括了计算机和图情学方面的专家,也是数字图书馆的研究热点之一。
⑧数字参考咨询:这一研究方向在这五年间形成,并且有了一定规模,是信息服务的重要拓展。
⑨数字信息资源开发与利用:主要是数字图书馆方面的研究,也包括信息过滤、信息资源共享等方面的研究。
⑩网络信息资源组织、检索与服务:这一方面仍是一个研究热点,由此可见网络对于图情学学者学术研究的重要影响。
(11)图书馆管理与服务:如何使图书馆员工得到最大的满足感,并调动他们的工作积极性是管理型学者需要不断思索的重要课题。当然,服务好用户是图书馆的最大使命。在我国图情学界也有一批学者在思考这方面的问题,值得肯定。
(12)图书馆学基本理论:图书馆学基本理论很丰富,包括公共图书馆、人文图书馆、图书馆哲学、图书馆精神等。从事研究的作者众多,通过这些作者的共同努力,确立和巩固了图书馆学的学科地位。
(13)知识产权:该方向的研究仍然比较活跃,虽规模不大,但有着积极的影响力。
(14)信息资源管理(综合):包括知识管理、信息资源管理的基本理论等方面的研究,在此,统一命名为信息资源管理。
从图5还可以看出信息资源管理(综合)与图书馆学基本理论交叉较多,可见两者在研究方向上有着较多的共同点。另外,信息资源管理(综合)和其他一些方向也有较多交叉,是一个综合性较强的研究方向。
3.4 比较研究
下面对我国图情学1998-2002年,2003-2007年这两个分时段和1998-2007年这一总时段的知识结构进行比较,以窥探该学科知识结构的演变过程与情况。表1给出所有涉及的研究方向出现的时间段及所包含的学者数,其中学者数的计算按照聚类分析的结果进行,对于跨研究方向的作者只赋予一个研究方向。趋势是比较1998-2002年和2003-2007年年情况而得出的评价结论,即如果2003-2007年某研究方向人数比1998-2002年有明显增加,那么趋势被命名为“增长”,基本不变被命名为“保持”,否则被命名为“衰退”;另外,由于聚类分析中有些小的研究方向会划分在大的研究方向内,但是从聚类结果中可以清晰地分辨出,比如1998-2007年间信息资源配置就被划分在信息资源管理中,为了更加清晰地观察这十年间图情学知识结构的演变,本文将一些小的研究方向也单独列出。具体情况见表1。
从表1看出,1998-2007年图情学研究方向按照作者个数排序,排名前3的为图书馆学基本理论、数字信息资源开发与利用、情报学基本理论与方法,这三个研究方向的作者数占所有作者的60.4%,数量庞大,说明这十年中我国图情学研究主要还是偏向于理论研究,应用方面有所欠缺;1998-2002年按作者数排名前3的研究方向是图书馆学基本理论、数字信息资源开发与利用、情报学基本理论与方法、知识组织与知识管理,占所有作者的61.4%。与1998-2008年相比,1998-2002年研究规模比较大的还有知识组织与知识管理,但这个时期的相关研究也主要集中在理论方面。2003-2007年作者数排名前3的研究方向是图书馆学基本理论、情报学基本理论与方法、信息资源管理基本理论与方法和数字信息资源开发与利用(数字图书馆),占所有作者的55.4%。由此可见,这十年间基础理论的研究仍然是图情学研究的重中之重,而正是由于过于偏向理论的研究,导致了在方法创新方面有所欠缺,在应用方面也显得乏力。
另外,知识产权、竞争情报虽每个时段都有一些较著名的学者,但他们的数量很少,说明这两个方向虽然已经成为图情学的特色研究方向,但还需进一步扩大,培养更多的人才,壮大研究队伍。
从表1还看出,网络信息计量、信息资源管理基本理论与方法、数字参考咨询和本体检索与系统设计是最近五年才兴起并逐步壮大的,是当前图情学研究新的知识增长点。而目录学则呈现明显的衰退迹象,在最近五年中的研究比较少。
4 小结
本文用“聚类分析”和“pathfinder算法”为一体的可视化方法对我国图情学知识结构进行了分时段研究。从结果看,我国图情学有自己独特的研究方向,如竞争情报、知识产权等。并且在把握学科前沿方面较敏锐和精准,如在信息资源配置、网络信息计量、本体检索与系统设计等方面已经有了一定的成绩。当然,也有一些研究方向没有持久发展,走向了衰退和分化,比如目录学、知识组织与知识管理等。另外,很明显的是,我国图情学高影响力的作者中有60%以上在从事理论研究,应用研究还比较匮乏,没有产生较多的在社会上有广泛影响力的实践成果。所以,我国图情学要扭转“重理论轻实践”的局面,更为重要的是把研究作扎实和深入,争取产出一系列有广泛学术和社会影响力的成果。
注释:
①以L.Leydesdorff为代表,详见其个人学术网站http://users.fmg.uva.nl/lleydesdorff/list.htm。
②主要是分类结果过于笼统,不利于解释,尤其是外行很难看懂可视化结果。但是不能否定pathfinder 算法有着一定的分类分群功能。
③在SPSS的聚类分析中可方便快捷实现。
④在Network Workbench中提供的相关功能模块可以实现此目的。
⑤可以先使用Fruchterman-Reingold得到一个较稳定的结果,然后使用Kamada-Kawai优化,在pajek中可方便实现。参见:de Nooy W,Mrvar A,Batagelj V.Exploratory social network analysis with pajek[M].London:Cambridge University Press,2005:17.
⑥尽量选择和1998-2007年这段时间相同数量或者大致相同数量的作者数,有利于更加科学地进行后文的比较研究。