基于多种方法的信息查询行为领域研究热点分析,本文主要内容关键词为:热点论文,信息查询论文,多种论文,领域论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息查询行为是个体在信息社会中普遍存在的行为,是用户在信息寻求过程中的所有活动,Krikelas[1]认为信息查询行为是一种消除不确定性的行为,并将其定义为“用户为满足需求而采取的任何行动”。 国外对于信息查询行为领域的研究较为具体,涌现出了一系列基础理论,如Kuhlthau[2]的“信息检索过程理论”,Ellis[3]的“信息查询特性模型”,Savolainen[4]的“日常生活信息查询模型”,“Bystrom & Jarvelin模型”[5],Taylor[6]的信息使用环境理论,Leckie等[7]的“专业人员信息查询行为模型”等;同时也有基于各种理论而展开的应用[8,9]以及有关信息查询行为方面的实证研究[10-12]等。国内对于信息查询行为的研究相对国外较少,主要集中在:对国外理论的综述[13-15],不同个体的信息查询行为[16-18],不同环境下的信息查询行为[19-21]等方面。 本文采用引文分析、词频分析与共词分析等多种方法对国际信息查询行为领域的研究热点与研究前沿进行分析。 1 数据来源 在Web of Science数据库中输入information-seeking behavio* OR information seeking behavio* OR retrieval behavio* OR searching behavio*,以主题字段进行检索,将研究领域限定在“INFORMATION SCIENCE LIBRARY SCIENCE”领域,共获得1934条记录;由于信息查询行为并非仅在图书情报领域有所研究,为兼顾查准率与查全率,再构造检索式:“information-seeking behavio*”OR “information seeking behavio*”OR “retrieval behavio*”OR “searching behavio*”,以主题字段进行检索,将研究领域限定在INFORMATION SCIENCE LIBRARY SCIENCE、COMPUTER SCIENCE INFORMATION SYSTEMS、PSYCHOLOGY、MANAGEMENT等23个学科领域,并与之前的检索策略用“OR”进行组配检索,共获得2354条检索记录(上述检索时间跨度为所有年份;检索时间为2014年4月23日)。 2 引文分析 HistCite是加菲尔德博士及其同事开发的一种引文编年可视化软件[22],利用HistCite软件,选取在该文献集内部被引频次(LCS)30以上的文献绘制引文编年图(图1),其中椭圆大小表示文献被引频次的多少,椭圆中数值代表该文献在文献集合中的序号,箭头的连线代表文献节点之间的引用关系,箭头指向的文献是被引用的文献。 2.1 发展阶段分析 被引频次高的文献主要分布在1999~2002年,该领域得到了较为快速的发展,为信息查询行为领域的发展奠定了基础,同时,圆形节点较大(即被引频次较高)的文献也集中于该阶段,表明这一时间段信息查询行为领域的研究文献较为经典,对后期研究的影响较大,是高被引文献的繁荣时期;2003~2007年,信息查询行为领域相对平稳发展,没有出现上一阶段的高被引文献,但是并不能表明这一阶段的研究热度有所下降,结合文献年份分布图(图2),发现信息查询行为领域的研究文献量大体随时间的增长呈增长趋势,因而这一阶段未出现高被引文献的原因在于距今时间跨度较短以及研究热点的分散;图中尚未出现2007年之后的被引文献的原因也在于距今时间较短,尚未形成高被引文献。 2.2 研究方向分析 参考图1并结合对图中文献的分析,将1999~2007年信息查询行为领域的研究划分为三个方向:1)学生信息查询行为,包括网络、电子资源等对学生信息查询行为乃至学习的影响,学生信息查询行为的影响因素以及对如何提高学生信息查询质量的探讨;2)任务需求、语境和信息查询行为的关系;3)信息查询行为理论及模型,包括信息查询行为模型的构建,基于各类信息查询模型的实证研究,信息查询行为的概念分析,各类信息查询模型的比较等。 2.3 主路径分析 将上述分析结果保存为“.net”格式并导入到Pajek软件中,选择Net→Citation Weighs→Search Path Link Count方法进行分析,得出文献发展的主要路径图(见下页图3),图中节点代表文献,数字是文献号,箭头方向表明文献间的引用关系。这条主路径包括7篇文献,经历了1999年到2002年共4个年份,起始于文献17,该文章以高中生为研究对象,分析了其在完成家庭作业时的网络查询行为。文献46分析了儿童在使用图书馆资源时的查询行为。文献64通过对24名研究生的调查分析来研究网络交互的相关问题。文献74、131、256为Bilal D发表的与儿童搜索引擎有关的系列文章,文献242是Bilal D发表的研究儿童与成人信息查询行为异同的文章。 这些文献贯穿了信息查询行为研究的一个重要方向,即学生信息查询行为。这7篇并非都是被引频次最多的文献,但都是该领域内提出的重要理论或具有创新性的文献。 3 词频分析 词频分析是将文献中诸多因子联系起来的一种引证分析方法,高频关键词能够反映某一学科领域内的研究热点,通过关键词的变化往往能够显示出该领域的发展趋势与研究前沿。 利用Bicomb软件抽取文献题录中的关键词,并对关键词频次进行统计,再对关键词进行清洗,共得到3647个关键词,将关键词频次按从高到低的顺序进行排序,抽取频次为5以上的高频关键词进行词频分析发现,这些词可分为表征研究领域与对象的关键词、表征研究技术属性的关键词、表征研究内在属性的关键词3大类。 3.1 信息查询行为领域的研究热点分析 从研究领域与对象看,信息查询行为的研究主要集中在图书馆领域,包括数字图书馆、高校图书馆、公共图书馆等各领域,主要是对以大学生、儿童、图书馆员、毕业生等为对象的信息查询行为研究。 从研究内容的技术属性看,伴随着网络与通信技术等的发展,网络环境下的信息查询行为研究成为该领域的研究热点。具体而言,透过关键词可以看到,该领域的研究热点主要集中在利用数据库、搜索引擎制定合适的检索策略以改善信息查询行为,同时,新信息技术(如电子商务、图像检索、电子资源、在线目录、数据挖掘等)环境下的信息查询行为也是热点之一。 从研究内容的内在属性看,“information seeking behavior”、“information behavior”、“behavior”、“information"等关键词的高频次是应有之义。“search behavior”、“consumer behavior"、“individual behavior"、“user behavior”、“maternal behavior”等关键词表明信息查询行为领域的研究热点分为对不同类型的信息查询行为进行研究;“information needs”是研究客体的信息查询行为需求及动机的关键,“information literacy”、“knowledge management”、“information services”、“knowledge sharing”、“usability”等都是影响信息查询行为质量的因素;同时,健康信息行为也成为近年的研究热点之一。 3.2 研究热点迁移及研究前沿分析 将1999~2014年分为1999~2003年、2004~2008年、2009~2014年3个时间段来研究信息查询行为领域的研究热点变迁情况,分别对这三个阶段的关键词频次进行统计(见表1)。 从表1中可以看出三个阶段的高频关键词数量呈现依次增多的趋势,表明随着时间的迁移,信息查询行为领域的研究内容及研究热点逐渐充实与增多。各阶段的高频关键词都有“information retrieval”,、“information seeking behavior”、“information seeking”、“information needs”等表征信息查询行为内在属性的关键词,这符合本文的研究主题。无论哪一个阶段,“internet”、“user studies”、“libraries”、“search engines”、“digital libraries”等始终是信息查询行为领域的研究热点。 第二阶段开始出现更多的高频关键词,表明从该阶段起,信息查询行为领域的研究热度有所扩展。这一阶段出现了信息素养、电子期刊、电子商务、知识管理等研究热点;第三阶段与第二阶段相比,信息素养、知识管理等关键词表现出了较大的增长趋势,个体行为、学习、用户行为、用户界面等出现了不同程度的增长,表明这些方面的研究热度有所上升;而事物日志分析、定性研究、知识共享等在第三阶段并没有成为高频关键词,表明其研究热度有所减退;第三阶段出现了信息管理、高校图书馆、学生、社会网络、图像检索、引文分析、数据挖掘、儿童、消费者健康行为、Web2.0、健康信息需求等高频关键词,表明信息查询行为领域的研究热点在向这些方向扩展,而这些正是该领域的研究前沿。 4 共词分析 共词分析是计量学中比较重要的一种研究方法,主要是对一组关键词两两统计他们在同一篇文献中出现的次数,以此为基础利用因子分析、聚类分析和多维尺度分析等方法对这些词进行分析,用以揭示某一学科领域的研究主题、研究方向等。 利用Bicomb软件对高频关键词进行统计分析,构建共词矩阵(见表2)。通过SPSS软件对共词矩阵进行分析,首先需要对样本的数据类型和分布进行验证,发现相关矩阵数据并不符合正态分布和均匀分布,基于测试结果,采用与数据类型相适应的多元统计分析——因子分析、聚类分析分别对数据进行分析。 4.1 因子分析 因子分析的目的在于用尽可能少的因子来描述各个因素之间的关联,利用因子分析法,可根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而客观地达到分类的目的[23]。 为了消除由共词频次差异所带来的影响,首先需要根据相关性将所得到的共词矩阵转化为Spearman相关矩阵,在相关矩阵的基础之上,选取主成分法、协方差矩阵和平均正交旋转方法进行因子分析。因子分析的结果(图4)显示有7个公共因子被提取出,总计解释了全部信息的87.991%,因子分析的结果较为理想,因而在进行后续聚类分析时将树状图划分为7个团体是合适的。 4.2 聚类分析 聚类分析是依据事物本身所具有的特性对其进行合理归并分类的一种数学方法,它将距离较近的主题词聚集起来,形成概念相对独立的类团,使类团内属性相似性最大,类团间属性相似性最小[24]。 在聚类分析中,首先需要根据相似性将共词矩阵转化为距离相异矩阵,在此基础上,利用SPSS软件的系统聚类功能,聚类方法选择“离差平方和”,距离测度方法选择“斐方方法”,最终得到信息查询行为研究高频关键词的聚类树状图(图5)。 结合高频关键词的因子分析结果与聚类结果,可将信息查询行为领域的研究结构概括为七大研究主题:图书馆电子资源、网络用户信息查询行为、信息素养、健康信息素养、信息查询行为相关因素、用户信息检索、信息系统与信息计量。 (1)图书馆电子资源 图书馆电子资源不仅包括馆藏资源的电子化形式、脱机载体出版的有形电子资源,同时也包括网络上出版的电子资源。相比传统馆藏资源而言,电子资源往往具有易用性、共享性、时效性、多样性等特点。信息查询行为领域对图书馆电子资源的研究主要是对图书馆用户在利用电子资源时的信息查询行为的研究。 (2)网络用户信息查询行为 网络用户的信息行为一直是信息查询行为领域的重要研究内容之一,对其的研究主要集中在:①使用搜索引擎的信息查询行为;②不同群体的网络信息查询行为;③网络用户信息查询行为模型。 (3)信息素养 信息查询行为是个体基于任务需求而获取所需信息的过程,这一过程与个体的信息素养密不可分,信息素养直接影响着信息查询的质量,因而对信息素养的研究一直是信息查询行为领域的热点之一。 (4)健康信息素养 近年来,学者对于健康信息查询行为的研究逐渐增多,作为信息素养的类型之一,健康信息素养的研究热度也随之增多。Jeffrey等人[25]开展了针对美国德克萨斯州家庭的联合计划,通过将患有慢性疾病儿童的家庭联合起来,让其交流各自的健康信息需求。Lorence等人[26]研究了教育背景、性别差异对用户的健康信息查询、获取行为产生的影响。 (5)信息查询行为相关因素 对信息查询行为的研究除了宏观层面上的研究,也有对其本身微观上的研究,“information sharing”、“knowledge sharing”、“information needs”、“information exchange”等都是影响信息查询结果的相关因素,对其的研究有利于提高信息查询质量,更好地满足查询者的任务需求。 (6)用户信息检索 信息检索过程与信息查询结果密切相关,对信息检索过程的研究由来已久,学者提出了不同类型的检索模型,例如聚类中所突出显示的信息觅食理论。信息觅食理论认为,人们更期望采用的信息觅食策略是那些在单位成本中得到最大效益的信息觅食策略,人们使用技术的目的也是为了提高信息觅食的效率[27]。 (7)信息系统与信息计量 通过优化检索系统、用户接口等实现检索系统的高效性,提高检索效率一直是重中之重。在信息查询行为研究之中常用到信息计量等方法,以期得到更好的研究结果。 5 结语 本文采用多种方法对国外信息查询行为领域的研究热点与研究前沿进行了不同层面的分析。 利用HistCite绘制的引文编年图谱可展现各年代文献节点之间的引证关系,反映内容间的相关程度以及学科的历史发展轨迹,但无法反映文献间引证关系的密切程度,并且一篇论文要达到高被引需要经历一定的时间,因而单纯的引文分析往往具有滞后性,无法很好地反映出领域的研究前沿,但是其在反映学科的知识基础上有优势[28]。 词频分析方法对于研究热点与前沿的分析操作简便,能够直观揭示研究主题或研究领域的内容特征。但是词频阈值的确定比较主观,不同研究者根据不同的标准可能导致不同的研究结果。词频阈值通常是固定的,而词的出现频次具有波动性,因此某些研究从长期来看是属于热点,但是可能在某一年的波动略在词频阈值下方,有可能被忽略掉,导致分析的误差;关键词带有辅助检索的任务,主题范围一般比较大,在揭示领域深度和微观层变化上还有一定的差距;高频词在形成研究主题的过程中,需要较多的人工干预,需要专家根据自己的知识背景将高频词分成特定的研究主题[29]。使用高频词,致使尚处低频阶段的关键词不能被及时发现,易忽视潜在研究热点。同时,词频分析只是从关键词计量方面考察学科发展动向,对研究前沿更深入的分析探讨还要靠内行专家。 共词分析以词为分析对象,通过分析大量的关键词及其背后所隐藏的关系,对一个知识领域或者学科的发展概况进行分析和预测,减少了内行专家在分析过程中的参与。但与词频分析法相似,容易忽视潜在研究热点。同时,以单个关键词作为分析对象,脱离了具体语境,无法准确表达关键词之间的语义关系,不能保证最好的聚类效果。 不同的分析方法具有不同的优势和不足,用一种方法分析略显不足,本文将引文分析、词频分析和共词分析相结合,从不同角度揭示了信息查询行为领域的研究热点与前沿(表3)。 由于不同的研究方法在分析时的出发角度不同,所分析的结果也不尽相同,引文分析是从宏观的文献角度分析,得到结果的视角较广;词频分析与共词分析都是基于关键词的分析,但分析层面不同,词频分析侧重频次,而共词分析侧重共现,二者的结果不尽相同。但是究其实质,三种方法得到的结果都是信息查询行为领域的研究热点。标签:信息素养论文; 用户研究论文; 网络模型论文; 用户分析论文; 网络行为论文; 关键词分类论文; 网络热点论文; 聚类论文;