科技网站信息质量评价的实证研究_科技论文

科技网站信息质量形式评价实证研究,本文主要内容关键词为:形式论文,评价论文,实证研究论文,质量论文,科技网站论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      本研究根据科技网站信息质量形式评价理论模型(见图1),以精选的8家医药生物技术主题学术网站(中国医药生物技术协会网站、生物谷、丁香园、中国生物技术信息网、中国医药技术经济网、中国医学科学院医学生物学研究所网站、生物秀、中国医学科学院北京协和医学院医药生物技术研究所网站)作为评价对象进行实证研究。

      

      图1 科技网站信息质量形式评价理论模型

      1 抓取主题相关网页数据

      科技网站信息质量形式评价理论模型包含m个评价指标,而可以量化并能体现科技网站信息质量特性的指标为前5个。根据5个指标的含义,需抓取主题相关网页数据,首先需确定主题特征度和热度的基础数据:主题特征词和热词。

      1.1 获取主题特征词

      1.1.1 中文主题特征词

      (1)利用CNKI高级检索功能,以主题、题名、关键词、文摘为检索入口,输入检索词“医药生物技术”,采用中英文扩展检索,无其他限制,得到检索结果共1 084篇文献。将数据导入SATI3.2词频共现软件,导出前100个词频共现矩阵,并进行关键词词频统计。从高共现词中选出与“医药生物技术”主题相关性强的词汇。此类词汇与“医药生物技术”相关的高频词汇和“医药生物技术”成为中文主题特征词。(2)从“中国学术会议在线网”摘取近期相关会议的主题词,从CNKI会议文献中获取相关关键词作为中文主题特征词。(3)用检索词“生物技术”在CNKI进行篇名检索,在检索结果中依次用检索词“医药”和“进展”检索,从结果中查找近年综述文献,将文中出现的相关关键词作为主题特征词。(4)相关主题网站近期栏目的学术新闻关键词作为主题特征词。最后将获取的所有中文主题特征词按音序排序、去重。

      1.1.2 英文主题特征词

      鉴于我国学术网站英文信息主要来自英文文章和网站中文信息的翻译版,选择综合使用SCI关键词和中文主题特征词的英译法获取英文主题特征词。获取过程如下:(1)利用检索式TI=(pharmaceutical biotechnolog* OR medical biotechnolog* OR medicinal biotechnolog* OR medicinal biotech)OR TS=(pharmaceutical biotechnolog* OR medical biotechnolog* OR medicinal biotechnolog* OR medicinal biotech)在web of science上检索,得到相关文献4069篇。利用SATI3.2词频共现软件导出前100个词频共现矩阵,进行关键词词频统计。相关高频词和高共现词汇作为英文主题特征词。(2)相关英文会议网站的关键词作为英文主题特征词。(3)专业综述词汇作为英文主题特征词。(4)有的网络专业词汇不规范,为获取同一词汇不同译文,综合使用词都、有道和CNKI翻译助手将中文主题特征词翻译为英文,英译词汇作为英文主题特征词。最后将所有英文主题特征词按字顺排序、去重。

      对初步获取的主题特征词进行清洗。由于批量获取网页的算法采用精确检索模式,为扩大检全率,将中英文主题特征词中关于“技术”的后缀词去掉;去掉部分中文化学名称和药物类主题特征词后的英文字母后缀,只保留专业领域的概念。为保证所选和翻译词汇的专业性和准确性,邀请医药生物技术相关专业人员对获取的中英文主题特征词进行甄别,最终确定中文主题特征词和英文主题特征词。

      1.2 获取热词

      中英文热词的获取过程:利用上文获取中文主题特征词共词方法,得出与“医药生物技术”共现的前100个词,做出“出版时间-词频矩阵”,将时间前排,与主题相关并词频高的词作为中文热词;同主题特征词获取渠道相同,综合文章中出现的新词、近期会议的关键词、主题网站的最新关键词作为中文热词。将以上中文热词的英译、英文会议网站的关键词、英文综述的新词作为英文热词来源。经过去重、检验,最后确定中文主题热词和英文热词。

      1.3 批量获取主题相关网页数据

      批量获取主题相关网页数据应注意以下几点:关于抓取的链接,由于网络链接的文件类型包括以html及htm作为文件名后缀的文件、用VBScript或JavaScript编写的脚本文件、后缀为.doc/.ppt/.xls等的Office文件、后缀为.pdf/.jpg等的图形文件[1],抓取时应注意全面;由于一些数据库没有网络链接,只有将页面嵌入相关程序才能访问这些信息,因此不抓取这类数据库资源;有些机构网站出于安全考虑,部分信息需经过授权方可访问,不计入考察之列;关于抓取栏目,学术网站有关学术研究的栏目(模块)基本包括学术新闻、学术通知、学术会议、学术视频和资料、学者访谈、学者博客和微博、学术论坛等。学术论坛不在研究范围之内,而学术视频因为缺少文字信息,也不作为抓取对象。各网站不被抓取的首页栏目(模块)包括国医药生物技术协会网站(http://www.cmba.org.cn)的会刊要目、留言板、杂志链接、招聘英才、会员专区,生物谷(http://www.bioon.com)的最新职位、招聘、论坛热帖,丁香园(http://www.dxy.cn)的丁香无线、丁香园论坛、丁香医生、招聘、文档、调查、文献、丁香导航、调查派、丁香客、职场关注、丁香园旗下网站链接、关于丁香园、官方链接、丁当铺,中国生物技术信息网(http://www.biotech.org.cn)的人才引进、期刊、数据库、会员专区、期刊链接,中国医药技术经济网(http://www.pharmtec.org.cn)的招聘频道、期刊论文、相关机构、友情链接、合作伙伴;中国医学科学院医学生物学研究所网站(http://www.imbcams.ac.cn)的文献资源、党政工团、人力资源管理、道德讲堂、党政文化、参股公司、图片链接,中国医学科学院北京协和医学院医药生物技术研究所网站(http://www.imb.ac.cn)的办公系统、内部邮箱、图书馆、仪器中心、中国药用微生物菌种保藏管理中心、中国医药生物技术、招生信息、深入开展党的群众路线教育实践活动、深入学习十八大精神、友情链接,生物秀(http://www.bbioo.com)的生物秀旗下网站链接、视频、企业库、生物秀论坛友情链接。

      袁毅利用google检索式获取网站主题特征词,计算主题特征度,效果良好[2]。本文最后确定的主题特征词和热词数量分别多达1300个和800个,加之google不支持截词检索,为了检索准确,需对主题词逐一站内检索,会产生很大的工作量。本文采用自主设计的网络信息批量获取工具抓取网页主题特征词和热词。开发工具为Microsoft Visual Studio 2005,以c#语言编程,数据库选择access,在Microsoft.NET Framework环境下运行,网站解析技术为DUM。数据表结构包括ID(序号)、title(标题)、information source(信息来源)、time(信息发布时间)、content(信息主体内容)、key word(主题特征词)和hot word(热词)。从网站主页的限定模块开始抓取,遍历深度为3层。对比网页中title和body部分与主题特征词和热词相同的词语。采用内容获取方法,在WebBrowser.net浏览器打开网页,后台实时比对,将结果存入数据库。本文网站信息批量获取工具的开发特点是:不完全采用单一的深度优先、广度优先和内容优先策略,而是将3种方法综合使用,时时抓取并匹配存储。

      具体抓取过程分为四个步骤:第一步,网页遍历。因首页导航栏可自动跳转到欲获取内容,从首页抓取导航栏,并屏蔽不需要的栏目(模块)。网页跳转后,导航栏相关内容分页显示,因此,网页遍历只需2层。第二步,列表遍历。对列表中内容进行抓取。由于列表内容较多,且有分页,因此需对列表进行分页遍历抓取地址(URL)。第三步,地址遍历。打开抓取的URL页面,抓取页面上内容。第四步,匹配查找。将抓取的内容与主题特征词和热词进行循环比对,如果内容中包含至少1个主题特征词或热词,则将内容记录;否则,跳过该条内容,继续比对下一条(抓取流程见图2)。数据抓取后,需要对数据进行人工清洗,删除非学术信息,再将清洗后的数据去重,最终形成每个网站抓取的总体。

      

      图2 网站主题相关数据抓取流程

      2 获取医药生物技术网站形式评价指标值

      选择抽样评价方法,即从每个网站抓取的数据中抽取一定数量的样本作为评价对象。由于时间较近的数据更能反映网站近期的信息质量,所以从网站1年内的数据抽取。抽样方法采用栏目间平均分层抽样,栏目内简单随机抽样,并利用随机抽样工具进行抽样。为保证各栏目样本平均分配,且样本数量不受影响,当各栏目1年内数据不足时,以1年后数据补充。为便于比较,对抓取数据总量超过500个特征词和热词的网站,均以400个特征词和热词为样本数量进行控制。每个网站抽取的样本数量见表1。其中网站总网页数利用工具Pclawer获取。运行基本原理是:抓取网站所有网页,每个网页储存在1个文件夹,最后统计文件夹总数,即为网站总网页数。

      

      2.1 主题特征度

      本研究主题特征度指标用网站含有主题特征词的网页数与网站总网页数的比值来计量。各网站的主题特征度见表2。

      

      2.2 权威度

      采用总体分层抽样、各栏目简单随机抽样的方法,利用抽取的400个样本来评价总体。以抓取数据表结构中的标题为单位,计量该标题新闻被全网引用(转载)的总次数(不包括自引)。引用1次记为1,引用2次记为2,以此类推。对待评价网站的原创新闻被引1次记为2,被引2次记为4,以此类推。网站权威度为抽样数据的计分总和/抽取样本数量。对不标明信息来源的特殊情况,需从正文判断是否属于网站原创或转引。前者按上文方法计数,后者通过网络检索寻找信息来源。各网站权威度见表3。

      

      2.3 准确度

      准确度测量方法与权威性基本相同。不同在于:相同被引次数的原创信息不再区分单独打分。各网站的准确度见表4。

      

      2.4 新颖度

      对时间前排的抓取数据采用各栏目分层抽样,栏目内简单随机抽样抽取样本。分析样本信息“发布时间”与事件发生时间的差值,以“天”来表示。将样本时间差总和/含有时间差值的样本网页数作为初步评价结果。网页信息没有标注发布时间的差值记为0。网页引用专业文献的以原文发表时间作为信息事件发生时间。对于预报性消息,时间差用负数表示。无法找到事件发生时间的不计入评价范围,样本的空缺用后面的网页补充。样本时间差总和越低的表示时效性越强。同时计算网站各栏目最后一次更新时间的均值与抓取时间差。如果不超过7天,则认为该网站信息时效性在更新频率上通过;若不通过,新颖度减半,即将样本时间差总和/含有时间差值的样本网页数乘以2。新颖度在本文中用1/[(样本时间差总和/含有时间差值的样本网页数)(更新频率不通过的乘以2)]表示。各网站新颖度见表5。

      

      2.5 热度

      网站含有热词的网页数与网站总网页数的比值称为热度。8个网站的热度值见表6。

      

      3 科技网站信息质量形式评价指标权重

      本研究利用层次分析法获取形式评价指标权重。从“科技网站信息质量及其用户满意度影响因素调查问卷”的被访对象中选择10位专家填写“科技网站信息质量形式评价指标权重与评价方法权重测度调查表”,请专家采用9分制法对同级指标进行两两比较。利用Expert Choice 11.5辅助计算,10位专家打分结果均值即为指标权重。10位专家所属专业为药学、医学或生命科学,占总人数的一半;职业身份主要为实验室课题组组长和博士后。将专家打分的判断矩阵带入Expert Choice 11.5软件进行辅助计算。首先进行各项指标一致性校验,各指标inconsistency ratio<0.1,则表明通过一致性检验。形式评价各指标权重见表7。

      

      4 科技网站信息质量形式评价模型与实证评价结果

      4.1 形式评价模型与评价体系

      根据最终确定的科技网站信息质量形式评价指标与指标权重,本文可以利用灰色关联度法构建科技网站信息质量形式评价模型,如图3所示。该模型衍生的评价体系主要包括目标层、判断准则层和措施层等3层。目标层为“科技网站信息质量形式评价”,用字母“A”代表。其下有5个判断准则层,用B表示;5个措施层指标即评价指标用C表示,如表8所示。

      

      

      图3 科技网站信息质量形式评价模型

      4.2 评价指标原始数据

      将获取的8个网站指标数据进行整理,结果见表9。8家网站标为(

),分别是:(1)中国医药生物技术协会网站;(2)生物谷;(3)丁香园网站;(4)中国生物技术信息网;(5)中国医药技术经济网;(6)中国医学科学院医学生物学研究所网站;(7)中国医学科学院北京协和医学院医药生物技术研究所网站;(8)生物秀。

(i=1,2,3,4,5,6,7,8表示网站个数;k表示指标个数,k=1,2,3,4,5),各指标最佳值

为参考列。

      

      

      4.3 评价指标数据分析与形式评价结果

      

      

      最后得出8家网站信息质量形式评价结果见表11(灰色关联度计算部分可用灰色关联分析软件GM获得)。

      

      5 研究结论

      5.1 单一指标排序结果

      主题相关性指标从高到低的排序为<4>0.115、<5>0.094、<8>0.093、<3>0.083、<2>0.08、<6>0.08、<7>0.077、<1>0.077。权威性指标排序为<4>0.197、<2>0.165、<5>0.153、<6>0.139、<1>0.132、<8>0.102、<3>0.093、<7>0.084。时效性指标排序为<6>0.127、<3>0.120、<7>0.111、<4>0.110、<5>0.104、<1>0.104、<2>0.104、<8>0.103。准确性指标排序为<4>0.191、<2>0.155、<5>0.151、<6>0.138、<1>0.121、<8>0.100、<3>0.089、<7>0.080。科技前沿性指标排序为<4>0.106、<8>0.087、<5>0.084、<3>0.079、<6>0.075、<2>0.075、<1>0.074、<7>0.073。虽然单一指标排序不尽相同,但可发现一些规律:排在前几位的基本是比较大型的主题商业网站,这几家网站在业内较有名望,用户群基数较大。科研机构网站由于建网目的、自身规模、日常维护、信息登载频率等原因排名较靠后。可见形式评价网站排名与客观实际较相符,基本反映了客观现实。

      5.2 指标权重排序结果

      5个形式评价指标权重的排序为新颖度0.248、权威度0.201、准确度0.191、主题特征度0.185、热度0.175。可见用户(专家)对科技网站的创新性需求最高,这与我国当前万众创新的社会发展形势密切相关。

      5.3 提高科技网站信息质量的对策

      (1)提高网站信息的时效性,倡导网站原创性建设。科技网站信息时效性指标的权重很高,可见该指标对网站信息质量具有重要影响。科技网站建设者应注重提高网站信息的时效性,及时报道学术资讯、传播学术文献,提早预报学术活动。在科技日新月异的今天,抢占先机是学术网站争取用户的必由之路,网站原创性信息的发布时间与事件发生时间的时间差比转载信息短,所以可以通过增加网站原创性信息的方法提高时效性。从这个角度看,网站的原创性与信息的时效性对网站信息质量的提高作用相同。因此应倡导网站原创性建设,不仅体现网站独立的学术地位、独特的信息视角,更能增强信息报道的及时性,吸引用户访问。

      (2)加大主题相关学术信息,特别是相关科技前沿信息的报道力度,加强网站专业学术地位。用户重视科技网站信息的主题相关程度。主题相关学术信息的多寡决定网站信息质量的高低和用户的访问意愿,依靠点击率发展的网站建设者应加大此类信息的报道力度,适当减少非学术版面,相对集中广告位置,为学术栏目留有更多空间。科技网站区别于其他网站的一个重要特征是其包含了大量科技前沿信息。热词作为特殊的主题特征词,对科技网站信息质量的提高具有重要影响。同时大量科技前沿信息的汇集也反映了网站在学术领域的领先地位。所以,网站建设者需关注科技前沿信息,增加报道力度。

      (3)注重原创信息的准确性,转载信息的权威性。权威性指标是衡量科技网站信息质量的主要因素。网站建设者需注意提高网站信息的准确性与权威性。权威性与准确性之间有一定的相关性,权威发布的信息一般是准确的,准确性高的信息基本来源于权威机构。所以,把握好其中一项,另一指标会在一定程度上会相应提高。不同在于,在具体操作上,若转载其他网站的学术信息,要注意被转载网站此条信息的权威性;网站原创学术信息则要确保在文字表达、数据、时间等信息的准确性,如此双管齐下,科技网站信息的权威性和准确性在一定程度上将有所提高。

      (4)根据用户角度评价指标,定期对网站进行用户满意度调查,掌握网站信息质量建设现状。网站信息是动态变化的,每个网站在长期的建设过程中信息质量不会一成不变。网站建设者应关注网站信息的变化和用户对信息质量的满意程度,通过问卷或访谈形式调查用户满意度,调查指标包括主题相关性、权威性、时效性、准确性、科技前沿性、科技创新效用、知识或技能效用。根据调查结果,掌握用户对网站各层面信息质量和整体质量的意见,有的放矢地调整网站信息,满足用户信息需求。

      做到以上四点将可降低科技网站之间盲目模仿,减少重复建设,形成各具特色的科技网站体系态势。

      引用本文格式 范佳佳,叶继元.科技网站信息质量形式评价实证研究[J].图书馆论坛,2016(8):39-47.

标签:;  ;  ;  

科技网站信息质量评价的实证研究_科技论文
下载Doc文档

猜你喜欢