网络学术信息偏向性评估,本文主要内容关键词为:学术论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2015.007.011 1 引言 偏向是阻碍对问题无偏见思考的趋势[1]。一般而言,偏向意味着倾向(slant)[2],如协调者对冲突一方的倾斜(Mediator bias)[3],记者或新闻制造者对报道事件类型以及方式的选择(Media bias)[4]。传统学术环境下,研究偏向(Research bias)是指对真理的系统偏离,以及对研究结果的扭曲[5,6]。偏向问题在网络学术环境下同样存在。网络正在成为学术信息获取的重要渠道[7,8],网络学术信息资源涵盖了各种交流方式下不同类型、不同层次的信息,包括电子邮件、专题讨论组、微博等非正式出版物,学术团体、政府部门等单位的灰色文献,以及数据库、电子工具书、专利信息等正式出版物[9]。不论是发达国家还是发展中国家,研究人员和公众能够检索到大量信息,并运用这些学术资源帮助巩固和支持自己的观点。这种不受监管与关键词检索的特质,使偏向问题变得更加突出。这些偏向的存在,弱化了研究的内部效度,并降低了研究成果的可信度[10]。研究人员已逐步意识到网络学术信息偏向性的影响,然而,有关实证研究较少。 本文主要调研了网络学术信息内容的偏向,即信息所表现出的故意隐瞒本来目的、事实,对于个人、物体或思想观点的偏爱或成见[11]。当信息的创作者对事实、语词及表述的语气加以选择,用以表达对事物特定的态度时,他可以选择支持,也可以选择反对。不论哪种情况,都需要用一些事实来支撑观点,这时偏向性即产生了。例如,一些食盐研究报告提出的过量食盐与高血压之间关系不确定的结论[12]容易让公众放松对食盐使用的警惕,又如言辞激烈的反版权言论[13]会让部分公众误认为版权制度缺乏合理性。维基百科在其指导原则中进一步指出,即使一篇论文强调的是事实而非观点,对事实的选择、组织方式及表现形式,都将导致偏向[14]。如在关于死刑的文章中引用了反对死刑网站的统计数据,其显示一旦取消死刑,谋杀率立即会下降,事实上,通过特定时间段、犯罪类型和地方的统计,却支持了相反的论点[15],这些都表明对网络学术信息的偏向性问题需要深入研究。本研究的目的在于建立网上学术信息偏向性测量的模型,并在此基础上评估学术信息的偏向度,以帮助用户科学地选择资源,也为图书情报机构深化信息服务提供依据。 2 研究综述与本文思路 2.1 相关研究综述 2.1.1 学术信息的偏向性 学术信息的偏向性问题已经引起了研究人员的关注。Easterbrook等通过回溯1984~1987年获中央牛津研究伦理委员会资助的487项研究项目的出版物,发现在统计学意义上有显著发现的研究,被发表的可能性高于那些研究对象之间没有差异的研究,并且发表数量更多,发表期刊的影响因子更高。此外,基于观测与实验室的研究的发表偏向,高于那些随机的临床试验[16]。Bekelman等通过MEDLINE、Web of Science引文数据库、论文参考文献、书信、评论、图书等途径,检索了1980年1月至2002年10月间的生物医学研究,发现研究所得结论与产业资助之间存在显著的正相关关系[17]。Lesser等通过MEDLINE检索了1999年1月至2003年12月间营养学方面的科学文献发现,有产业独家资助的饮料研究产生对资助人经济利益有利结论的可能性,较没有产业资助的研究高出4~8倍,由产业完全资助的干预性研究产生不利结论的可能性,比没有产业资助的研究文章要小得多(0~37%)[18]。Grimes和Schulz指出,医学文献通常要考虑两种效度,即内部效度(Internal validity)和外部效度(External validity),内部效度是研究测量的初衷,而外部效度是研究对读者病患的适用性。就内部效度而言,所有的观测研究都存在一定程度的偏向[10]。通过17位大学生对其论文撰写中引用的170篇网络文献质量和偏向性的自我评估,Stapleton发现,所有类型都表现一定的偏向性特征,由高到低分别为个人网页(3.3)、非营利性组织机构网站(2.9)、新闻网站(2.7)、政府网站(2.5)、学术机构网站(2.5)、讨论组(2.5)和公司网站(2.4)。具体而言,调查对象大多选择了媒体上经常讨论的热点问题,因此,搜索引擎更多地链接到新闻、非政府组织和政府网站上的结果,尽管这3种来源通常被视为客观的,仍然带有自身的说服性。此外,尽管对个人网站的质量和偏向性表示怀疑,调查对象仍然多次引用了公司和个人网站。Stapleton指出,在不同类型研究中,从统计等事实性来源,到舆论导向的信息,都是具有偏向性的[15]。 2.1.2 研究人员对于信息偏向性的态度 加州大学伯克利分校哈斯商学院(University of California-Berkley Haas Institute)院长Powell指出,“持有偏向并不会使你成为坏人,人人都持有偏向,然而,当偏向影响我们的外在行为,进而损害我们的工作、家庭、社会和目标时,问题就产生了”[19]。Frietas表示,较之试图表现出无偏向性事实上隐藏了目的的文章,他更喜欢明确表示具有偏向性的文章(即宣称它是有偏向性的),问题并不在于它是否带有偏向性,而是这些偏向性“不可视”[20]。Reagle以维基百科为例,将中立观点(Neutral Point of View,NPOV)与无偏向内容的概念进行了比较,发现维基百科是大量贡献者相互矛盾观点的产物,因此,一些偏向是不可避免的[21]。整体而言,更多的研究人员对于信息的偏向性持有强烈的否定态度。 1989年,Dawes等在《科学》杂志上发表的论文即指出,人们在判断不同信息重要性并由此得出一致决策方面存在障碍[22]。带有偏向的信息试图改变人们的思维方式,为科研人员及公众的决策带来误导,影响决策效果与效率,这些势必会对科研、学术交流、公众科学生活带来负面影响。Grimes同样指出,研究人员在阅读研究文献时面临着“报告是否可信?如果可信,与个人实践是否相关?”等偏向问题,若不加批判地接受已出版的成果,可能导致严重的错误与资源的浪费[23]。随后,他进一步发现,所有的观测研究都包含固有的偏向,这对调查者、编辑和读者如何分辨这些偏向并判断如何运用这些受影响的研究结果提出了挑战[10]。Ahlbom、Norell和Fogg也表示,研究推论应是客观、准确的,信息偏向会影响信息的可信度[24,25]。 随着网络的出现,研究人员开始关注其作为学术信息来源的合理性。Fitzgerald认为,网络上很多信息都是个人的原始观点,一些是极度偏见甚至是被滥用的[26]。Stapleton指出,随机的关键词往往能够反馈从个人网站到评审期刊的上百万条匹配结果,如果商业化或意识形态上带有偏向性的链接占据了检索结果的前几屏,即使最具批判性的研究人员也会被说服转向或转离特定观点,在其研究中,尽管调查对象对于研究资源质量的好坏有明确的区分,即知道某些类型的网站可能带有偏向性,没有学术价值,然而,由于提供了支持其论断的信息,在实际操作中仍然被采用了[15]。 2.1.3 网络信息偏向性的评估指标 自20世纪90年代中期起,研究人员即提出,网络信息与纸质资源一样,需要对其偏向性进行评估[27,28]。综合来看,研究人员评估信息偏向性的指标主要涉及信息创建或发布目的,信息内容的权威性、客观性及完整程度,语言表述风格等。 Grassian、Smith认为信息偏向性可以通过网站是否包含广告,以及广告是否影响网站内容来考察[29,30]。Kapoun提出的网络信息资源评价的五条标准,至今仍被广泛采用,其客观性标准描述了如何鉴别信息的偏向性[31]。Johnston提出,可以从顾问委员会的资质、获奖及认可证明、网站创建者的意识形态、链接、站点评论等方面寻找依据,判断在线健康信息是否存在偏向[32]。Smith认为,作者在文章中是否表达自己的观点,以及对这些观点是否进行详细叙述对于评价信息的偏向性非常重要[33]。Riquelme和Kegeng还指出,信息偏向性既可以表现在内容上,也可以表现在呈现形式上。信息内容是指信息的有效性,而呈现形式则是用户获得信息的方式[34]。作者对多个国家150余名科研人员展开的网络学术信息质量评价标准权重调查的结果也表明,客观性是网上信息可信度评价的最重要标准,其他4个标准依次是准确性、权威性、完整性和时效性,其中,客观性是与偏向性对应的评价维度。Hartman和Ackermann指出,网络上未必能获取所需的学术信息,获取网络信息时应对信息是否具有偏向性进行评估与验证,具体包括“判断内容是否准确和客观?目的是什么?”等。具体表现为是否带有政治、意识形态、文化、宗教或机构上的偏向?内容旨在进行简要概述还是深入分析?目的和观点中的信息是否被明确陈述?从其他来源摘抄的信息是否进行了标注?主要用于告知、解释、说服、推销还是主张?资源是否符合表述的目的[35]? 偏向性也逐渐成为图书馆等学术内容提供机构评估网络信息资源的重要方面。如加州大学萨克拉门托图书馆、肯特州立大学图书馆、科罗拉多州立大学图书馆等指出,判断网络信息是否存在偏向时,应关注信息创作发布的目的,相关信息是在陈述事实还是对特定观点的表述等[36-38]。阿尔伯塔大学图书馆的判断标准更侧重于信息是否被全面完整地表述[39]。阿尔弗诺学院、俄勒冈大学图书馆提出,除全面表述争议双方的观点及事实外,语言客观、不偏激也是判断信息是否存在偏向性的依据[40,41]。康奈尔大学图书馆则从写作目的、内容和风格3个方面全面地考察了信息偏向的判断依据。其提出,判断信息偏向时不仅应考虑信息是陈述事实、观点,还是带有宣传目的,观点表述是否清楚,是否针对潜在读者,还要考察广告与内容是否容易区分,信息内容是否有争议,是否缺乏可支持的证据,假设或猜想是否合理,信息是否有误或遗漏,写作上是否随意使用了情绪化或偏激的语言等[42]。Web of Science在整合Internet学术信息资源(Current Web Contents)时,也强调遴选的商业性网站必须不具有任何偏见[43]。 2.1.4 信息偏向性的产生原因 对于信息偏向性产生的原因,研究者主要从两个角度进行了研究。一是从认知偏向(cognitive bias)的角度。当代认知心理学的研究表明,所有人类行为者在推理能力上都存在局限。任何人不论其专业熟练程度、所处地位与职务高低,都会存在着某种认知偏向。这种偏向可能是由于个人知识背景、对旧有概念的依赖、认识工具与方法的不足、“先入为主”的印象等原因所致[44,45]。由于认知偏向的干扰,使得信息具有偏向性。Fitzgerald指出,某种程度上说,即使所有信息创建者的初衷在于从客观角度阐述问题,但仍免不了表达的是其个人观点[26]。这也可称为“无意识的偏向”(unintentional bias)。二是从选择偏向(selective bias)的角度。对特定信息内容的选择偏向是指,出于宣传、个人喜好等目的,仅选择能够证明自身观点或假设的数据、方法、佐证材料等,从而使信息内容呈现出偏向性,无法代表人类知识的现实状态[46]。这种内容方面的选择性偏向带有主观故意的性质,故也被称为故意的偏向(intentional bias)[47]。此外,研究人员还从搜索引擎的检索机制及性能,即索引偏向(indexical bias)的角度专门探讨了搜索引擎在检索信息方面的选择性,如Lawrence和Giles[48]、Mowshowitz和Kawaguchi[49~51],Vaughan和Thelwall[52]等。 2.2 本文思路 网络资源从本质上区别于传统资源,由于缺乏质量过滤与集中控制,其偏向性是普遍存在的。Schwartz发现,互联网在人文相关信息和科学相关信息上确实存在偏向,与公共图书馆相比,它更倾向于提供后者[53]。Fogg等的研究显示,网络上的信息11.6%是具有偏向性的,其中,在新闻网站表现得最为频繁(30.2%),其次是个人观点表述网站(23.8%),经济网站的比例为8.5%,搜索引擎和电子商务网站则较少,分别为3.8%和2.6%[25]。Fogg等还邀请了2500余名调查者参与网站可信度的评估,在收集的2440条评论中,283条提及网站信息存在偏向[54]。Riquelme和Kegeng调查了93个澳大利亚网站在检索结果中对电子商务网站商店及产品的排序、产品价格、商标、付款记录和广告等信息的偏向,发现约1/3的网站在价格信息的呈现方式上存在偏向,而使用商标的网站中,约一半未能就商标所代表的含义提供足够的信息,他们建议,为避免误导消费者,电子商务网站应提供更为全面的信息[34]。Sellitto和Burgess发现,许多商业性健康网站将健康相关的科学信息,与产品宣传和广告相混淆[55]。Christie以Pew Research Center 2005年6月的新闻为样本,邀请调查对象对新闻媒体网站报道中是否存在政治偏向、自由主义或保守主义偏向,以及在政治或社会问题上是否存在偏向进行评估,发现与非网络用户相比,网络新闻信息用户认为新闻媒体网站信息更具偏向性[56]。 互联网是一种与学术研究显著相关的媒介,其作为研究工具的潜力不容忽视,然而,它同时具有向学术研究者提供相关和不相关内容的潜力[57]。虽然图书馆资源也常常带有某种偏向,如出于政治动机,因此缺乏客观性,编辑、出版者和馆员也不能保证图书或期刊中的观点都具有高质量,从这个意义上说,研究人员和公众应意识到批判地评估他们所用的任何资源的重要性[15]。然而,由于互联网愈来愈多地成为在线检索的首选平台,并在教育和研究领域占据主导地位,受众也区别于图书馆,它能否有效地向科研人员和公众提供已知人类知识和信息的代表性子集,或确定已有信息是否存在固有偏向,显得愈发紧迫[53]。 目前,关于网络信息偏向性的探讨主要集中在医学或商业信息领域,缺乏对网络学术信息偏向性整体的描述,对偏向性指标的考察往往忽视了不同指标在重要性程度上的差异。本文旨在建立适于评估网络开放学术信息偏向性的框架,并在此基础上,对网络学术信息偏向性的真实状态进行实验性测定,揭示其特征,从而帮助科研人员、公众、图书馆等内容提供机构科学地选择资源。本文主要回答了以下3个问题: (1)网络学术信息偏向性的评估包括哪些指标? (2)如何科学建立网络学术信息偏向度评估模型? (3)网络学术信息偏向性的总体特征是什么? 3 研究过程与数据处理 本研究分为三个阶段。 阶段一:在前人研究基础上,建立网络学术信息偏向性的评价框架与指标。本文假设:①以往研究文献提出的探索性指标中,共性越大表明该指标越重要;②图书馆和科学团体(如图书馆协会、大学乃至中小学)用来评价偏向性的指标共性越大,表明该指标越具有实用性。 阶段二:确定评价框架中各指标的权重。本文假设:①网络学术信息的偏向性可以通过多个要索来测量,而不同要素在决定偏向性方面的重要性存在不同;②不同要素在决定偏向性方面的重要性可以用权重的方式予以区别。 阶段三:根据获得的指标与权重对随机抽取的网页样本进行测量,获得评价结果。 以下是各阶段采用的研究方法: 3.1 指标的确定 基于对偏向性概念的理解,综合前述康奈尔大学图书馆、加州大学萨克拉门托图书馆等机构及部分学者提出的偏向性指标体系中使用频率较高的指标,本文认为偏向性可以从以下3个方面予以考察: (1)写作目的上,考察了作者是否明确地表达了自己的目的和立场,是否将事实、观点和宣传区分开,是否会从发布的信息中获利。 (2)内容方面,主要从是否包括广告、是否对事实或数据加以筛选以及信息资源来源是否权威来判断其偏向性。 (3)写作风格上,检查网页信息中是否包括情绪化的语词,是否以公平和平衡的语气表达,信息的表述是否具有逻辑性以及是否清晰明确表达了主要观点。譬如语句中是否经常出现应该、可能、认为这样制造观点的词汇;是否表达出了害怕、讨好的情绪,或是激起了读者的罪恶感、同情感等;内容中是否有逻辑谬论。 3.2 权重的确定 本文采用层次分析法确定了偏向性3个一级指标的权重。层次分析法是由Saaty教授提出的用于对定性问题进行分析并得出操作单元权重的一种主观方法。此外,还采用专家评分法确定了3组二级指标的权重。步骤包括: (1)根据制定的指标体系构造判断矩阵。设计调查问卷,将准则层1的3个一级指标置于两两判断矩阵。 (2)权重问卷调查。调查问卷分为3个部分:被调查者个人信息、被调查者对一级指标权重的判断、被调查者对二级指标权重的判断。在选定的12种期刊上查找发表学术论文作者的联系信息,随机挑选了500名作者,并以电子邮件的方式向其发放调查问卷。这些期刊包括Nature,The Journal of Biochemistry,Scientometrics,Acta Physica Sinica等。发表时间为2004~2006年。调查共发放问卷500份,回收问卷79份,其中6份问卷的回答未通过一致性检验,有效问卷为73份。有效问卷回答者的学科领域涉及物理、化工、生物、地理、计算机、机械等。其中,教授19名,副教授29名,博士生25名。 (3)层次单排序。利用Matlab软件求出判断矩阵的最大特征根λmax及其对应的特征向量W,然后将特征向量归一化(使各个分向量之和为1),所得值即为各个子标准的权重。在此基础上通过公式CR=CI/RI进行一致性检验。其中CR为判断矩阵的一致性比率,CI为一致性指标。CI的计算公式为:网络学术信息偏差评价_相关性分析论文
网络学术信息偏差评价_相关性分析论文
下载Doc文档