网络学术信息偏差评价_相关性分析论文

网络学术信息偏向性评估，本文主要内容关键词为：学术论文,网络论文,信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

doi:10.3772/j.issn.1000-0135.2015.007.011

1 引言

偏向是阻碍对问题无偏见思考的趋势[1]。一般而言，偏向意味着倾向(slant)[2]，如协调者对冲突一方的倾斜(Mediator bias)[3]，记者或新闻制造者对报道事件类型以及方式的选择(Media bias)[4]。传统学术环境下，研究偏向(Research bias)是指对真理的系统偏离，以及对研究结果的扭曲[5，6]。偏向问题在网络学术环境下同样存在。网络正在成为学术信息获取的重要渠道[7，8]，网络学术信息资源涵盖了各种交流方式下不同类型、不同层次的信息，包括电子邮件、专题讨论组、微博等非正式出版物，学术团体、政府部门等单位的灰色文献，以及数据库、电子工具书、专利信息等正式出版物[9]。不论是发达国家还是发展中国家，研究人员和公众能够检索到大量信息，并运用这些学术资源帮助巩固和支持自己的观点。这种不受监管与关键词检索的特质，使偏向问题变得更加突出。这些偏向的存在，弱化了研究的内部效度，并降低了研究成果的可信度[10]。研究人员已逐步意识到网络学术信息偏向性的影响，然而，有关实证研究较少。

本文主要调研了网络学术信息内容的偏向，即信息所表现出的故意隐瞒本来目的、事实，对于个人、物体或思想观点的偏爱或成见[11]。当信息的创作者对事实、语词及表述的语气加以选择，用以表达对事物特定的态度时，他可以选择支持，也可以选择反对。不论哪种情况，都需要用一些事实来支撑观点，这时偏向性即产生了。例如，一些食盐研究报告提出的过量食盐与高血压之间关系不确定的结论[12]容易让公众放松对食盐使用的警惕，又如言辞激烈的反版权言论[13]会让部分公众误认为版权制度缺乏合理性。维基百科在其指导原则中进一步指出，即使一篇论文强调的是事实而非观点，对事实的选择、组织方式及表现形式，都将导致偏向[14]。如在关于死刑的文章中引用了反对死刑网站的统计数据，其显示一旦取消死刑，谋杀率立即会下降，事实上，通过特定时间段、犯罪类型和地方的统计，却支持了相反的论点[15]，这些都表明对网络学术信息的偏向性问题需要深入研究。本研究的目的在于建立网上学术信息偏向性测量的模型，并在此基础上评估学术信息的偏向度，以帮助用户科学地选择资源，也为图书情报机构深化信息服务提供依据。

2 研究综述与本文思路

2.1 相关研究综述

2.1.1 学术信息的偏向性

学术信息的偏向性问题已经引起了研究人员的关注。Easterbrook等通过回溯1984～1987年获中央牛津研究伦理委员会资助的487项研究项目的出版物，发现在统计学意义上有显著发现的研究，被发表的可能性高于那些研究对象之间没有差异的研究，并且发表数量更多，发表期刊的影响因子更高。此外，基于观测与实验室的研究的发表偏向，高于那些随机的临床试验[16]。Bekelman等通过MEDLINE、Web of Science引文数据库、论文参考文献、书信、评论、图书等途径，检索了1980年1月至2002年10月间的生物医学研究，发现研究所得结论与产业资助之间存在显著的正相关关系[17]。Lesser等通过MEDLINE检索了1999年1月至2003年12月间营养学方面的科学文献发现，有产业独家资助的饮料研究产生对资助人经济利益有利结论的可能性，较没有产业资助的研究高出4～8倍，由产业完全资助的干预性研究产生不利结论的可能性，比没有产业资助的研究文章要小得多(0～37%)[18]。Grimes和Schulz指出，医学文献通常要考虑两种效度，即内部效度(Internal validity)和外部效度(External validity)，内部效度是研究测量的初衷，而外部效度是研究对读者病患的适用性。就内部效度而言，所有的观测研究都存在一定程度的偏向[10]。通过17位大学生对其论文撰写中引用的170篇网络文献质量和偏向性的自我评估，Stapleton发现，所有类型都表现一定的偏向性特征，由高到低分别为个人网页(3.3)、非营利性组织机构网站(2.9)、新闻网站(2.7)、政府网站(2.5)、学术机构网站(2.5)、讨论组(2.5)和公司网站(2.4)。具体而言，调查对象大多选择了媒体上经常讨论的热点问题，因此，搜索引擎更多地链接到新闻、非政府组织和政府网站上的结果，尽管这3种来源通常被视为客观的，仍然带有自身的说服性。此外，尽管对个人网站的质量和偏向性表示怀疑，调查对象仍然多次引用了公司和个人网站。Stapleton指出，在不同类型研究中，从统计等事实性来源，到舆论导向的信息，都是具有偏向性的[15]。

2.1.2 研究人员对于信息偏向性的态度

加州大学伯克利分校哈斯商学院(University of California-Berkley Haas Institute)院长Powell指出，“持有偏向并不会使你成为坏人，人人都持有偏向，然而，当偏向影响我们的外在行为，进而损害我们的工作、家庭、社会和目标时，问题就产生了”[19]。Frietas表示，较之试图表现出无偏向性事实上隐藏了目的的文章，他更喜欢明确表示具有偏向性的文章(即宣称它是有偏向性的)，问题并不在于它是否带有偏向性，而是这些偏向性“不可视”[20]。Reagle以维基百科为例，将中立观点(Neutral Point of View，NPOV)与无偏向内容的概念进行了比较，发现维基百科是大量贡献者相互矛盾观点的产物，因此，一些偏向是不可避免的[21]。整体而言，更多的研究人员对于信息的偏向性持有强烈的否定态度。

1989年，Dawes等在《科学》杂志上发表的论文即指出，人们在判断不同信息重要性并由此得出一致决策方面存在障碍[22]。带有偏向的信息试图改变人们的思维方式，为科研人员及公众的决策带来误导，影响决策效果与效率，这些势必会对科研、学术交流、公众科学生活带来负面影响。Grimes同样指出，研究人员在阅读研究文献时面临着“报告是否可信？如果可信，与个人实践是否相关？”等偏向问题，若不加批判地接受已出版的成果，可能导致严重的错误与资源的浪费[23]。随后，他进一步发现，所有的观测研究都包含固有的偏向，这对调查者、编辑和读者如何分辨这些偏向并判断如何运用这些受影响的研究结果提出了挑战[10]。Ahlbom、Norell和Fogg也表示，研究推论应是客观、准确的，信息偏向会影响信息的可信度[24，25]。

随着网络的出现，研究人员开始关注其作为学术信息来源的合理性。Fitzgerald认为，网络上很多信息都是个人的原始观点，一些是极度偏见甚至是被滥用的[26]。Stapleton指出，随机的关键词往往能够反馈从个人网站到评审期刊的上百万条匹配结果，如果商业化或意识形态上带有偏向性的链接占据了检索结果的前几屏，即使最具批判性的研究人员也会被说服转向或转离特定观点，在其研究中，尽管调查对象对于研究资源质量的好坏有明确的区分，即知道某些类型的网站可能带有偏向性，没有学术价值，然而，由于提供了支持其论断的信息，在实际操作中仍然被采用了[15]。

2.1.3 网络信息偏向性的评估指标

自20世纪90年代中期起，研究人员即提出，网络信息与纸质资源一样，需要对其偏向性进行评估[27，28]。综合来看，研究人员评估信息偏向性的指标主要涉及信息创建或发布目的，信息内容的权威性、客观性及完整程度，语言表述风格等。

Grassian、Smith认为信息偏向性可以通过网站是否包含广告，以及广告是否影响网站内容来考察[29，30]。Kapoun提出的网络信息资源评价的五条标准，至今仍被广泛采用，其客观性标准描述了如何鉴别信息的偏向性[31]。Johnston提出，可以从顾问委员会的资质、获奖及认可证明、网站创建者的意识形态、链接、站点评论等方面寻找依据，判断在线健康信息是否存在偏向[32]。Smith认为，作者在文章中是否表达自己的观点，以及对这些观点是否进行详细叙述对于评价信息的偏向性非常重要[33]。Riquelme和Kegeng还指出，信息偏向性既可以表现在内容上，也可以表现在呈现形式上。信息内容是指信息的有效性，而呈现形式则是用户获得信息的方式[34]。作者对多个国家150余名科研人员展开的网络学术信息质量评价标准权重调查的结果也表明，客观性是网上信息可信度评价的最重要标准，其他4个标准依次是准确性、权威性、完整性和时效性，其中，客观性是与偏向性对应的评价维度。Hartman和Ackermann指出，网络上未必能获取所需的学术信息，获取网络信息时应对信息是否具有偏向性进行评估与验证，具体包括“判断内容是否准确和客观？目的是什么？”等。具体表现为是否带有政治、意识形态、文化、宗教或机构上的偏向？内容旨在进行简要概述还是深入分析？目的和观点中的信息是否被明确陈述？从其他来源摘抄的信息是否进行了标注？主要用于告知、解释、说服、推销还是主张？资源是否符合表述的目的[35]？

偏向性也逐渐成为图书馆等学术内容提供机构评估网络信息资源的重要方面。如加州大学萨克拉门托图书馆、肯特州立大学图书馆、科罗拉多州立大学图书馆等指出，判断网络信息是否存在偏向时，应关注信息创作发布的目的，相关信息是在陈述事实还是对特定观点的表述等[36-38]。阿尔伯塔大学图书馆的判断标准更侧重于信息是否被全面完整地表述[39]。阿尔弗诺学院、俄勒冈大学图书馆提出，除全面表述争议双方的观点及事实外，语言客观、不偏激也是判断信息是否存在偏向性的依据[40，41]。康奈尔大学图书馆则从写作目的、内容和风格3个方面全面地考察了信息偏向的判断依据。其提出，判断信息偏向时不仅应考虑信息是陈述事实、观点，还是带有宣传目的，观点表述是否清楚，是否针对潜在读者，还要考察广告与内容是否容易区分，信息内容是否有争议，是否缺乏可支持的证据，假设或猜想是否合理，信息是否有误或遗漏，写作上是否随意使用了情绪化或偏激的语言等[42]。Web of Science在整合Internet学术信息资源(Current Web Contents)时，也强调遴选的商业性网站必须不具有任何偏见[43]。

2.1.4 信息偏向性的产生原因

对于信息偏向性产生的原因，研究者主要从两个角度进行了研究。一是从认知偏向(cognitive bias)的角度。当代认知心理学的研究表明，所有人类行为者在推理能力上都存在局限。任何人不论其专业熟练程度、所处地位与职务高低，都会存在着某种认知偏向。这种偏向可能是由于个人知识背景、对旧有概念的依赖、认识工具与方法的不足、“先入为主”的印象等原因所致[44，45]。由于认知偏向的干扰，使得信息具有偏向性。Fitzgerald指出，某种程度上说，即使所有信息创建者的初衷在于从客观角度阐述问题，但仍免不了表达的是其个人观点[26]。这也可称为“无意识的偏向”(unintentional bias)。二是从选择偏向(selective bias)的角度。对特定信息内容的选择偏向是指，出于宣传、个人喜好等目的，仅选择能够证明自身观点或假设的数据、方法、佐证材料等，从而使信息内容呈现出偏向性，无法代表人类知识的现实状态[46]。这种内容方面的选择性偏向带有主观故意的性质，故也被称为故意的偏向(intentional bias)[47]。此外，研究人员还从搜索引擎的检索机制及性能，即索引偏向(indexical bias)的角度专门探讨了搜索引擎在检索信息方面的选择性，如Lawrence和Giles[48]、Mowshowitz和Kawaguchi[49～51]，Vaughan和Thelwall[52]等。

2.2 本文思路

网络资源从本质上区别于传统资源，由于缺乏质量过滤与集中控制，其偏向性是普遍存在的。Schwartz发现，互联网在人文相关信息和科学相关信息上确实存在偏向，与公共图书馆相比，它更倾向于提供后者[53]。Fogg等的研究显示，网络上的信息11.6%是具有偏向性的，其中，在新闻网站表现得最为频繁(30.2%)，其次是个人观点表述网站(23.8%)，经济网站的比例为8.5%，搜索引擎和电子商务网站则较少，分别为3.8%和2.6%[25]。Fogg等还邀请了2500余名调查者参与网站可信度的评估，在收集的2440条评论中，283条提及网站信息存在偏向[54]。Riquelme和Kegeng调查了93个澳大利亚网站在检索结果中对电子商务网站商店及产品的排序、产品价格、商标、付款记录和广告等信息的偏向，发现约1/3的网站在价格信息的呈现方式上存在偏向，而使用商标的网站中，约一半未能就商标所代表的含义提供足够的信息，他们建议，为避免误导消费者，电子商务网站应提供更为全面的信息[34]。Sellitto和Burgess发现，许多商业性健康网站将健康相关的科学信息，与产品宣传和广告相混淆[55]。Christie以Pew Research Center 2005年6月的新闻为样本，邀请调查对象对新闻媒体网站报道中是否存在政治偏向、自由主义或保守主义偏向，以及在政治或社会问题上是否存在偏向进行评估，发现与非网络用户相比，网络新闻信息用户认为新闻媒体网站信息更具偏向性[56]。

互联网是一种与学术研究显著相关的媒介，其作为研究工具的潜力不容忽视，然而，它同时具有向学术研究者提供相关和不相关内容的潜力[57]。虽然图书馆资源也常常带有某种偏向，如出于政治动机，因此缺乏客观性，编辑、出版者和馆员也不能保证图书或期刊中的观点都具有高质量，从这个意义上说，研究人员和公众应意识到批判地评估他们所用的任何资源的重要性[15]。然而，由于互联网愈来愈多地成为在线检索的首选平台，并在教育和研究领域占据主导地位，受众也区别于图书馆，它能否有效地向科研人员和公众提供已知人类知识和信息的代表性子集，或确定已有信息是否存在固有偏向，显得愈发紧迫[53]。

目前，关于网络信息偏向性的探讨主要集中在医学或商业信息领域，缺乏对网络学术信息偏向性整体的描述，对偏向性指标的考察往往忽视了不同指标在重要性程度上的差异。本文旨在建立适于评估网络开放学术信息偏向性的框架，并在此基础上，对网络学术信息偏向性的真实状态进行实验性测定，揭示其特征，从而帮助科研人员、公众、图书馆等内容提供机构科学地选择资源。本文主要回答了以下3个问题：

(1)网络学术信息偏向性的评估包括哪些指标？

(2)如何科学建立网络学术信息偏向度评估模型？

(3)网络学术信息偏向性的总体特征是什么？

3 研究过程与数据处理

本研究分为三个阶段。

阶段一：在前人研究基础上，建立网络学术信息偏向性的评价框架与指标。本文假设：①以往研究文献提出的探索性指标中，共性越大表明该指标越重要；②图书馆和科学团体(如图书馆协会、大学乃至中小学)用来评价偏向性的指标共性越大，表明该指标越具有实用性。

阶段二：确定评价框架中各指标的权重。本文假设：①网络学术信息的偏向性可以通过多个要索来测量，而不同要素在决定偏向性方面的重要性存在不同；②不同要素在决定偏向性方面的重要性可以用权重的方式予以区别。

阶段三：根据获得的指标与权重对随机抽取的网页样本进行测量，获得评价结果。

以下是各阶段采用的研究方法：

3.1 指标的确定

基于对偏向性概念的理解，综合前述康奈尔大学图书馆、加州大学萨克拉门托图书馆等机构及部分学者提出的偏向性指标体系中使用频率较高的指标，本文认为偏向性可以从以下3个方面予以考察：

(1)写作目的上，考察了作者是否明确地表达了自己的目的和立场，是否将事实、观点和宣传区分开，是否会从发布的信息中获利。

(2)内容方面，主要从是否包括广告、是否对事实或数据加以筛选以及信息资源来源是否权威来判断其偏向性。

(3)写作风格上，检查网页信息中是否包括情绪化的语词，是否以公平和平衡的语气表达，信息的表述是否具有逻辑性以及是否清晰明确表达了主要观点。譬如语句中是否经常出现应该、可能、认为这样制造观点的词汇；是否表达出了害怕、讨好的情绪，或是激起了读者的罪恶感、同情感等；内容中是否有逻辑谬论。

3.2 权重的确定

本文采用层次分析法确定了偏向性3个一级指标的权重。层次分析法是由Saaty教授提出的用于对定性问题进行分析并得出操作单元权重的一种主观方法。此外，还采用专家评分法确定了3组二级指标的权重。步骤包括：

(1)根据制定的指标体系构造判断矩阵。设计调查问卷，将准则层1的3个一级指标置于两两判断矩阵。

(2)权重问卷调查。调查问卷分为3个部分：被调查者个人信息、被调查者对一级指标权重的判断、被调查者对二级指标权重的判断。在选定的12种期刊上查找发表学术论文作者的联系信息，随机挑选了500名作者，并以电子邮件的方式向其发放调查问卷。这些期刊包括Nature,The Journal of Biochemistry,Scientometrics,Acta Physica Sinica等。发表时间为2004～2006年。调查共发放问卷500份，回收问卷79份，其中6份问卷的回答未通过一致性检验，有效问卷为73份。有效问卷回答者的学科领域涉及物理、化工、生物、地理、计算机、机械等。其中，教授19名，副教授29名，博士生25名。

(3)层次单排序。利用Matlab软件求出判断矩阵的最大特征根λmax及其对应的特征向量W，然后将特征向量归一化(使各个分向量之和为1)，所得值即为各个子标准的权重。在此基础上通过公式CR=CI/RI进行一致性检验。其中CR为判断矩阵的一致性比率，CI为一致性指标。CI的计算公式为：

其中，λmax为矩阵最大特征根，n为该矩阵的阶数，在本文中为5。RI为平均随机一致性指标，可查表获得。

(4)专家群组决策。采用基于专家权重系数的群组决策方法，由于专家判断矩阵的一致性比率CR直接体现了专家的打分质量，CR越小，说明专家判断的质量越高，因此可以基于CR计算专家权重系数。公式为：

当计算出73位回答者的权重系数后，可得出矩阵

。这些回答者的指标层次总排序权重向量可构成矩阵H=[W1，W2，…，W73]。则最终的一级指标权重向量可通过以下公式计算：

(5)采用专家评分法确定二级指标。上述被调查者在判断一级指标权重时，通过填写Likert五分量表，判断“信息广度”、“合理的附加信息”的子指标权重，各子指标权重采用算术平均法计算得出。

最终得出赋予权重的偏向性评价框架(见表1)。

调查结果显示，调查对象认为偏向性的一级指标中，内容客观是评价信息偏向性最重要的方面，即它对于人们对偏向性的感知影响最大，其次是写作风格公正和目的明确。政治学家和广告学的学生在研究偏向性时往往采用内容分析这种系统的方法，由此分析测定信息交流中(如演说、媒体的各类报告)带有目的的宣传或偏向[50]，因此，我们在对开放网络学术资源的偏向性加以考察时，主要从内容分析的角度展开研究。从表1可以看出，各二级指标权重的差别较小，说明对各二级指标的全面考察才能较好地反映信息是否目的明确、内容是否客观以及写作风格是否公正，进而反映信息的偏向性。

3.3 样本获取方法

为全面地测评网络学术信息的偏向性，本文将学科划分为8类，共选择了32个主题词。这8类学科分别是：医学与健康、化学与生物学、地球科学、材料工程学、计算机与信息科学、数学与物理、社会学以及人文学。主题词的选择主要遵循以下条件：

(1)与公众生活相关的普通科学知识；

(2)可为一般公众所理解；

(3)可在权威的纸质百科全书、辞典、教科书、期刊等找到答案。

除了医学与健康、化学与生物学选择了5个主题词，社会学选择了7个主题词外，其他学科均选择了3个主题词，这些主题词包括达菲与禽流感、臭氧层的修复、转基因食品与安全、自然选择与人类、铁氟龙与健康等。通过用户经常使用的3种搜索引擎Google、Yahoo和Altavista对32个主题词进行了检索。

在搜索结果的选择策略方面，通过考察有关网络学术信息测量的文献发现，研究者在选取样本时通常选择若干搜索引擎排名靠前的检索结果[58～61]。研究还显示，用户查询信息时很少会浏览超过50个的搜索结果[62]，故分别选择了3个搜索引擎的前50个检索结果作为评价样本，共得到初始样本4800个。删除内容重复、无法链接以及与主题不相关的网页后，得到供分析的样本2814个。

3.4 网页评价分析方法

2007年1月20日至5月30日，15名来自武汉大学不同院系的博士生参与了评价。每一网页由2名熟悉该主题背景的评价人员评价(如化学领域的2名博士仅评估化学方面的主题词，共包括408个网页)。每一主题词均根据百科全书(主要选择大英百科全书)、教科书和权威印刷期刊中的相关文献及信息，制作统一参考答案，作为评价依据。

评价采用Likert五分量表，其中，5表示完全同意样本存在偏向，4表示同意样本存在偏向，3表示不确定样本存在偏向，2表示不同意样本存在偏向，1表示完全不同意样本存在偏向。

偏向性的综合评价值Z采用加权线性和法，逐级加和后得到：

分析时采用SPSS12.0作为分析工具，P值采用双侧检验方法。

4 结果分析

运用SPSS计算得出本次评估的Cronbach

系数均大于0.70，符合社会学调查的要求。说明本研究提出的偏向性评估框架开展的评估调查具有较高的可信度和稳定性。

4.1 网络学术信息偏向性的总体特征

对总体样本的偏向性得分进行频率分析并绘制直方图，了解变量取值的分布情况，结果如图1所示。

图1 偏向性得分频率分布直方图

图1表明，样本偏向性的均值为3.0521，所有样本网页偏向性得分中，高于平均值的网页个数为1393个，占总数的49.5%，即近一半的样本网页偏向性高于平均水平。

图2 网络学术信息偏向性的总体表现

统计结果显示，2814个样本网页中，带有较强偏向性的网页数量占总数的50.64%，信息偏向性非常显著和信息客观的网页比例均较小，分别为3.98%和3.77%。

4.2 网络学术信息偏向性的主要表现

统计各项指标得分为4、5的样本网页，并计算其占样本总数的百分比，结果如图3所示。从评估结果来看，网络学术信息存在的偏向性主要表现在以下方面：

图3 网络学术信息满足偏向性各指标的情况

4.2.1 故意隐瞒发布信息的目的

故意隐藏发布信息的目的是指，读者较难通过阅读文章理解作者的发布目的。读者需要很多的信息发现和判别这类“隐匿的偏向性”，这表明目的明确在评价信息偏向性中的重要性。在以“纳米技术和纳米材料”(Nanometer technology and Nanometer material)为主题词查找到的样本网页中，部分网页阐述纳米技术及材料科学原理的根本目的在于介绍或推销相关纳米材料产品，但并未或仅非常隐晦地将这一目的表达出来[63]。这类“隐匿的偏向性”在健康类学术信息中也较普遍。如查找到的有关“肥胖症对健康的影响”(health consequences of obesity)的网页中，部分网页通过介绍肥胖症给健康带来的危害，其真实目的在于宣传减肥药物、相关减肥书籍或健身俱乐部各种收费的健身计划等[64]。

统计结果显示，读者较难通过阅读文章理解作者发布信息目的的网站为852个(A1的分值高于3)，占总体比例的30.27%，这不利于读者根据作者的目的来判断其阐述问题的客观程度。

4.2.2 故意修改内容

故意修改主要有2种表现形式，有意选择或筛选了重要信息(B2)，或语言明显简单化，未能明确表达主要意思(C2)。有意选择或筛选了重要信息的网页为652个(B2的分值高于3)，占总体比例的23.17%；语言明显简单化，未能明确表达主要意思的网页为1378个(C2的分值高于3)，占总体比例的48.97%，这表明近一半的网页在阐述主题时都不够全面和详尽。很多样本网页在选择或筛选重要信息方面主要表现为忽略相对立的观点，或仅选择能够支持其观点的数据、材料等。如部分网页在论述“臭氧层空洞与修复”(ozone hole and repair)方面的学术信息时，仅引述论证臭氧层空洞呈现持续扩大趋势的研究报告及数据，强调环境问题的持续恶化，而忽略了部分科学家有关臭氧层空洞亦有修复可能的论证[65]。由于偏向的存在，作者在阐述主题时，对于持反对观点的问题往往一笔带过，或对具有争议性的问题避而不谈。如部分涉及“铁氟龙与健康”(Teflon and health)主题的网页仅提及铁氟龙的优点，引述部分研究报告证明铁氟龙所含的物质全氟辛酸(Perfluorooctanoic Acid，PFOA)对人类健康没有威胁，而规避了美国环境保护署对于杜邦公司所生产的铁氟龙产品安全性的质疑。

4.2.3 观点阐述不全面

在考察样本网页信息中，作者是否仅阐述自己的观点而负面描述其他的观点，或者忽视明显矛盾的观点(C3)时发现，样本网页在该指标上的偏向性得分高于3的比例占到62.22%。在查找有关达菲对治愈禽流感功效的网页时，很多网页代表了不同的观点，有的观点甚至是截然相反的，例如有的网页认为达菲是可以治愈禽流感的[66]，有的认为达菲对治愈禽流感是无效的[67]，有的则认为虽然有些病毒对达菲存在耐药性，但达菲仍然可以用于预防禽流感，其中包括人类禽流感[68]。能依据相关实验、事实数据等论述达菲对禽流感的治疗，并从正反两方面加以论证的网络信息较少。再以“转基因食品与安全”(Genetically Modified food and safety)相关网页为例，部分网页在阐述这类学术信息时，仅论述转基因食品在帮助解决世界范围的饥饿问题、环境保护、食用安全、有机农业等方面具备优势，具有明确标识，并有相关法律保障[69]；部分文献则引用多种食品安全测试数据验证转基因食品对于人体健康没有危害[70]；与之相对的是，部分网页则站在坚决反对转基因食品的立场，仅论述转基因食品可能含有新的毒素和变异原，在缺乏安全性检测的情况下投入市场，对人体健康和环境存在潜在威胁[71]。这一观点同样有失偏颇。

4.2.4 与商业宣传相关

广告是影响网页信息偏向性的一个重要因素。统计发现，样本网页中含有广告的网页为959个，占总体比例的34.07%，其中与信息发布相关的广告为279个(B1分值小于3)，占总体比例的9.91%，说明多数评估的样本网页与商业宣传间没有显著联系。然而，统计发现，在这279个样本网页中，域名为.com的样本网页中为241个(86.38%)，资源类型为营利性网站的样本网页为251个(89.96%)。因此，用户在查找到这类网页上的学术信息时，应注意鉴别相关信息与广告之间的关系，了解信息发布者是否带有商业宣传的目的。

5 结语

本文对偏向性这一网络信息资源评价中的关键指标进行了研究，建立了涵盖目的、内容和写作风格3项一级指标、9项二级指标的偏向度评价框架，并运用层次分析法和专家评分法确定指标权重。在此基础上，对涉及8个学科、32个主题的网络学术信息资源进行了评估。研究发现，整体而言，网络学术信息的偏向性比较普遍。在影响偏向性的因素中，故意修改，特别是语言明显简单化，不能明确表达主要意思是其主要表现。作者在发布信息时，出于商业或政治利益的目的，隐藏发布信息的真实目的，或将事实与宣传相混淆，或将广告引入信息中，甚至不同程度地故意修改信息，也会对读者理解信息造成偏差。

对网络学术信息偏向性的判断，受到资源内容本身、资源的结构与表现形式，以及用户对主题知识的影响，依据资源所属学科与类型，偏向性资源与非偏向性资源的衡量指标，也表现出不同的特性与趋势。本模型的意义在于，一方面帮助用户厘清网络内容的偏向性，提升学术成果的可信度与研究效率；另一方面，辅助图书情报机构将服务重点不仅定位于提供更多的访问途径上，还需考虑是否保障了资源质量，并支持学术上的创新，如将网络学术资源的评估纳入内部质量控制流程，建设高质量的虚拟馆藏；对高质量的学术资源、门户或平台进行梳理和导引；针对公众、学生和科研人员开展有效的信息素养教育等。

本研究也存在一定的局限：首先，采用的是简单抽样的方法，仅将3个搜索引擎的前50个结果作为样本，事实上，这些结果已由各个搜索引擎根据其算法加以排序，属于质量较高、引用频率较高的信息，这可能对评价结果产生一定影响[72]。然而，通过这种样本选取方法得到的结果也可以从一定程度上表明，网络学术信息的偏向性表现可能不会高于样本的偏向性特征值。其次，测试的主题词都是英文的，尽管英文是网络信息的主流语言，但仍有一部分信息是用法语、德语或其他语言表达的。第三，评价人员的个人判断对于评价结果有一定的影响。此外，由于网络信息处于不断变化中，重复研究的结果可能有所不同。因此，后续的研究是必要的。

标签：相关性分析论文; 网站权重论文;

网络学术信息偏差评价_相关性分析论文

猜你喜欢