面向图书馆知识服务的开放式网络百科信息质量的控制,本文主要内容关键词为:开放式论文,百科论文,图书馆论文,质量论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
DOI:10.13663/j.cnki.lj.2015.07.004 信息技术的不断发展与知识管理理念的引入,促进了图书馆服务逐渐由传统的信息服务上升到知识服务的转变。相对于信息服务,知识服务需要更丰富更高质的信息资源作为保障。众多研究已将资源建设作为提升知识服务的主要措施之一,例如以文献资源的建设作为知识服务的强大后盾[1],或者通过优化和丰富馆藏资源构建图书馆知识服务的共享平台[2]等。资源建设是图书馆进行知识服务的前提,从源头上决定了知识服务的质量。 除了馆内馆际的资源外,图书馆还可以在信息可控的情况下,获取来源于互联网的信息资源为用户提供知识服务。网络资源的使用对于图书馆的信息质量评价和信息加工能力有一定的要求。相对于一般的网络资源,开放式网络百科的内容具有较高的学术参考价值;且其词条编辑须遵循一定的规范,方便进一步开发和利用。本文旨在讨论利用开放式网络百科进行图书馆知识服务时的质量控制问题。 1 开放式网络百科 由于“百科”被定位为工具书,人们在获取知识时经常会用到此类信息。和其他资源一样,传统的印刷版的百科全书现在也有电子版以方便人们的检索,这是早期的网络百科。用户交互技术的兴起,使得用户产生并编辑内容的新型网络百科内容剧增,这种基于Web2.0技术的用户贡献内容的网络百科被称之为开放式网络百科。开放式网络百科一般由用户自由创建和编辑,并根据各网站平台制度有着不同的审核标准,其涵盖内容的广度和更新速度是传统百科全书不可比拟的。现阶段主要的开放式网络百科有维基百科、大众百科、百度百科、互动百科、搜搜百科、360百科、MBA智库百科等,其中维基百科涵盖多个语种,大众百科为英文百科,上述其他开放式网络百科所用的语言为中文。 在学术活动中,开放式网络百科信息的影响力在逐步上升,2006年至2012年期间中国学术期刊网络出版总库中,来自百度百科、维基百科、搜搜百科、互动百科的引用记录共有16041条,其中来自核心期刊的引用共有4447条,由此可见作者和期刊二者均在一定程度上默许了开放式网络百科信息作为参考文献[3]。美国的《自然》杂志在2005年对Wikipedia内容质量进行了研究,结果表明Wikipedia中词条的内容质量已接近大英百科全书[4]。此外,笔者抽查全国图书馆咨询联盟中的咨询回答时发现,参考咨询馆员在回答物理[5]、生物[6]等多个领域的知识咨询时,也经常会采用开放式网络百科中的信息为用户提供知识咨询的答案,这说明参考咨询馆员也将开放式网络百科默认为较为权威的信息源之一。 不仅如此,开放式网络百科也是人们日常搜索的重要组成部分。在Alaxa网站排名分析中,百度百科的访问量占所有百度访问页面排名的第6位,排在百度新闻、百度图片等多个百度子站点之前,人均页面浏览量达3.26页[7];而维基百科的人均页面访问量则更高,为3.57页[8]。《中国青年报》社会调查中心通过新浪网和民意中国网对1690余名公众进行了在线调查,发现45.2%的人新建或修改过开放式网络百科,84.9%的人使用过开放式网络百科,47.9%的人认为开放式网络百科对自己的帮助很大[3]。这表明开放式网络百科得到了众多网络用户的广泛参与。 与现有馆藏资源相比较,开放式网络百科的主要优点有覆盖范围更广,知识更新速度更快,互动性更强,方便查看知识的演变版本,免费获取等;然而开放式网络百科存在不容忽视的缺点,即其信息质量难以保证。尽管开放式网络百科有内容审核制度,但其信息质量仍然在很大程度上依赖于创作人员和审核人员,而创作人员和审核人员有很多不确定因素,如主观性、认知程度等。另外开放式网络百科的创作元数据随意性较强,用户在创建词条时,某些字段如参考文献、标签等可以为空,这使得用户有了词条创作自由的同时,其内容可信性下降。 尽管越来越多的人借鉴开放式网络百科的概念和内容来支撑个人观点,但其作为权威信息参考源还存在一些争议。图书馆作为满足人们知识需求的重要机构,应当充分利用这一资源,并通过对其进行质量控制为用户提供更丰富更全面的知识服务。 2 开放式网络百科的信息质量控制框架 信息质量控制即对信息流通的各个环节进行质量控制,包括信息获取、评价,知识开发和利用、组织、创新与知识服务等。其中,获取和评价属于对开放式网络信息本身质量的控制,开发和利用、组织、创新属于图书馆应用的质量控制,相关反馈控制措施包括质量标签、待审知识库、领域专家审核等属于知识服务的质量控制。本文将分别从开放式网络百科的信息质量、图书馆应用质量和知识服务质量三个方面,层层递进对其进行质量控制。此外,为保证质量控制的顺利进行,本文还阐述了相关的制度保障。基于知识服务流程的开放式网络百科信息质量控制流程图如图1所示。 图1 面向图书馆知识服务的开放式网络百科信息质量控制流程 3 开放式网络百科信息质量的控制 知识产生前的过程对应于开放式网络百科信息的获取与评价过程,此过程涉及的质量控制属于信息质量的控制。通过开放式网络百科信息质量控制,可将其按质量归类,在提供知识服务的过程中,给予用户该信息的质量提示,以更好地指导用户利用知识。 具体到开放式网络百科信息的质量控制,B.Thomas Adler和Luca de Alfaro给出了利用作者信用评级系统来控制维基百科的网页质量的方法[9]。王丹丹对维基百科的质量控制方式进行了研究,将维基百科的质量保证概括为三个环节,分别是针对词条本身的修改与删除,针对编辑者对词条质量产生影响的用户或软件,完善维基百科的协调机制如对话、编辑历史等[10]。这些研究从不同方面为开放式网络百科信息的质量控制提供了借鉴,本文将通过开放式网络百科的信息获取与评价的质量控制实现其内容质量的控制。 3.1 开放式网络百科信息的获取 开放式网络百科信息的获取是其质量控制的基础。信息获取中的质量控制主要涉及信息的完整性、全面性、时效性和准确性等方面。获取开放式网络百科信息需要首先了解开放式网络百科信息的可获取性,进而确定信息采集的范围和方法。 开放式网络百科的内容可由通用搜索引擎使用关键词检索,当检索词为开放式网络百科收录的词条时,该词条的内容将优先显示在其他信息的前面;此外,用户还可打开开放式网络百科的专有页面,并通过键入检索词或自由浏览的方式获取信息。所有开放式网络百科信息均可通过互联网由用户免费获取,且其网页源代码免费开放给用户。网页源代码的语言标记结构为自动化网页信息采集提供便利。 对开放式网络百科信息的获取范围取决于知识服务的需求,获取范围主要分为全面获取、选择获取。全面获取的人力、物力耗费较大,而选择获取通常更有针对性。对于特定主题的开放式网络百科的信息采集,既可以选取开放式网络百科信息的网站分类,也可以选择输入检索词获取二级网页的方法。各个开放式网络百科网站的分类各有不同,如百度百科共有自然、文化等11个分类,每个分类下分为4个小类;中文维基百科共有生活、中华文化等10个大类,上百个二级分类。由于开放式网络资源更新迅速,应确定合适的采集频率,以保证相关网络资源的全面和及时更新。 目前常用网页信息获取方法主要包括手工采集、自编软件采集、网络爬虫技术采集等。手工采集方法准确度高,这种方法适用于小范围的网页信息采集,无法应对海量网页的采集。自编软件采集方法的检索结果覆盖面较广,但得到的采集内容没有固定的模板,且对信息采集人员的编程能力有一定要求。相比之下,使用网络爬虫软件是更为合适的网页信息采集方法,这种方法的主要优点是操作相对简便,采集数量巨大且速度快,用户只需要准确界定检索结果的范围,能够分析简单的网页HTML代码即可,这也是目前海量网络信息的自动采集最常用的方法。 3.2 开放式网络百科信息质量的评价 常见的网页信息质量评价方法主要包括层次分析法、元数据法、网络计量法、用户评价法和专家评价法等方法,对开放式网络百科信息质量的评价有一定的借鉴意义。 (1)开放式网络百科信息质量的评价方法 开放式网络百科信息相对于一般的网络信息有着更规范的生成标准。国外相关学者从网页特征的角度对外文维基百科的质量进行了评价,这为中文的开放式网络百科信息质量的评价提供了新的思路。基于网页本身特征的定量评价方法主要有:Laporte等在评价医学类网络信息资源时提出通过计算网络资源被检索或引用的次数来测定网络资源的重要性[1]。Joachims等提出了用点击量来反映网页与用户需求的相关性的方法[12]。Joshua Blumenstock通过实验得出了一个结论:文章长度和维基百科文章质量存在很强的正相关性[13];ChristianBauer和Arno Scharl研究了网址类型和其对应的网页质量之间的关系[14]。Nedim Lipka和Benno Stein研究了写作风格和维基百科文章质量之间的关系[15]。这类方法的研究对象多为外文网页,试图通过某个网页外在特征来判定网页质量,这为海量网页信息的评价有重要借鉴意义。 (2)基于机器学习的自动化信息质量评价方法 利用机器学习方法评价开放式网络百科信息的主要优点是能够实现评价过程的自动化,能够大量节省馆员的时间和精力,对海量并迅速更新的信息质量评价有较强的实践意义。机器学习的主旨是利用计算机模拟或实现人类学习活动,在一定的数据学习经验基础上,使机器建立起特征值和结果之间的联系;基于这种联系,机器对新输入的条件值进行判断分析,从而给出判断结果。由文献[11-15]可知,一些定量的网页特征值包括文章长度、网址类型、链接情况等可能和网页质量之间存在相关关系,某个网页特征值和网页质量之间的对应关系可能是两元线性相关、非线性相关,多个网页特征是和网页质量之间可能是多元复相关,或某个特征值与网页质量无关联,可以利用机器学习方法来习得这种相关关系并进行信息质量的分类。 机器学习方法的步骤一般是确定特征值,提取特征值,训练并选取模型,利用所选模型进行网页质量评价。针对开放式网络百科的信息评价来说,机器需要在已知小样本信息质量数据所属类别的基础上,对未分类的信息质量数据做出类别判断。机器学习流程通常有四个步骤,分别是获取特征值,划分训练集数据,训练和分类模型,实现分类。评价后的网页可按照质量进行归类。对于质量较高的信息,可以直接提供给用户使用,并在利用的过程中收集用户的质量反馈意见,以更好地保证信息质量。对于评价结果较差的信息质量,可以提交给相关专家审核后再利用,或者提醒用户“该信息质量可能较差,用户应谨慎利用”。 笔者所在课题组曾利用机器学习方法对百度百科的数据进行了自动化评价。首先利用网络爬虫自动获取百度百科中“中华烹饪文化”相关的1130条的网页特征值,并利用机器学习软件WEKA (Waikato Environment for Knowledge Analysis)对该数据进行训练和分类,在对比分类结果的基础上,选取了J48分类器实现了自动化评价。结果显示,1130个百度百科网页中共有1027个高质量网页和103个低质量网页,对照人工判断正确率达到了87%。 4开放式网络百科图书馆应用质量的控制 有一定质量保障的开放式网络百科知识和图书馆已有馆藏资源共同构成了图书馆知识服务的资源保障。除了传统的知识利用方式,本文还将结合开放式网络百科知识的特点,探讨图书馆开放式网络百科知识的开发和利用、多维度知识组织以及可能的知识创新,实现基于开放式网络百科信息的图书馆知识服务应用的质量控制。 4.1 知识开发与利用 通过对评价后得到的较高质量的开放式网络百科知识进行开发利用,不仅能够让这些知识更好地服务用户,也能更加容易地和馆藏资源聚合,进一步发挥其价值。常见的知识开发与利用的方式有专题知识库、协作式参考咨询、个人知识管理等。 (1)专题知识库建设 开放式网络百科的内容是以词条为核心组织的,而词条对应的概念等知识是构成知识的基础,这为提供专题知识服务打下了基础。知识库有多个概念,本文主要指知识的集合。专题知识库中的知识是根据其领域范围、领域热点、属性特征及应用特征而构建的便于利用的组织形式。针对公共图书馆,图书馆馆员可以建设专题词条库,专题导航等,并邀请领域专家和用户协同管理;针对学校图书馆来说,利用开放式网络百科知识和馆藏知识构建学科知识库,包括学科词条库、学科概念库、学科专题库等,并吸引该学科的教师学生参与到学科知识库的构建中来,由学科馆员、院系图书资料管理员和院系教师学生共同维护。 (2)协作式参考咨询 目前参考咨询是图书馆提供定题服务的主要方式之一,这种方式是围绕着用户需求的问题导向的知识服务。目前图书馆提供参考咨询的主体是图书馆员。图书馆员大多具有图书情报或特定学科的背景知识,然而这些背景知识对于用户包罗万象的知识需求是不够全面的。开放式网络百科基于共享和参与的精神聚集了众多贡献词条的作者,借鉴开放式网络百科的这一生成方式,图书馆可邀请开放式网络百科核心作者或权威作者,协同进行知识服务,以填补图书馆员知识结构的不足。这种协作式参考咨询服务对于满足用户日新月异的知识需求十分必要。 (3)个人知识管理 个人知识管理即通过某种工具建立个人知识体系,通过个人知识的收集、分类、利用和再更新,进而了解个人知识结构,系统管理个人知识,并在此基础上完成学习、工作等功能。个人知识管理有助于图书馆实现一对一针对性知识服务,并实现用户间知识共享。通过构建图书馆和开放式网络百科的个人账户集成可以实现个人知识管理。用户在集成账户处可以方便管理个人现有知识和未知知识,图书馆也可通过账户行为分析,如账户检索行为等,为用户提供针对性的知识推送服务。 4.2多维度知识组织 图书馆的知识组织多使用体系分类法,其合乎的逻辑是“不重不漏”,这种方法非常严谨,能够保证资源分类的唯一性和准确性,但其缺点是不那么灵活。随着科学技术的发展,资源内容更新迅速,这种沿用多时的分类法已经不是那么合乎用户的实际需求。而开放式网络百科信息的组织则相对灵活,二者结合起来有助于图书馆资源的合理组织和高效利用。多纬度知识组织可体现在以下方面: (1)标签化 部分开放式网络百科网站允许用户登录后,对网络资源加上自己的分类标签,如“感兴趣”、“有用”、“求职用”等个性化标签,用户点击自己添加的标签,便可浏览自己曾经标记过的信息,对于日后利用非常有帮助。图书馆也可借鉴这一点,鼓励用户自定义分类。 (2)以用户为中心 分类法和主题法仍然是当前开放式网络百科普遍采用的知识组织工具,但和馆藏资源相比,其灵活性、柔韧性更强,开放式网络百科网站多依托于更大的门户网站,因此它们更容易捕获用户的知识需求,其分类和主题以方便用户使用为目标,而不拘泥于知识体系的精确,完备和规范。这是图书馆组织知识资源可以借鉴的地方。 (3)同一资源分属多个类别 开放式网络百科的词条一般属于多个类别,用户检索时很方便获得跨类别信息并了解词条的多种含义,知识之间的关联更发散。而图书馆分类法则要求分类时资源有唯一的分类号,这在增加了分类难度的同时,不利于用户建立知识间的关联。 (4)动态监测资源与需求以调整分类 开放式网络百科信息的组织是动态的,可根据用户不断变化的动态需求和迅速增长的海量知识而调整。通过用户检索数据分析和自然语言处理技术,迅速捕捉用户需求和资源变化。动态分类方法有助于图书馆提高分类的用户友好性。 (5)知识网络构建 知识网络是更高层级的知识组织方式,其作用之一是有效克服知识缺口,实现来自不同资源和领域知识的整合,从而弥补图书馆知识的不足,增加知识宽度,将图书馆内部和外部知识进行合作而构成网络体系。弥补知识缺口正是图书馆进行开放式网络百科资源整合的一个目标。知识网络的构建过程可分为四个方面:确定知识网络构建的具体目标,选择网络从属知识,组织模式设计,知识网络运作反馈[16]。具体到图书馆利用开放式网络百科信息和馆藏资源构建知识网络,首先应根据图书馆各自的资源现状和资源需求,明确所需知识的类别,选择对应的开放式网络百科网站及对应的知识类别,通过采集与评价获得高质量的对应知识,开始构建知识网络,并基于知识网络运作中存在的问题反馈情况,弥补缺失知识或构建新的知识网络,实现知识空隙的发现与填补。 4.3 高质量资源服务于知识创新 经过开发和组织后的知识资源能够更好地服务于知识创新,本文给出了两种基于知识服务的知识创新方式:知识需求池建设和知识热点发现。 知识需求池建设。知识产品也许可以借助图书情报和领域知识完成,但对用户知识需求的把握却非常有难度。对知识需求的把握程度甚至决定了知识服务的方向和质量。如果图书馆能通过开放式网络百科信息来获取用户需求,通过对结构化半结构化的开放式网络百科信息检索数据的分析,可以得到用户模糊意识到的或尚未意识到的信息需求,通过知识创新,形成恰好符合用户需要的知识信息;或者引导用户提交知识需求,那么知识服务的效率和质量便可大大提高。 此外,还可通过知识热点发现来实现知识创新。知识热点为用户当前关注较多的知识点,通过及早把握知识热点,图书馆可以预先准备相关知识资源,提升为用户提供知识服务效率,缩短知识服务的周期。获得知识热点可通过关注网络热点信息进而提取知识热点,分析搜索数据,或选择某段时间的开放式网络百科网页进行聚类和二次聚类分析等方法。 5 开放式网络百科图书馆知识服务质量的控制 整合后的高质量知识资源和图书馆应用为知识服务打下了良好基础,然而这并不意味着用户就能享受到高质量的知识服务。图书馆有必要采取一定的反馈措施来保证知识服务过程中的质量。 5.1 质量标签 开放式网络百科的质量控制最终是为用户的知识利用服务的,因此用户对于开放式网络百科质量的评价非常重要。可以提供添加质量标签的功能,实现用户在知识利用过程中的质量评价。 质量标签能够帮助用户对知识进行简便的描述和评价,也体现了图书馆对于用户意见的重视,提升了用户的参与度。对图书馆来说,质量标签能帮助图书馆了解用户利用知识过程中的质量评价,同时便于批量审核与修改知识内容。质量标签一般由两方面特质构成,如“内容相关”、“内容不相关”,“准确”、“不准确”等。质量标签可由用户手动输入,或由图书馆预先设定,由用户勾选,也可采用两者结合的方法,即提供一定数量的质量标签,同时允许用户自由添加。图书馆应及时定期整理质量标签,并予以处理和反馈。 5.2 待审知识库 通过待审知识库可以实现依据质量的知识流动管理。在审核知识质量标签时,应充分重视差评标签。为避免质量较差的知识给用户带来不便,图书馆可将用户差评的知识暂时放入待审知识库中。对于差评知识应及时审核修订,待修订后再提供给用户利用。 被赋予消极标签的知识可能是由多种原因造成的。图书馆员可对差评标签进行分类,并给予相应的反馈处理。若用户反馈的质量问题是由于用户自身认识不足造成的,图书馆员可给予提醒和指导;若用户反馈的质量问题属于格式上的或较易修订,如有错别字、分段错误或引用错误等,图书馆员可自行手动修改并将知识返回利用;若用户反馈的质量问题属于内容上的,如不够准确、不够客观等,可将此知识交予领域专家审核。 5.3 领域专家审核 针对知识内容上的质量问题,图书馆员可邀请领域专家对其进行审核。领域专家即对某领域的学术或技艺有较高专业知识或技能的人,其可能来自高校、开放式网络百科、联合参考咨询组织等。图书馆员自身也可能是领域专家。领域专家在一定时限内对知识进行审核,并将审核结果反馈给图书馆员。已修订的知识可继续开放给用户利用,未通过审核的知识则返回待审知识库中邀请领域其他专家审核,或在提供给用户时给予质量提示。 6 质量控制相关制度 除上述开放式网络百科信息、图书馆应用、图书馆知识服务等多个环节的质量控制,图书馆还应具备相应制度用来保障控制过程的质量。这些制度对于利用互联网资源进行图书馆知识服务也能提供一定的参考。 6.1 全员参与的知识质量管理制度 开放式网络百科知识流转的每个过程都由图书馆员直接参与,因此应建立图书馆全员参与的,以提升知识服务质量为目的的全员知识质量保证环境。实现全员参与知识质量保证可通过提供组织保证、流程保证和实施审核等阶段。组织保证即设置合适的岗位,明确岗位职责,并根据岗位性质制定知识质量保证目标;流程保证即对现有图书馆知识流通流程进行分析和重新设计,以保证知识服务流程的合理和高效;此外,在组织与流程保证的基础上,还应对知识质量保证机制进行相应的审核,以确保全员参与的知识质量保证机制的实施和完善。 开放式网络百科知识在产生、组织、开发和利用的每个流程都对知识质量有一定的影响,每个流程与其对应的质量要素之间的关系如表1所示。 6.2 图书馆员与用户培训制度 开放式网络百科信息质量的控制实施最终要依赖于图书馆员,除了馆员的自我学习外,图书馆还应提供系统培训,包括相关技术的运用和相关领域知识。相关技术具体来说是网络爬虫技术、机器学习技术和知识组织技术,对这些技术的学习有助于图书馆员娴熟地实现开放式网络百科信息质量的控制;相关领域知识有助于图书馆员更好地把握用户需求,也是其对开放式网络百科信息的内容进行判断分析和审核修订的基础。 知识服务最终的服务对象是有知识需求的用户,对用户进行培训可提升知识服务的效率和效果。图书馆可采用手册、讲座和相关课程等方式对用户进行培训。培训内容可包括图书馆资源与服务概况,资源检索与利用和领域知识等。由于用户的知识需求和教育状况不同,图书馆应开展不同形式不同内容的培训。 此外,图书馆还应对馆员和用户培训建立相应的评估体系,采用问卷调查或考试考核等方式对培训结果进行评估,并根据评估结果采取针对性的改进与完善措施。 6.3 标准化的质量控制制度 图书馆员对于开放式网络百科信息质量的控制涉及多个环节,每个图书馆员的质量控制策略不尽相同,其评价和知识服务内容也随着个体理解的偏差而不同。为了使用户获得高质量高效率统一的知识服务,图书馆有必要制定标准化的质量控制制度。标准化的质量控制制度应集合图书馆员智慧,形成与本馆服务对象和资源相适应的制度,从而消除因图书馆员个人差异导致的知识服务质量的差异。标准化质量控制制度的制定应以最优化流程和最高要求为标准,并有效执行和修订。标准化质量控制制度应简洁实用,提倡创新并贴近业务实际,并进行制度的宣传、培训、示范和审核,并根据信息质量评价技术和知识服务水平的发展不断完善。 基于用户获取知识的习惯和开放式网络百科的特点,本文提出了一种图书馆整合馆藏资源和开放式网络百科资源的方案。开放式网络百科因为其独有的资源特点而具有较高的研究价值和参考价值,因此图书馆应充分重视并利用这类资源为读者提供知识服务。本文以开放式网络百科信息的质量控制流程为线索,给出了完整的质量控制流程,使利用开放式网络百科信息作为知识服务的资源成为可能;随着网页生成越来越规范,这种方法对于任意类型网页的质量评价也有一定的借鉴意义。 进一步研究将集中在以下方面:整合其他类型的网络资源作为图书馆知识服务的资源保障;规范期刊论文对开放式网络百科信息的引用;提高开放式网络百科信息编撰的可追溯性;制定统一的开放式网络百科信息描述元数据。 (收稿日期:2014-06-23)面向图书馆知识服务的开放网络百科全书信息质量控制_图书馆论文
面向图书馆知识服务的开放网络百科全书信息质量控制_图书馆论文
下载Doc文档