网络百科知识组织方法研究*,本文主要内容关键词为:组织论文,方法论文,百科知识论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
百科全书是人类科学知识的集成总括,涵盖了各个学科的术语,并对这些术语所蕴含的知识给出了详尽解释,成为人们日常学习、工作、生活必不可少的重要工具。随着网络技术的快速发展,网络百科全书(以下简称“网络百科”)应运而生,如百度百科、互动百科、维基百科等在一定程度上打破了“书”的约束,更加突出“知识”的特性,以适应当前网络信息环境的变化。网络百科将传统的百科全书与搜索引擎、辞书编撰技术、语料库技术、用户交互等相互结合,具有内容开放、简单易用、更新快捷、成本低廉、使用广泛、用户互动性好等诸多优点,特别是在Web2.0环境下其知识组织方式呈现出诸多优点,成为当前百科全书的新兴潮流[1-3]。
传统的知识组织方法来源于图书情报领域,包括知识分类法、主题法等,主要用于馆藏纸质资源的组织和管理。网络百科的知识组织具有开放性,是对数字化资源知识内容的深层聚合,包括知识表示、知识重组、知识聚类等[4],形成了以知识单元为基础的知识组织方式和以知识关联为基础的知识组织方式[5]。在网络环境下,可以对传统的较为成熟的知识组织体系进行重构、融合和完善,快速有效地应用到网络百科的知识管理中,满足用户对知识多样化、精准化的应用需求[6]。
知识组织作为网络百科的核心具有重要的研究价值,引起了学术界的广泛关注[7]。借鉴关联数据[8]、大众分类法[9-11]、主题图[12-13]等新兴理论与方法的相关研究成果,有助于提高网络百科的知识组织有序性,便于实现对大规模网络知识资源的有效管理[14-15]。用户的积极参与和贡献是网络百科的主要特色之一[16],学术界对基于知识的协同推荐方法、知识社区成员贡献管理,以及对基于维基百科的语义知识库模型进行了分析与探讨,为网络百科知识组织研究提供了参考[17-18]。这些研究表明,知识组织与网络百科具有内在的紧密联系,加强知识组织的研究对于完善知识组织理论、促进网络百科的发展、提高知识服务水平具有重要意义。
本文从知识组织方法的角度对网络百科知识进行有序化组织,构建面向网络百科知识的层次型参考模型,探索网络百科知识服务的相关机制。
2 当前网络百科的知识组织特征
网络百科是以词汇为基本单元,对知识对象进行多维度描述的知识集合,通过知识的继承、链接、融合等方式,使得知识更加有序,从而有利于知识的检索、传播和利用。分类法和主题法仍然是当前网络百科普遍采用的知识组织工具,但是,分类结构和主题不再严格追求知识体系的完备性和规范性,而是主动适应网络环境的变化和用户的需求,呈现出“柔性化”、“去中心化”的特征。
2.1 网络百科知识分类特征
分类是人们认识客观世界的基本手段之一。图书情报领域的分类法主要以体系分类法为主,为了精确地反映学科体系的完备性,往往采用树状层次结构揭示类目之间的等级关系;同时,为了满足检索专指性的基本要求,需要对类名、类号进行概念界定和注释,尽量避免歧义。体系分类法在网络百科中得到了充分体现,便于将知识进行统一的归类,为用户检索、浏览提供便利,如表1所示。
网络百科的分类放宽了体系分类法“各入其类”的约束,呈现出“柔性化”特征。
(1)灵活性。类目的设置简单灵活,能够满足动态变化的信息需求。这些类目的设置既可以是网站主办方的自主设定,也适当吸收了用户分类的思想,形成互动关系。其中,一级类目保持了很好的稳定性,能够较为客观地反映当前知识的总体架构。这种分类方法不强调学科体系的完整性,而更多的是从用户需求的角度出发,能够较好地满足大众用户的需求。
(2)浅层结构。现有的知识分类层级多数不超过3级,大大降低了用户浏览信息的复杂程度,有利于用户记忆和使用。
(3)多维链接。每个词条平均都具有3个或更多分类,扩大了词语的类别特征。借助于链接技术扩大知识的跨类性,一个词语属于多个类别,有助于提高信息检索的查全率,为用户推荐更多的访问入口。
现有网络百科的分类也有一些不足之处,例如分类标准不统一导致知识的冲突,分类较为随意;用户自主定义的类名规范性较弱,类名歧义现象严重。不过,总体而言,现有的分类体系提供了一个基本可循的知识组织框架,为知识之间的链接、融合和使用提供了相对稳定的坐标系。
2.2 网络百科知识主题特征
主题法是知识组织的常用手段,用于对主题词和词间关系进行统一管理,服务于知识的检索和管理。传统主题法对词语的选择有严格的限定,例如强调以术语反映的概念为中心进行词形词义规范化处理,而对于人名、地名、机构名、型号名等大量的动态词作为复分表单独编制,收词相对较少;词间关系主要包括用代、属分、参照三种类型,以静态方式对词间关系进行描述,形成轻量级的语义工具供其他系统调用。
网络百科的主题呈现出“去中心化”倾向,即它不以概念规范化为主要任务,而是主要从用户使用的角度出发,重点对词语所反映的主题进行灵活划分,进而链接到词语所反映的知识内容;语义关联的发散性较强,词语之间的链接呈现出网状结构特征,知识关联紧密,如表2所示。
网络百科对词条和词间关系进行了实用化处理,形成了“去中心化”的网络百科主题描述方式。
首先,网络百科收词范围突破了主题法因“规范化”而导致的词量限制,尽力扩大词条数量,满足人们对知识的多样化需求。例如,互动百科中存在“问题油脂”、“杨华生”、“职业枯竭”等一系列用户感兴趣的词条。
其次,普遍采用建立“相关词条”的方式扩展词间关系,推荐出与当前词条相关的若干个词条,便于用户进行相关性检索和导航。例如,百度百科中“基本粒子”的相关词条有“质子”、“中子”、“原子”等,相关关系的划分标准较为宽泛。
最后,网络百科还突破了主题与分类的某些界限,根据用户关注的焦点问题进行组织,设置了一些特定的主题栏目,及时将新词条加入进来,具有了主题分类一体化的某些特征。例如,互动百科中设置了“IN词”、“科技新知”等栏目,这些词语时效性很强,主题归类也较为宽泛。
主题具有动态性,通常按照重要程度、点击频率、时间先后等进行排列,以提高词条的展现率。不过,网络百科的收词范围仍然局限在科普与日常生活,而对专业术语收录不足;知识组织程度仍然偏低,对词间关系的揭示还主要以相关关系为主,对同义关系、属性信息的描述有所欠缺,需要进一步提高词间关联的逻辑性。
3 网络环境下的知识组织层次模型
网络百科具有知识密集、使用广泛、用户多样等特点,允许用户随时随地、快速准确地获取这些知识资源。根据环境的变化研究具有较强通用性的知识组织参考模型,有助于提高网络百科知识的逻辑一致性和语义关联性。
3.1 网络百科的知识组织原则
网络百科是基于网络环境下涵盖各领域信息的知识库,具有明确的现实需求和特色,具体来说,网络百科在以下3个方面具有共性。
(1)用户中心。无论采用主题法还是分类法,网络百科都尽力从用户的视角出发,这一知识组织的根本原则得到了充分体现。网络百科面向的用户群体复杂、数量庞大、需求千差万别,知识组织工具必须综合考虑用户的使用习惯、认知能力、用户动机等各种因素,进而将信息进行纯净处理,上升为用户所需的客观知识。Web2.0为全面发挥用户的作用提供了技术支撑,在知识生产、传播、共享到管理的链条中,用户的作用得到了充分的发挥。
(2)动态平衡。网络百科以分类法为坐标、以主题词为锚点的知识组织方式,形成了概念空间和知识内容的有效互动;知识生产从科学家群体扩大到普通大众,各类动态知识不断更新、升华,形成富知识集。网络百科知识繁杂,因此知识组织工具必须在动态与稳定、灵活与规范之间达成某种平衡,在保持整体框架稳定的同时,主动适应用户主体和知识客体的变化。
(3)开放性。网络百科以知识链接为依托,提供了知识之间的流动性和关联性接口,将各种介质和不同颗粒度的知识点有机融为一体,打破了信息孤岛,知识之间具有开放性;基于泛在信息环境,网络百科知识的创造与获取空前便利,用户群体具有开放性;借助API嵌入式技术,知识的共享与传播更加顺畅,可以形成适应不同应用平台、服务协议的开放应用程序接口。在网络信息环境下,既可以将词条与新闻事件进行关联,为词条提供即时的背景信息,也可以采用超链接技术,在当前词条解释的内部进行标引和关联,形成网状的知识拓扑结构,便于用户在知识点之间的链接和跳转,提高知识的关联性。
3.2 基于网络百科的知识组织模型
基于知识组织和知识链接的基本原则,本文提出了面向网络百科的知识组织参考模型,从下到上依次包括资源层、知识组织层和服务应用层3个层次,如图1所示。
(1)数据资源层。实现网络百科资源的有效整合和共享,需要建立格式统一、颗粒度不同的知识库。将网络百科的资源库分为:词语资源库、背景知识库和用户自定义库。这些资源允许动态更新,在共同的知识组织框架下相互有机关联,构成了网络百科的基本资源。
(2)知识组织层。面向网络百科的知识组织分为微观知识组织和宏观知识组织两个维度。微观知识组织是基于分类法、主题法和元数据标注等,通过逐级映射形成网状关系网络,对词条和词语内容进行局部的深度知识组织;宏观组织是基于知识链接、知识组织工具集成、数据资源链接等,对异构知识资源、知识单元之间的整合。微观知识组织和宏观知识组织相互交织,共同构成泛在信息环境下的知识网络。
1)微观知识组织
面对网络百科大规模、高密度的知识资源,分类法、主题法与元数据等各种知识组织方式可以发挥各自特长,有机融合并持续优化,完成对细粒度知识的微观组织,以分类法为多维坐标、以主题为空间点形成立体概念空间,进而将用户标签映射到该网络中,形成网状的微观知识组织结构,实现自然语言、受控语言与概念空间的投射,如图2所示。
分类是对知识内容的宏观架构,可以从不同角度全面、系统地展示事物(信息)内在的层次关系和逻辑联系。网络百科分类法按照用户的认知习惯设立类目、层层展开,体系完整性好;组配分类可以按照一定规则,通过各个分面内类目的组合来揭示知识之间的关联,具有很大的灵活性。大众分类法(Folksonomy)是近年来伴随网络信息环境产生的、允许用户自主定义的松耦合分类机制,具有平面化、自由性和多维度等优势。多种分类体系反映了人们对客观世界认知的多元性,通过映射可以实现不同分类法的互操作[19],形成多维度的分类体系,为主题和用户标签提供了立体的坐标系。
主题法是通过词语和词间关系对网络百科的知识内容建立参照系统,适用于对知识内容的特性检索。在多维的分类体系下,网络百科可以按照用代、属分、参照为框架结构建立网状语义结构,按照主题进行细粒度的有序化组织;将用户检索关键词映射到主题词表,建立一对多或多对一的索引,实现基于自然语言的百科知识描述和检索。
“分类法-主题词-用户标签”的映射是构建网状知识脉络、进行网络百科微观组织的主要途径。在网络百科的概念系统中,可以对资源进行浅层聚类,将主题词映射到分类空间,然后再进行主题与标签之间的相似性计算。用户标签可以作为分类法和主题法的一种有效补充手段[20],为用户提供更为便捷的入口和使用方式。
2)宏观知识组织
知识链接是从语义的角度对各类载体的知识进行关联,有助于从宏观层面打破知识之间的隔阂[21]。网络百科需要从数据资源链接、知识组织工具链接、语义知识链接3个维度进行全局的知识组织,形成具有不同颗粒度的层次型知识组织方式。
数据资源链接。主要是通过元数据进行各类资源的标注和关联,例如基于都柏林核心元数据,对资源进行基本描述,形成便于共享和传播的资源。特别是关联数据、语义网等理论的出现,通过URI、元数据等对网络资源和数字对象进行规范控制,对实现各类资源的有效链接具有重要推动作用。
知识组织工具链接。对于各种不同的叙词表、分类表进行集成、映射、融合和链接,通过兼容转换形成一个有机统一体,是实现百科知识融会贯通的有效手段。主要包括:基于语义相似度计算和概念映射,进行异构知识组织工具之间的互通和互操作;用户检索语言向受控语言的映射与转换,将自然语言的易用性与受控语言的规范性结合起来,为用户和知识对象之间提供更为有效的链接途径。
知识内容的多维语义聚合。网络百科包括各种维度、各种粒度的知识面,例如人物、新闻、历史、科技等都可以采用文本、图像、音频或者视频方式进行展现,知识点之间语义关联呈现出复杂网状特征,需要对这些知识对象的属性特征和相互关联进行深度的发掘。同时,在知识点之间的链接主要体现为词语层面的相关关系,可以借助用户标签统计、本体语义关联、共现计算等方法,提高知识点之间的语义内聚性。
3)服务应用层
网络百科的实质是将各类知识资源进行有机整合,为社会公众提供知识服务。它可以为用户提供百科知识的检索导航,通过知识之间的语义关系进行统一的浏览、导航和管理;同时,也可以作为应用程序接口API被计算机调用,嵌入到应用系统中,用于辅助翻译、知识挖掘等领域。借助可视化技术,可以对网络百科的知识进行图形化展示,直观地揭示知识之间的关联性,提高用户学习知识的效率和兴趣,是一种新型的服务应用方式。
3.3 百科知识的动态更新
网络百科的知识组织要在统一的组织框架下进行持续更新,满足用户不断变化的动态需求。层次化知识组织模型为知识的更新提供了有效的维护机制,例如通过用户交互、专家审核等方法,能够对知识组织的效果进行动态监测和调整,并通过自然语言处理技术,对大规模动态知识进行有效管理、利用和更新。
网络百科的知识组织需要遵循相应的语义格式和存储格式,有利于保证网络百科的一致性和规范性。例如建立统一的元数据审核机制,将专家审核与用户的自主使用相互结合,保证知识内容的准确性和组织结构的一致性;采用国际通用的SKOS知识描述格式,有利于实现资源之间的统一存储和语义描述。
知识组织与数据挖掘、文本抽取、文本分类等一系列技术紧密相关,面对动态变化、迅速更新的海量知识信息,可以采用相关技术手段对知识内容进行半自动的发现、挖掘和融合,以提高百科知识的时效性。例如,采用词义计算技术进行新词发现、同义词计算、相关词推荐、资源链接等,有助于提高网络百科的编制效率[22];借助可视化技术对知识分类、主题关系进行图形化展示和动态监测,可以降低人们对复杂事物的认知难度,提高网络百科的用户友好性等。这些技术的应用有助于进一步完善和丰富网络百科的知识组织手段。
4 结语
网络百科是网络环境下图书情报界开展知识服务的重要方式,知识组织是网络百科的重要支柱,二者密不可分。本文在总结现有的网络百科知识组织模式的基础上,提出了具有一定普适性的层次化参考模型,从微观和宏观两个层面对百科知识内容进行有序组织,形成立体的概念空间网络,进而讨论了百科知识的动态更新问题,对于百科知识组织具有重要意义。如何在统一的层次化参考模型指导下,通过映射、集成等方法弥合不同知识组织工具之间的隔阂,形成知识的深度语义关联,是网络百科知识组织需要进一步加强研究的课题之一。