语义网环境下数字图书馆知识发现的维度框架研究,本文主要内容关键词为:维度论文,语义论文,框架论文,数字图书馆论文,发现论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2014.02.004 1 引言 知识发现(Knowledge Discovery in Databases,KDD)是从海量数据中提取隐含在其中的、尚不为人所知的、可信的潜在信息和知识的过程。1993年,美国NSF\DARPA \NASA联合发起了数字图书馆创始工程(DLI1),数字图书馆(Digital Library,DL)的概念被正式提出,馆藏资源开始大量地被以数字化形式存储、检索、传输。数字图书馆知识发现是知识发现在数字化馆藏资源上的应用,即从数字化馆藏资源中发现某些知识片段中存在的隐含的关系规则,从而挖掘关系规则背后隐藏的知识。 近年来,随着知识发现相关理论与技术的不断成熟,知识发现作为挖掘和发现数字图书馆资源之间及其内在的语义关联的重要途径,引起了学术界的关注。与此同时,语义网技术的发展对数字图书馆的知识发现既提出了新的挑战,同时也带来了新的机遇。原本聚焦于数据和信息层面进行资源聚合,发展到对资源内在特征、知识内容的深度揭示,以及基于语义层面的知识挖掘与发现等。从而使得语义网环境下数字图书馆知识发现成为提升图书馆知识服务水平的重要渠道。 实现数字图书馆知识发现的基本条件是发现资源之间及其内在的语义关联,语义关系揭示的越丰富,资源聚合和挖掘的深广度与效果就越好。对数字图书馆知识发现进行研究,有助于构建一个内容相互关联、多维度、多层次的资源体系;有助于将不同主题学科、不同内涵外延、不同属性关系的知识内容进行识别、标识和关联,形成集概念主题、学科内容和科研对象实体为一体的立体化知识网络。[1] 本文从数字图书馆知识发现角度出发,从组织结构维度、传播扩散维度、关联关系维度三个方面论述了数字图书馆知识发现的多维性,构建了数字图书馆知识发现的多维度理论框架,以期对为语义网络环境下数字图书馆知识发现研究提供借鉴。 2 研究背景与相关研究工作 2.1 基本定义 知识发现(Knowledge Discovery in Database,KDD)一词最早出现在1989年8月在底特律举行的第十一届国际人工智能联合会议上[2]。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD于1995年由国际研讨会发展成为国际会议年会。由于蕴藏知识的信息大多存储在数据库中,知识发现在学术领域通常被称作数据库中的知识发现模式(KDD),如关联规则、决策树等。在我国,直至1997年国家自然科学基金首次支持对该领域的项目研究。语义网络环境下的数字图书馆知识发现的研究,实质上是一个基于语义关联的知识结构与知识扩散的智能化、自动化的过程,它通过数据挖掘等技术提炼知识关联数据,使知识结构与知识扩散模式更抽象、更有用。 2.2 研究动态与趋向 目前国内外数字图书馆知识发现的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心,且已取得了一些研究成果,主要包括从数据库的角度进行研究,强调知识发现的效率;从机器学习的角度进行研究,强调知识发现的有效性;从计量分析的角度进行研究,强调知识发现的正确性;以及从微观经济学角度进行研究,强调知识发现的最大效用。这是相当长一段时间内保持的主流基调,其现实发展的持续特征包括强化基础理论、方法拓展、复杂类型数据挖掘、新技术应用四个方面。 (1)强化基础理论研究。数据库知识发现是一个很成熟的领域,起源于20世纪80年代人工智能领域研究中,但自情报学领域的学者D.R.Swanson把数据库知识发现应用到美国的大型医学文献数据库中,发现了新的知识,从而创造了情报学研究的新方法,时至今日数字图书馆知识发现已经成为与其他学科结合紧密的新兴学科,这种以数据为基础的科学发现被称作学科情报学(X-informatics),是有关知识发现的组织、描述、获取、集成、挖掘、分析分布数据资源的学科。用户利用学科情报学的理论,实践他们系统接受连接大型数据仓库、了解重要数据调查方法、挖掘分析数字图书馆资源的内容特征等[3]。数字图书馆独立完成分析、组织、存储功能也受到挑战,通过采取分权理论,邀请用户参与到数字图书馆知识库的建设中来,为数字图书馆资源的开发利用提供相应的理论支持[4]。 (2)原有理论方法的深化与拓展。如传统研究方法在数字图书馆知识发现方面取得了一定的突破或得到新的应用。应用于传统文本搜索领域的“文本频率—逆向文档频率(TF-IDF)”面向词对扩展成为“词对频率—逆向文档频率—词对无关联(TPFIDF-TPU)”方法,在发现文档中新词汇关联,建立概念地图方面发挥了重要作用[5];诞生于20世纪60年代的创新性思维模型的核心思想“双重关联(Bisociation)”方法应用于数字图书馆知识发现中[6];小波分析方法也成功用于数字图书馆文本类型分析,实现对文本分类的重构[7];对数字图书馆知识发现系统评价方法研究,如测量布尔和统计学信息检索方法的召回率与精确度[8]等;尤其是信息计量学所特有的引文分析方法以及共现分析的综合运用,对数字图书馆资源的知识发现和相关资源推荐提供了有益的启示,如Science Direct、pubMed等数据库都集成了该类型的文献推送应用,它们的知识发现功能多体现在学科领域结构探测中,具体表现为学者交流、群体演化、学科结构演进与发现[9],以及科学范式的表达、学科知识图谱的绘制[10]等;近年来,共现分析、引文分析与语义分析的融合研究也越来越多,基于引证网络与文本挖掘的微观主题知识探测[11]、基于引文耦合的核心文献发现与检索推荐[12]、概率潜在语义分析与主题模型等方法应用于数字图书馆资源知识发现[13,14]等方面的研究已逐渐成为国外学者关注的热点。 (3)复杂类型数据挖掘成为热点。如生物信息挖掘、半结构化、非结构化等复杂类型数据挖掘、分布式数据挖掘系统、流数据挖掘系统等。Naderi和Witte综合利用语义分析与本体模型以及文本挖掘技术构建了开放突变挖掘系统,实现了生物医学文献中的突变影响信息智能预测[15];基于非结构化的知识模式,实现以推理为基础的数字图书馆资源知识发现与智能检索[16]。 (4)新技术的引入与应用。数字图书馆知识发现应用技术主要包括可视化技术、语义信息分析与抽取技术。国外研究者主要从数字图书馆文本信息可视化、检索过程可视化、检索结果集可视化、语义呈现可视化[17]、可视化的用户分析和数字图书馆可视化应用[18-20]等方面进行研讨。在数字图书馆信息检索过程可视化研究中Xerox PARC作出了代表性的研究成果,如Tilebars系统,以及Scatter/Gather系统。Scatter/Gather系统是检索结果可视化中基于分类的文档簇法;TileBARS是加州大学数字图书馆项目中基于Web的分布式检索课题CheshireⅡ的一部分,也是当前比较方便、实用的检索可视化系统。由EC(European Community)支持开发的AQUA(Advanced Query User Interface Architecture)系统也是其代表之一。语义信息分析与抽取技术是目前数字图书馆知识发现领域应用最广的技术,相关成果也较多,主要归结为三大类,即语法分析、语义分析、语法与语义结合分析。语义分析与抽取的研究均呈现出自动化、智能化、深层语义化的趋势,语义分析从“词-句”小规模分析向“词-文本/客观对象”大规模分析转变,语义信息提取也逐步从部分的浅层语义信息向全部的深层语义知识提取转变[21]。如使用本体来提升内容质量,减少冗余搜索结果[22];或者透过概念间的语义关系在看似不存在关联的多个领域建立信息网络,识别重要领域的相关概念,即网络中的核心节点,由此找到原本未发现的跨领域连结[23]。下一代多媒体数字图书馆技术是实现自动化媒体处理链,用云计算技术对各种文献类型进行内容分析,提取媒体内在信息的文字表达,而后对媒体档案的名称和类型进行提取并消除歧义;其搜索引擎集成语义网技术,描述媒体与各类实体项目的联系。查询可以通过用户的探索行为来缩小或扩展,检索结果也能通过从主题和实体项目方面去除二义性而变得精炼[24]。 我国数字图书馆知识发现研究虽然起步较晚,但研究力量不容小觑。贺德方和曾建勋创新性提出的从涉及文献内部到文献外部再到社会环境的多种方法的融合在一定程度上促进了数字图书馆资源的深度聚合与知识发现[25]。韩涛曾指出生物信息学领域内科学数据库与文献数据库之间存在着通过外部相似性建立的交叉引用关系,以及在内容层面直至知识层面的内部关联关系,而这种关系则可实现两个库之间的聚合与知识发现[26]。邱均平研究团队提出了基于计量分析的馆藏资源语义化理论[27],并从共现与耦合的理论原理出发,基于计量学中共现与耦合方法在馆藏资源聚合中的应用,从文献特征关联利用、过程关联、知识关联、用户需求关联四维角度探讨了典型的八种馆藏文献资源聚合模式[28],这对于扩大数字图书馆资源语义化的应用范围,促进知识发现和提升数字图书馆智能服务提供了更广泛的探索空间。 综上所述,尽管学术界近年来对数字图书馆知识发现进行了较为广泛的研究,相关研究成果也比较丰富,但是大多数研究仅仅局限于单一的视角,研究深度有待进一步提高。有鉴于此,多视角、多维度融合的数字图书馆知识发现研究已逐渐引起学术界的关注。
图1 三种维度间的概略关系 3 数字图书馆知识发现的三种主要维度 研究发现,数字图书馆知识发现并非是单一线索下的线性知识延展,而是多维的,且在实践工作中不同维度之间总是相互关联、相互作用的。在对当前数字图书馆知识发现相关研究进行充分回顾与分析的基础上,提炼出知识的组织结构维度、关联关系维度、传递扩散维度。 组织结构维度:知识的结构是知识序化的基础,是知识系统化、学科化的保障,组织结构维度主要聚焦于领域知识的内部组织结构。换句话说在特定领域内,知识概念间的种属关系(父子、兄弟等)构成了具有一定层级性(偏序性)的组织结构。目前在揭示知识组织结构方面,最具有代表性的当属领域本体。由于领域本体内部结构严谨、逻辑严密,因此无论是用于资源聚合还是基于本体进行知识推理都取得了较为丰富的成果,并且基于概念的语义映射正逐步向多本体协同的方向发展。与此同时,社会网络分析也为丰富本体语义关系做出了贡献。 传递扩散维度:传递扩散维度强调的是客观知识世界与人类主观意识世界的交互。知识与人总是紧密相连的,即使波普尔划分了“世界3”为客观知识世界,但是还是强调“世界2”(主观认识世界)与“世界3”的联系。传递扩散维度关注人类主观认知与客观知识之间的互动关系。当前最能反映这一问题的就是风靡整个互联网的分众分类法。分众分类法允许用户自由标注资源,通过“统计上浮”原理使反映群体意识的用户标签生成标签云。从而使得知识在人类主观认知作用下传递扩散,并在过程中发生嬗变与迁移。 关联关系维度:关联关系维度主要是从知识间关联关系的角度出发,重点观测知识间相互影响、相互扰动的状态、规律与模式。所谓“关联关系”既可以是知识单元间的关联关系,也可以是知识单元与知识群落(按照某一标准的知识单元集合)的关联关系,还可以是知识群落与知识群落的关联关系,甚至是资源间的关联关系、语义关联关系、数据关联关系等。复杂网络与社会网络分析是这一维度下的主要研究方法,考虑到文献计量(作者、机构、关键词、引文等)、Web计量(
、等)和关联数据等均带有这一特征,以及社会网络研究视角与方法对这些领域的促进,因此还可以将文献计量与关联数据也纳入到关联关系维度。三种主要维度间关系如图1所示。 图1之所以称为维度之间的“概略”关系,主要是因为图中仅仅是各维度间主要的或者显著的关系。其中一些细节如组织结构维度中的领域本体与关联关系维度中的社会网络并非相互隔离,图中的节点与连线表示出两个维度之间存在的关联关系;传递扩散维度下的分众分类法与组织结构维度下的领域本体也存在相互关联,用户知识行为不但会连接到领域本体也会连接到社会网络计量,图中以连线的端点位置表示。 上述三种维度产生于知识工程领域的研究实践与行业现状,从实践中浮现出的维度口径,要比任何理论上的预设更加科学合理。本文对三种维度的划分与称谓只是基于对其基本面的主要特征属性的归纳,意不在于割裂三种维度。事实上,从内部组织结构(深度语义)到关联关系网络(广度关联),再到知识与人交互,在每一个发展方向上总是与其他两个方向之间存在着诸多关联,这些维度方向上的关联使得组织结构、关联关系、传递扩散三条维度主线相互交织成为维度交叉面,乃至多维度融合立体知识网络空间。当组织结构维度中的本体工程由领域本体向多本体协同迈进时,就已经在试图凭借“关联关系”突破“内部”组织结构,进入更广阔的知识空间,如果不考虑语义因素则更类似于局部的关联数据。传播扩散维度中人文因素的介入也总是与知识固有的结构属性相互影响,知识的结构(领域本体)、关联(社会网络)在影响着人类主观认知的同时也接受着人类思维意识的反馈。而关联关系维度不仅仅将原本抽离的指标还原于群体环境,还可以在知识概念、知识群落、知识领域等贯穿于主题内外的不同粒度上展开关联关系研究。并且文献“作者”关联也早已在文献的外部特征层面上与“人”建立了联系。因此,尽管笔者基于学术研究与行业发展现状提出了三种最具代表性的知识维度,但各个维度之间的却存在着纷繁复杂千丝万缕的联系。也正是因为各个维度之间的这种广泛联系的存在,才使得数字图书馆资源具备了知识挖掘与发现的能力。 这三种维度事实上也是目前最能代表数字图书馆知识发现的三个发展方向和路径。通过这三种主要维度的相互融合交叉,能够更综合全面地而不是孤立地看待知识发现问题。并且三种维度绝不是相互隔绝相互独立的,而是相互影响相辅相成的,共同构造了知识的维度网络。 诚然,上述三种维度仍然没有穷尽知识维度的所有可能,但纵观学术界近年来数字图书馆资源与知识工程领域的研究进展与研究成果,笔者认为组织结构、关联关系、传递扩散这三种维度是当前支撑知识维度网络的三条主要纲索。把握住这三种主要的核心维度展开深入研究,并充分利用维度间的关联关系实现多维度聚合,就能够在数字图书馆知识发研究中起到提纲挈领、纲举目张的作用。 4 数字图书馆知识发现的维度框架构建 4.1 数字图书馆知识发现的维度制约 在以往的研究中,数字图书馆知识组织往往基于某一单一的新兴技术,知识发现的视角也桎梏于某一单一的维度。然而从人类建立起知识概念的那一刻起,知识就与人以及人的活动联系在一起,从那一刻起知识就是鲜活的、具有生命力的。因此,知识维度间的关联必定是多样的,而且几乎是无法穷尽的。事实上,基于图书馆资源的知识发现不但需要从某一学科层面挖掘知识聚合的学科深度,更需要考虑知识内在属性结构的组织维度、知识与人交互的传播扩散维度、知识衍变及其关联的关系维度等。我们必须明确的是,数字图书馆资源组织不是目的只是手段。当人们面对数字图书馆这一主流的知识承载与交流平台时,应该综合各个相关领域的最新成果,从更多的维度考查数字图书馆资源知识发现。多维度的视角必然更广泛地拓展研究的视野,维度越丰富才越可能在聚合的过程中碰撞出火花,进而在聚合的基础上实现针对具体问题与任务的知识发现。 数字图书馆知识发现过程是一个具有较强交互性和反复性的多阶段的处理过程,但目前我们缺乏对知识发现过程的认识。在进行实际的数字图书馆知识发现前首先需要清楚整个知识发现过程中要做什么以及怎样做的问题。 每一种知识表示方式实际上是一种数据结构,关注对数字图书馆资源知识表示方式的研究,就是把这种数据结构关联起来。知识表示方式取决于知识的结构及其机制。随着知识表示方式研究的深入已经提出了多种知识表示方式,常用的几种知识表示方式为产生式表示法、语义网络表示法、框架表示法、谓词表示法、面向对象表示法、基于范例表示法、基于Rough Set表示法、基于本体表示法等。选定知识结构时,应依据具体情况来选定。在实际应用中所采用的知识表示方式同知识组织、知识结构和知识利用方式密切相关。在选择知识表示模式时应从多个方面来进行考虑,应满足以下几个条件:①充分表达领域知识;②有利于运用知识进行推理;③便于知识的维护和管理;④便于理解和实现。[32] 关注对知识发现维度框架的研究,有助于在方法学层面上给出通用性强、易于理解和实施的过程模型,增加人们对知识发现过程的正确认识。数字图书馆知识发现的处理对象可能是应用领域内各种形态的、结构复杂的数据,(如生物医学数据、高速流式数据、地理时空数据等),并且这些数据可能是分布存储的、异构的、含噪声的、非结构化或半结构化的。 数字图书馆知识发现过程中包含或涉及的算法组件或服务非常繁杂。数字图书馆的知识发现系统通常会包含或涉及知识发现中多种技术(如分类、聚类、关联分析)在多个阶段(如数据预处理、挖掘建模、结果评估及展示等)的多种算法,而每一种算法组件或服务又可能具有多个不同的实现版本,它们用于不同类型的数据需要不同的参数设定并且有着不同的性能表现。数字图书馆知识发现系统对领域知识具有依赖性。数字图书馆知识发现外部环境及内部结构的复杂性,决定了数字图书馆知识发现过程中对应用领域的知识及领域内部的相关知识有很强的依赖性。 4.2 数字图书馆知识发现的维度构建 基于数字图书馆知识发现不仅仅是单一学科知识的深度语义挖掘问题,更是多维度聚合基础上的知识广度集成创新问题。同时,知识的多维性也在不断地演化发展,试图穷尽每一个维度及其关系几乎是不现实的。本文提出的维度框架仅仅是将最主要的维度提取出来,以此为主线构建基本框架,即由单一维度线扩展到关联维度面,最后汇聚成立体的维度网络,如图2所示。 图2 基于多维度聚合的数字图书馆资源知识发现理论框架 4.2.1 数字图书馆知识发现基本逻辑——组织结构维度 知识主题内部的组织结构是知识的固有属性,基于领域本体的客观知识内在的组织结构维度是数字图书馆知识发现的基本逻辑。 知识的组织结构维度是知识内部最本质且相对稳定的维度,主要是指特定主题学科领域内科学严谨的知识脉络与结构关系,其中大多数关系往往表现为上下级之间的“父子”关系或同一层级之间的“兄弟”关系,其内部较为严谨的偏序关系使其在总体上依旧沿袭着传统的知识树形结构。因此,这一维度框架下的数字图书馆资源聚合与知识发现也主要针对特定的领域主题或专门的任务需求。当前,领域本体(Domain Ontology)无疑是语义网络环境下从知识的组织结构维度出发对数字图书馆资源进行梳理、组织、聚合、推理的最有效的理论与技术。近年来更是实现了从树形结构向富含语义信息的本体结构的跨越。从现已发布的各领域本体结构来看,相当一批领域本体当中已经出现了知识概念的多重继承,其结构已经超越了传统的属性结构。另一方面,自2005年开始的每年一次的OAEI(Ontology Alignment Evaluation Initiative)国际会议的核心议题正在由面向单一学科领域的本体构建,向跨越学科界限的本体联盟(Ontology Alignment/Aligning)、本体匹配(Ontology Matching)、本体协同(Ontology Interoperability)等方向发展。这一转向标志着学术界在热衷于知识组织结构研究的同时,也开始关注知识间的关联关系,使得领域本体从单一主题向相似主题、关联主题发展,语义信息逐渐丰富的同时概念映射与关联的范围也日趋扩展,跨本体的多本体协同系统的研究也逐渐显露。因此,在组织结构维度框架下,资源聚合与知识发现研究必然要包括以下几个主要内容: (1)高效的语义映射、语义互联、语义推理等语义化技术研究。语义化技术是对数据和信息进行处理,使得机器可以理解的技术。在大数据环境下,数字图书馆资源的语义化更是其聚合与知识发现的前提。借鉴语义标注、语义描述、语义识别等相关研究成果,结合语义技术发展前沿与语义网实践,从丰富语义关系的角度出发,重点研发语义映射、语义互联、语义推理技术。为组织结构维度下的资源聚合与知识发现研究奠定基础。 (2)基于多维度融合的领域本体构建研究。某种程度上讲,领域本体的构建过程就是一种资源聚合的过程,依据领域本体可以实现学科领域内数字图书馆资源聚合以及知识推理。以往的研究由于受制于单一的知识维度,因此构建起来的本体在领域主题内部实现了高内聚,但与其他知识组织体系之间的耦合程度却很低,直接影响了本体复用与知识发现的效果。因此,在本体构建阶段就从多维度聚合的角度出发,综合社会网络中的凝聚子群分析、文献计量中的共现与耦合分析、分众分类中的语义认知分析等,研究构建基于多维度融合的领域本体。 (3)支持数字图书馆资源聚合的跨领域、跨资源的多本体协同系统的构建研究。跨本体的多本体协同系统能够支持跨主题的数字图书馆资源聚合与知识推理,但需要语义映射、语义互联的技术支持。综合形式概念分析、潜在语义分析等理论与方法,创新基于语义的概念相似度计算方法,能够在不同的领域本体之间建立起概念映射关系,从而在保持原本体偏序关系的情况下实现多本体协同,更大范围地实现数字图书馆资源聚合。 (4)基于语义关联的跨本体的知识推理与知识发现研究。多本体协同系统对交叉学科的支持能够促进新知识的产生与发现。单一本体内部的知识推理目前已经取得了一些研究成果,但是跨本体的知识推理则需要进行系统地研究。借助知识概念间的语义关联关系,引入马尔可夫链、结构洞分析、动态规划等理论与方法,通过语义推理探测潜在知识点,在多本体协同系统内实现跨本体的知识推理与知识发现。 4.2.2 数字图书馆知识发现衍生逻辑——传播扩散维度 知识客观属性与人类主观认知的交互反馈是知识活化与生长的迭代过程,基于分众分类法的知识传播扩散维度是数字图书馆资源聚合与知识发现的衍生逻辑。 知识的传递扩散维度是指客观知识与人的主观认知相结合后产生的知识传递与扩散现象。在人类的知识扩散与传递过程中,由于人的主观能动性的介入,知识会发生嬗变与迁移,新知识也会由此产生。因此,在传递扩散维度框架下的数字图书馆资源聚合与知识发现,在哲学上表现为本体论与认识论的统一。目前,能够将客观知识与主观认知进行结合的最具代表性的理论思想当属分众分类法(Folksonomy)。分众分类法(Folksonomy)作为现代开放语义网络环境下一种全新的知识组织与传播模式正迅速蔓延于整个互联网,并且在知识固有结构与用户兴趣间建立了新的纽带。分众分类体系既包括“知识—知识”的聚合(标签分类),也包括“知识—人”的传递(知识检索),以及“人—人”之间的知识交流三个层次。其中,关联标签(Related Tag)的出现与使用,更是使其在语义丰富度与层级性方面大为改观。因此,从目前的发展趋势来看,分众分类法无疑是揭示知识与人相互关系的最有效的工具。分众分类法通过用户对资源的标注行为构建了基于群体认知的知识组织模式,为信息检索、知识聚类提供了便利条件,同时也呈现出客观知识在主观意识世界传递扩散的规律。尽管分众分类法中的“平层型”结构与“自由化”造型也存在语义松散、标签歧义等缺点,但还是凭借其对人类感性认知的贴近,迅速在互联网的各类网站中蔓延开来。特别是近年来领域本体、形式概念分析、社会网络分析等理论与技术的融入,使得分众分类法日臻成熟。同时通过构建用户标签网络,将标签(知识的主观认知)、资源(知识的客观存在)、用户(人类知识行为)三者有机结合起来。借助复杂网络分析等理论与技术,可以获得网络的属性结构及其演化规律,进而通过对相关指标的分析,从客观知识与主观认知相结合的视角探究数字图书馆资源聚合与知识发现的潜在模式。传递扩散维度框架下,数字图书馆资源聚合与知识发现研究主要包括: (1)基于用户标签网络结构的社群知识群落研究。分众分类法中标签、资源、用户三者关系蕴含着错综复杂的客观知识与主观意识之间的关联关系,构建用户标签网络能够将多个维度综合体现。用户标签网络的构建一般包括基于标注资源的标签网络和基于语义关联的标签网络,前者由于简单易行目前为大多数研究者所采用;后者需要充分的语义分析,难度较大,但更适合解释标签背后的知识关联。综合以上两种方法构建用户标签网络,借助复杂网络分析技术,对标签中心性、群聚性加以判识,识别和分析网络中的知识群落。 (2)基于社群知识群落关系的知识传递与扩散研究。用户标签网络中形成的知识群落并非是独立的知识孤岛,知识群落内部的节点之间、群落与群落之间都存在不同程度的远近亲疏关系。群落规模的扩大、相邻群落的合并,以及群落间距离的变化等,都在一定程度上反映出社群中知识的传递与扩散过程。将客观知识与主观意识相结合对知识群落关系展开研究,可以通过群落关系结构、关系演变等指标与现象,揭示出知识在社群中的传递规律与扩散模式。 (3)基于用户标签网络语义连接强弱关系的数字图书馆资源聚合研究。在分众分类法中,用户的自由标注行为本身就形成了一种资源聚合的效果,用户基于个体的认知将不同的资源标注上相同的标签,这些资源就会在检索时自然地被聚合到一起。然而学术界已经发现,用户标签间也存在着相应的语义关联和层级结构,不同标签下的资源可以通过这种层级结构和语义关系实现更大范围的聚合,并能够支持层级检索。同时标签间语义关系的强弱直接决定着资源聚合的形式与聚合的程度,强关系(上位词、下位词、同义词等)下的资源聚合比弱关系(关联词)下的资源聚合在结构上更严谨,在范围上更集中。 (4)基于用户标签网络时序演化的知识嬗变与迁移研究。分众分类法中标签云的生成基于“统计上浮”原理,随着社群中群体意识的转移标签云一直处于动态演变之中。由此导致用户标签网络也在随着时间的延展与用户认知的变化在不断发生演化。通过对时间序列上用户标签网络的同步、涌现、影响等问题的研究,分析知识嬗变与迁移的特征规律,有助于探测潜在的新知识节点、发掘新的学科知识交叉点、追踪新的热点知识。 4.2.3 数字图书馆知识发现扩展逻辑——关联关系维度 知识间的关联与链接是知识交叉、融合、发现与创新的脉络线索,基于社会网络分析(SNA)的知识关联关系维度是数字图书馆知识发现的扩展逻辑。 知识的关联关系维度就是指以社会网络思维分析构造知识图谱,在这一维度框架下的数字图书馆资源聚合与知识发现主要基于知识相互之间的属性关联关系。此前的知识组织研究往往以单一主题知识为主线,把特定知识主题作为个体考查,重点关注主题内部的组成结构。而关联关系维度下的知识关系更多地考虑相关主题知识之间的关联关系而不仅仅是传统的隶属关系,即与主题知识存在关联的相关知识相互影响相互扰动的网络结构,这一点能够弥补领域本体中层级结构知识关系的不足,同时也将数字图书馆资源聚合与知识发现扩展到一个更广阔的复杂系统空间。目前,社会网络分析(SNA)不但在基础理论方法上拥有强大的数理支持,而且在中心性、凝聚性、关联性等诸多方面已经取得了长足的发展,为数字图书馆知识发现研究提供了新的契机,并直接对信息检索与文献计量等传统图书情报学领域产生深远的影响。其中,2模网络还能够把知识与特定对象(作者、用户、文献、Web页面等)进行交叉分析,通过合作、引用、标签标注、转发等人文层面的用户知识行为更好地诠释学术圈、作者群、学术流派等知识群落。更为重要的是,从关联关系的角度出发对资源聚合与知识发现展开研究,可以充分呈现与揭示不同知识维度之间的相互关联,有利于构造多维立体的知识维度网络,且与当前关联数据的研究思想相吻合。关联关系维度框架下,数字图书馆资源聚合与知识发现研究主要包括: (1)基于网络结构中心性的数字图书馆主题资源聚合研究。资源的语义化不仅是对资源特征的语义描述,也是在语义层面上对资源内部知识特征的提取。因此,在关联关系维度下,更适合在兼顾资源特征的同时直接切入到知识层面的研究。依据知识间的关联关系借助图论技术绘制知识关联网络,采用代数方法对知识网络的中心性进行研究。综合利用知识关联网络的点度中心性、中介中心性、紧密中心性等,分析知识聚合的网络属性特征,演化生成知识聚合网络。 (2)知识模块与知识群落的凝聚状况分析与聚合程度研究。在知识聚合网络中,知识间的链接关系得以充分的体现。其中,传统的学科主题知识一般会形成链接紧密的知识团块,但新兴的交叉学科主题也会形成分散但不离散的知识群落。对数字图书馆中知识模块与知识群落的凝聚状况分析与聚合程度进行研究,从中可以识别出传统学科与新兴学科、成熟知识与新生知识、封闭主题与开放主题等一系列模式与特征。 (3)关联知识的连接强度分析与结构洞知识发现研究。学术界的研究业已证明大部分知识网络具有小世界的特征,即大多数知识之间存在不同程度的关联关系。但是对于究竟怎样的关联容易产生或者激发出新的知识目前尚无人问津。研究中借助社会网络分析中最新的“三度影响力”理论成果,帮助研究判识新知识的潜在节点,同时辅助以结构洞分析可以探究交叉学科间新的知识增长点,从而在社会网络维度框架下实现基于多维度聚合的数字图书馆资源的知识发现。 (4)基于网络时序演化的知识代谢与进化研究。知识的传播与扩散是知识研究领域的一个重要主题,也是知识利用、进化的方式与途径。以有向网络考查知识的引用、转载关系以及网络环境下的关注、链接、转发、分享等,一方面可以在时间序列上通过网络演化,跟踪追溯知识的传播路径与进化特征,同时也可以考量人文因素(知识认知)与知识客观属性之间的扰动规律。 5 结语 以往的研究中,资源聚合与知识发现往往分属两不同的研究领域。资源聚合往往是以不同空间位置、不同学科领域的信息资源基于特定目标进行组织整合为目的;而知识发现则一般基于现有的数据集合和数据仓库(一般为几个不同数据库)挖掘潜在的客观知识或模式。本文研究中,充分考虑近年来引起学术界关注的知识关联关系及其研究成果,将原本相互独立的资源聚合与知识发现两类研究纳入一个统一的多维度融合的研究框架,利用聚合所呈现和重构的知识关联,将研究的目标延展到基于数字图书馆资源聚合的知识发现层面。 当前数字图书馆资源聚合与知识发现的途径主要通过组织结构维度下的领域本体来实现,其语义化程度较高但却无法摆脱概念树结构的桎梏。而关联关系维度则能够突破主题领域内部严谨苛刻的层级限制,基于知识间的关联关系将平面树形结构拓展到网络立体空间。传递扩散维度更是将知识的客观属性与人类的主观认知相结合,充分体现了知识与人的交互。以多维度融合的视角考查数字图书馆资源聚合与知识发现,最大程度上弥合了学术界当前存在的分歧,使基于数字图书馆资源聚合的知识发现成为可能,有助于突破数字图书馆资源知识组织研究领域的瓶颈,把数字图书馆资源聚合与知识发现研究推向一个新的高度。 从“知识组织”渐进渐变到“知识发现”给数字图书馆资源开发利用带来新的力量和新的希望。越来越多的知识发现的解决方案带来数字图书馆资源广度和深度聚合发展的新趋势,涌现出许多新的关系模式、新的规则。尽管目前国际学术界对数字图书馆知识发现维度的相关研究尚处于探索阶段,但一些新生的相关领域的最新研究成果已经为我们提供了深入研究的技术支撑与可供借鉴的理论基础。 本文的立意也正是认识到数字图书馆知识关联的多样性与多维性,进而力图从更多、更广泛、更综合的维度活化知识、发现知识。多维度的视角必然更广泛地拓展研究的视野,维度越丰富才越可能在知识组织与序化的过程中碰撞出火花,进而在此基础上实现针对具体问题与任务的知识发现。
标签:数字图书馆论文; 关联关系论文; 语义分析论文; 关联分析论文; 相关性分析论文; 多维数据库论文; 聚合数据论文; 用户研究论文; 用户分析论文; 空间维度论文; 维度理论论文; 文献回顾论文;
语义Web环境下数字图书馆知识发现的维度框架研究_数字图书馆论文
下载Doc文档