面向语义的网络信息资源整合的指示数据库案例研究①,本文主要内容关键词为:语义论文,资源整合论文,指示论文,案例论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着网络信息资源的不断膨胀,网络信息用户获取有效信息的途径和手段已显贫乏。如何有效地进行信息资源的整合,以更好地面向用户提供与其自身认知空间相匹配、有实际意义的个性化信息。这已成为相关信息资源管理工作者所探究的热点问题。
1 网络信息资源的现状
近年来,因特网的迅速普及促进了网络信息资源数量的飞速增长,网络信息资源在激增过程中也凸现出了如下的“数量有余、质量不足”的特征。[1]
(1)信息量大、传播范围广:信息来源极为广泛,几乎包含所有类型的信息资源,这是网络信息资源的最突出特点。
(2)增长迅速、不断更新:传统文献信息以年、月的速度增长,网络信息却以每时每刻的变化不断增减,不断发生着动态变化。
(3)内容分散、组织松散:从网络产生至今,一直没有较统一的组织进行管理,造成信息内容庞杂、分散、结构松散、质量不一,鱼龙混杂。
(4)无法体现良好的语义特性:由于网络信息资源建设中的以发布信息为己任的定位,使得用户在使用网络信息资源时难以满足面向内容本质的信息获取。因此,网络信息资源亟待面向语义地进行深度整合,以形成网络信息资源的“群岛”优势。
2 网络环境下用户的信息需求
网络环境下用户的信息需求逐渐牵引着信息资源组织结构的变化,它具有良好的导向性。情报学等相关研究正在从信息检索系统的设计和开发,转移到强调信息消费主体的知识结构、信息行为、人机交互和信息查询等方面,其实质是从信息系统转向用户的变化,走向了以用户为导向的人的认知结构的研究[2]。
在这种情况下,强调理解人在信息查询和使用情境中的信息组织与处理方式的知识结构的变化成为必须关注的重点。所以相应研究重点和视角应从物理层次的信息转向认识层次的知识,用认知的观点指导信息组织的研究,研究人们如何思考以及模仿思考的规律,才能使信息组织研究沿着良好的方向发展,才能为信息组织理论的整体性研究奠定坚实的基础。
此外,用户利用网络信息资源的目的是明确的,他们需要的信息是有序的,并且常常针对某一个或几个专题。这种信息需求的集中性、有序性、目的性和网络信息资源的分散性、无序性之间有着难以调和的矛盾,而网络信息用户的差异性又使得这种矛盾更为突出。因此,只有对网络信息资源进行有针对性的组织,才能使其有序化并方便查询,使网络信息用户真正有效地利用网络信息资源。因此,网络环境下用户的信息需求主要表现为“面向认知结构”和“面向语义”[3]。
3 面向语义的网络信息资源整合的“概念体系”(ontology)方法
针对网络信息资源分布的分散性、无序性与网络用户信息需求的有序性和针对性之间的矛盾,目前行之有效的方法乃为在现有信息资源的基础上,对其进行面向用户的深度整合。这样,既可将大量分散的信息按照某种逻辑结构系统化,又可以使用户省力地获得相应的信息资源。就目前信息资源整合的理念和方法而言,“概念体系”(ontology)的方法颇具代表性[4]。
概念体系(ontology)通过一个语言定义和标记后成为显性知识,可用于信息系统中表征和交换知识,并可被知识代理(agents)自动解析和识别。Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,在知识的表示、信息的组织等方面对语义Web的研究意义重大。Ontology具有的良好的概念层次结构和对逻辑推理的支持,它与XML(可扩展式标识语言)和RDF(资源描述框架)一起作为网络信息资源组织的技术基础,共同解决语义层次上的网络信息共享和交换。图1描述了基于概念体系(ontology)的语义信息表示基础[5]。
图1 基于本体的语义信息表示的基础
根据图1的表示,我们可以看到一个整体“概念体系”是由领域内的认识论的建模支持、一阶逻辑的形式化语义和推理支持,以及由XML和RDF的语法和工具支持共同形成。
作者从图书情报学的角度理解ontology这一概念,认为ontology可以译为概念体系,定义基本词汇及关系,组成主题领域的词汇表以及将它们结合在一起的规则体系。它包括:对象(object)、属性(property)和关联(relation)。对象代表概念或者某领域中的实体;属性是揭示反映对象的特性或值,或者是对对象的某种限定;关联代表了实体对象之间存在的关系、联系,包括概念定义(is-a)、等同/同义关系(equivalence/synonym)、层级关系(hierarchy)、相关关系(related-to)等。这些关联将概念体系(ontology)有机地连接成为一个具有语义的整体。因此,这种解读既体现出其“概念化的具体规定”的本质[6],又与图书情报领域中的传统的叙词方法在机理上有效地结合起来了[7]。
4 指示“信息源”的指示数据库及其作用
所谓指示数据库,是指所建立的数据库中,从物理上讲并不存储实际的信息资源,但对其进行访问却可以检索到有关数据库的实际资源,即指引用户到特定的地址获取所需信息。这样,就可以把Internet上与某一主题相关的结点进行集中,按照方便用户检索的原则,用熟悉的语言组织起来,向用户提供这些资源的分布情况,指引用户的信息查询行为。指示数据库的作用、特点如下[1]:
(1)指示数据库可以说是网络环境下的信息分布的指引中心,联合国教科文组织出版的《指引中心导论》对指引中心的定义是:不仅为用户提供其需求的情报源,还要负责辨别和确认信息源,同时也提供与其共同工作的信息网中的其他服务项目。
(2)指示数据库给用户提供了一个很好的查询机制,既可以快速地找到专业领域的二次信息,还可以进一步查询一次信息;检索效率很好,“查准率”也比较高,一般不会出现与主题毫不相干的信息。
由于指示数据库上述“指示信息源”的独特功能,在纷纭复杂的网络信息资源组织中,它的重要性显然已不言自明了。
5 面向语义的“理论情报学”指示数据库的案例研究
5.1 资料搜集
为了突出构造概念体系所要求的领域专家的要求,在实验中选取了“理论情报学”这一概念建立情报学领域及其相关的局部概念体系(ontology)。
在选定目标概念以后,分别采用几个发展较为成熟的搜索引擎以“理论情报学”检索得到了相对较为全面的“理论情报学”相关信息,详见表1。
表1 “理论情报学”检索情况统计表
搜索引擎
检索条目数 显示条目数
百度 31 14
Google中文 32 22
Yahoo中文
20 16
天网 10 10
搜狐 1
1
5.2 资料整理
通过对检索结果汇总,去掉重复连接、无效连接、无关连接等共得到15条有效信息。再经过对这些信息进行语义分析,从中提取出有意义的情报学概念和词汇形成有关“理论情报学”的概念体系(ontology)。
结果将这些词汇分为两类:概念(有方框)和概念的属性(无方框),图2中括号内为该概念的同义词或别称。由于现有的网络检索工具对专业领域的信息检索效果相对较差,所以本文根据专业相关的内容进一步选取概念词汇继续检索,以充实该概念体系。
图2 “理论情报学”的概念体系
在图2中,该概念体系的每一个概念均可进一步充实,例如,本文选取“理论情报学人物”这一分支进行充实。在理论情报学中,其思想流派占有一席之地的代表性人物有布鲁克斯、兰喀斯特、米哈依洛夫、约维茨等。将这些人物作为检索点从前述搜索引擎中再次检索。得到14条有效检索结果,从中抽取出概念及概念的属性将概念体系图充实如图2。
依概念体系的本质,它应经过不断充实和改进,进而覆盖本专业领域的各个知识点。而根据概念体系结构组织信息,制作本专业领域的指示数据库作为二次检索工具将大大提高信息查找的准确率。以下本文拟将实验得到的检索结果以及从中提取出来的词汇存入数据库当中,实验性地在概念体系(ontology)思想的指导下建立指示数据库。
5.3 建立数据库
本文之所以选取Microsoft SQL Server存储以上信息,主要考虑了其海量存储功能和灵活的查询语句以及Microsoft家族产品良好的兼容性。
新建数据库“yw”如图3所示。
图3 新建数据库示意图
打开数据库yw,在数据库yw中建立表“netinfo”存放与“理论情报学”相关的29条信息,如图4所示。图中id可以唯一标识信息条目。将信息名称和提取出的关键词分别存放于title和keywords字段。keywords字段的内容将在检索过程中与检索词相匹配。
图4 表netinfo示意图
在数据库yw中建立表“concept”存放上文概念体系图中的概念及其同义词。按照概念体系(Ontology)理论,在存放概念的同时也要将概念之间的等级从属关系存入表中,如图5所示。cname字段存放概念,byname字段存放概念的同义词,father_id字段存放的是此概念上一级概念的id。father_id字段体现了概念之间的等级从属关系。
图5 表concetp示意图
将概念体系中的概念及其属性分开存放有利于系统的可修改和扩容性。所以本文将概念和属性分别存放在“concept”和“property”两个表中。在数据库yw中建立表“property”存放概念的属性,如图6所示。pro_name字段存放属性的名称,c_id存放的是此属性所描述的概念在表concept中的id,而father_pro_id存放的是此属性的上一级属性在表property中的id。
图6 表property示意图
接下来,在数据库yw中建立表“Info_Link_Concept”存放概念与信息的对应关系。只有将概念与其相关信息联系起来,在检索的时候才能检索到这些信息。将前述建立的3个表中唯一标识条目内容的id按照概念体系图中的关系分别对应存放于info_id、con_id和pro_id 3个字段中(图7)。
图7 表info_Link_Concept示意图
最后在数据库yw中建立表“iptable”存放信息的IP链接地址,并将其与信息名称对应起来。如图8所示,ipadr字段存放ip连接地址,info_id字段存放与其对应的信息名称。
图8 表iptable示意图
5.4 数据检索
以上5个表组成了实验用数据库“yw”,下面要做的就是使用sql查询语句用上述概念体系图中的概念作为检索词,对数据库中的信息进行检索。
具体查询文件如图9所示。
图9 查询文件示意图
运行查询文件结果显示如图10所示。
图10 查询结果示意图
输入检索词“理论情报学”检索出19条相关信息以及每条信息的若干连接地址,同时显示出检索词的上位概念“情报学学科体系”;同位概念“普通情报学”、“应用情报学”、“理论情报学”、“技术情报学”以及它们的同义词;下位概念“情报学学科建设”、“信息构建”、“情报学原理”、“情报学发展趋势”等;检索词的属性“理论情报学教学计划”、“理论情报学专业介绍”、“理论情报学机构”、“理论情报学人物”等,以及“理论情报学人物”的子属性“布鲁克斯”、“兰卡斯特”、“米哈依洛夫”、“约维茨”等情报学家和他们的主要学术思想。
由于在存放这些概念的时候是在概念体系的指导下,不仅将概念词汇存放于数据库中,并且存放了能够反映专业知识结构的概念之间的等级从属关系。因此一次检索行为,便得到有关“理论情报学”相关知识结构。用户在指示数据库中检索“理论情报学”这个概念的时候可以检索到理论情报学代表人物的主要学术思想,从而进一步充实了检索结果,满足了用户面向内容的查询需求。
实验中,用户可以根据检索结果提供的相关概念体系的知识点继续查询感兴趣的信息,这样就使得用户的检索行为更有针对性。在此数据库中,如果用户输入的检索词并不是标准的概念,可能是概念的同义词或者等同词汇,那么由数据库中的同义词字段(相当于入口词的控制词表)也可以指向相关的概念,从而使用户得到更为相关的检索结果。
该实验检索结果与使用前述搜索引擎的检索结果相比更加简洁和准确。结果表明使用概念体系(ontology)指导信息组织可以很大程度上提高用户检索到有效信息的比率,从而给用户的信息查询带来了“最小省力”的效果。
6 结果总结
(1)实验中数据库设计成将概念、属性和关联分别存储于不同的表中,使之在物理上保持了相互独立。现实中互联网信息发展变化非常迅速,这种存储结构有利于数据库信息的维护,只需改动局部信息,不会对整个知识结构造成大的修改,概念体系也就相对稳定。在存储过程中,将信息按照这种数据结构存放自然而然就形成了此领域概念体系结构的知识网络。
(2)所输入的检索词,既可以是概念或者概念的同义词,也可以是概念的属性,则可以显示出与检索词相关的检索结果,同时系统可以显示出此检索词的规范概念、上位概念、同位概念、下位概念、该检索词的相关属性及其检索结果的若干链接地址。用户可以通过检索到的相关信息的地址进一步查看网络信息资源。使用这样的数据库,用户不仅能够快速准确地找到所需信息,还可以对相关知识网络有更深入全面的了解,使自己已有的知识结构不断地得到充实和完善。
(3)诚然,建立大规模指示数据库需要比该实验更加完善的解决方案。不仅需要后台数据库的支持,还需要有良好的用户网络界面和调用数据库中信息的中间件技术。此外还要根据不同专业领域中知识存在的特点来具体设计实现。
(4)在上述实验中对于数据库中网页信息的标引完全由专业工作人员进行手工标引,在实际操作中可以引进半自动化或者自动化文献标引系统来完成这一大量繁重的工作,提高系统的工作效率。但是领域“概念体系”的建立则要在专家的指导和参与下进行。
(5)由上述实验可以看出,利用现有技术建立专业领域的指示数据库作为二次检索工具具有良好的语义信息服务的前景。由专业机构对网络文献信息稍加整理,建立起各个学科领域的面向语义的指示数据库,可以使信息查询行为得到很大改善,用户无需再受到大量冗余信息的困扰。面向语义的网络信息资源整合的指示数据库可以大大降低信息用户检索行为的成本。
注释:
①本文系天津市哲学社会科学2005年度规划课题“面向就业能力的图书情报专业教育模式研究”系列成果之一(TJ05TQ005)。