个性化语义桌面信息组织研究,本文主要内容关键词为:语义论文,桌面论文,组织论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
最近几年,不仅Web上的信息资源惊人地增长,个人计算机上的信息也大量增加。在一台普通的个人计算机中可能存储着数以千计的文件,包括大量的文档、书签、E-mail、图片、音乐、日程安排、通讯录等,这些文件不论是内容、类型、大小还是功能都不相同,这给个人管理这些信息资源带来很大不便。为此,一种全新的个人信息管理(Personal Information Management,PIM)技术——语义桌面(Semantic Desktop)应运而生。通过这种技术,用户可以标记自己计算机中的任何资源,找到资源之间的内在关系,并对这些资源进行语义级的管理和使用。本文主要从信息组织的角度构建了语义桌面的概念体系结构并详细阐述了其关键组成部分的信息组织问题。
1 语义桌面基本知识
“语义桌面”这个概念是由Stefan Decker在2003年首次提出:语义桌面是一个能够独立存储各种数字信息的设备。所存储的信息都由语义Web资源来解释,被URI(Uniform Resource Identifiers,统一资源标识符)标注,所有这些信息都可以通过RDF(Resource Description Framework,资源描述框架)图来检索或访问;该设备可用于存储或创建Web中的各种资源,并与其他用户的资源实现共享。
在语义桌面中,通过使用本体,用户可以处理个人的元数据模型,并与其他系统之间建立语义信息链接。同时,应用程序通过本体和语义Web协议来实现信息存取和语义级的通讯,因此可以把语义桌面看作是用户内存的扩充。
2 个性化语义桌面概念体系结构
图1 语义桌面概念体系结构图
在图1中,我们给出了个性化语义桌面的概念体系结构,它是Gnowsis体系结构①②的一个改进版本。此结构最大特点是可扩展性、集成性和个性化。整个语义桌面系统建立在数据和信息的基础之上,信息存储在数据库或RDF知识库中,而整个信息存储的过程对于用户是透明的。从图中我们可以看到,语义桌面可以被划分为三大部分。基础部分是各种信息项和本体,我们也可以称之为信息集成层。信息项和本体被存储在语义存储系统中,对于用户来说是不可见的;中间的连接部分是语义Web协议和服务器,可以用于访问下层的语义服务,同时对上层的各种语义桌面应用程序提供服务,起到协调信息集成层和应用层的作用;最上边是由多个应用程序组成的可视部分,它们依赖于后台,也可以用来访问后台语义存储系统中的信息。③
3 个性化语义桌面信息组织研究
针对图1给出的语义桌面概念体系结构图,本节探讨一下该模型的信息组织问题。
3.1 信息集成
信息资源层保存大量的结构化、半结构化和非结构化信息。信息集成层是整个系统的基础,一致性、完整性、避免冗余、多用户并发访问、安全性以及性能和可量测性对于该层都十分重要。常规的方法是把不同的信息资源输入公共数据模型,如RDF。另外,本体在这里作为输入的异构信息资源的语义模型。集成模块用于调节不同信息资源的改变的语义,这样使集成任务的复杂性大大降低。④本体文件的存储方式有两种:存储在本体库中或知识仓库中。无论以哪种方式存储,在进行查询和相关操作之前,都必须将全部的本体内容读进保存在内存中的模型里。
3.2 心智模型
根据研究,我们发现存储于个人计算机上的所有有效文档都与用户的个人背景之间存在着某种关联关系。这种个人背景可能是用户的国籍、职业,或者是兴趣爱好。此外,文档还提取了我们生活中的各种概念:人员、地点、设备、项目等等。虽然这些概念具有很强的主观性,但我们还是可以找到一些方法,如形式化表达手段OWL(Ontology Web Language,本体Web语言)本体来表示它们,并对它们进行分类管理。我们可以将文档分类,既可以用手工的方式将文档与某个心智模型联系起来,然后决定如何将文档分类,也可以使用一些文本自动分类引擎。无论使用什么方法,都肯定会存在一个心智模型与形式化本体的交互过程:心智模型找到一个与之匹配的形式化的个性化的本体。
下面我们以语义桌面的一般特点和标准来构建用户的心智模型:
3.2.1 用户表达
语义桌面应能使用户表达他们个人的观念,允许用户以直觉的方式产生真实世界的概念。用户趋向于根据他们个人的感觉分类他们的信息,因此应避免任何限制分类的特性,这些将支持用户的信息过滤行为。
3.2.2 减少认知过载
语义桌面意味着能减少信息的认知过载。无论我们创建一个新的分类或者扩展一个旧的目录,我们忘记在哪找以前放置的信息是危险的。这里特别强调越是较少处理入侵信息(例如电子邮件、新闻等)的系统,就越是增加了个人处理每一个即将到来的信息的负担。
3.2.3 用户上下文的普遍关联
我们知道人的大脑通过关联进行运转。语义桌面应能提供给用户必需的、首先需要保持的上下文,上下文中体现一个用户当前的情况和移到其他相关上下文的可能的踪迹。例如,用户读了一篇论文也许想知道作者的主页,其他的合作者,以及相关的出版信息。
3.2.4 提高心智模型的准确性
心智模型的准确性与系统的可用性是成比例的。一方面带有心智模型的使用者为了特定任务使用系统,另一方面有一个计算机系统,这个系统跟随用户行为,知道用户的偏爱和目的。语义桌面的任务是映射心智模型与用户模型以使人们更有效地使用系统。这意味着如果设计者创造正确的设计模型并且成功地通过系统映象进行通讯,使用者同系统相互作用将发展适当的用户模型,此模型将允许他们与系统成功地相互作用。
3.2.5 个性化
语义桌面系统的个性化将增强用户的满意度和使用效率。每个人都有他自己的现实世界概念的心智表达。用户更喜欢通过他们的兴趣、动机和专业技术进行个性化定制。通过给用户自由去个性化定制他们的概念将支持记忆和精通。这将鼓励用户以直觉的方式使用语义桌面。
语义桌面意味着简单化现实。他们希望设计时考虑人的因素,但设计系统时方法学存在的真实困难将帮助用户创造更好的心智模型。⑤
3.3 用户上下文
当我们向计算机中输入某个信息的时候,该信息通常处于一个特定的上下文中,包括用户个人的和公共的背景。资源的上下文是语义桌面的一个关键特征,语义桌面将提供一个环境,让用户描述某些信息,并自动将这些信息与个人概念本体和公共本体联系起来。目前,描述和使用上下文所面临的最大难题在于:如何为个人定义一个上下文模型本体。有文⑥介绍了一个主动的、上下文感知的辅助系统,该系统可以在用户搜索、阅读、创建和保存文档的时候帮助用户管理知识。在该系统中,上下文的收集工作由插件完成,这些插件可以安装在标准的应用程序中。此外,还有很多的研究项目致力于描述和获取上下文信息。我们希望将来能够建立一个公共的标准本体,以统一的方式描述上下文信息,这样就可以将不同的语义桌面系统结合起来,进而形成社会化语义桌面(Social Semantic Desktop)系统。
3.4 微观语义信息组织
这部分详细阐述一下个人信息资源的语义组织,包括语义标注,语义关联和语义表达,如图2所示。
图2 微观语义信息组织
3.4.1 语义标注
个人信息空间的数据是基本的信息,在图2给出的结构中,所有其他数据组成部分是这些基本信息之上的真正层级信息。层级信息最主要的作用是提供基本信息的语义标注以加强有力和正确的数据访问。
(1)文件描述:这对提供给检索者非文本文件的详细描述特别重要,就是说对于文本文件,考虑这样的元数据将提高全文检索效率。
(2)领域本体:给定的一个文件被确定为资源,我们就能用领域本体通过和这个本体相关联的概念来标注这个文件。领域本体提供的不仅是理解数据的上下文,而且提供精确数据检索的语义线索。
3.4.2 语义关联
语义关联用于相关的所有数据(基本信息)和元数据(层级信息)。有两种级别的关联:(1)资源—文件关联实际上是资源—文件索引;(2)资源—资源关联是领域本体的实例并且存储在RDF知识库里。
额外的本体资源用于识别文件,一个文件也许包含和涉及一些资源。因此,资源—文件关联是以下之一:识别,包含和参考。
建立资源—文件关联的过程是从文件描述和(或)文件内容识别资源,然后映射他们成本体概念。用户决定从一个文件及它的描述中抽取资源的程度。
(1)关键字抽取:在一个文件中,关键字可以辞典为基础被抽取,每个关键字可被认为是保存在文件中的资源。在领域本体里资源和概念的匹配通过像WordNet那样的辞典指导进行。
(2)超链接分析:为包含超链接的文本文件分类资源,我们为每个超链接创建一个参考类型资源—文件关联,同时在参考资源和被参考资源之间创建资源—资源关联。
(3)自然语言处理:我们可以应用知识技术解析文本的每一个句子,或者通过文本概要的方式得到它的摘要。每一个结果是一个三元组<主题,谓词,对象>,在领域本体里我们尽力把它和〈s,p,o〉模式匹配,在此p是概念s的特性并且有一个o类型的值。如果此模式存在,类型特性的资源—资源关联和〈主题,谓词,对象〉形式就被创建。
(4)历史:框架随着这样的分类和认知而发展,越来越多的关于这一过程的知识通过一个新的过程被收集和重用。
(5)资源—资源关联:我们借用面向对象设计技术阐述目标间关系的四种类型:实例,特性,聚合,概括。在框架中这四种关系被采用来描述概念和资源中的关联。通过应用以前描述的技术,我们能发现个人信息资源里暗含的资源和资源间的关联,接着分类它们到领域本体,然后组装本体。
3.4.3 语义表示
在图2给出的框架中,所有信息,包括文件描述,知识库中的资源,资源—文件索引等都可以看做Web资源,都可以用W3C(World Wide Web Consortium)推荐的标准资源描述框架来描述。⑦
3.5 语义导航
基于Ontology的语义导航试图改善目前导航中存在的语义割裂等问题,增强导航的语义性。基于这一目标,我们试着构建了一个基于Ontology的语义导航模型,该模型的基本框架如图3所示。该模型表示,进入用户界面后,用户以一定的词汇描述信息搜寻目标,在Ontology的映射下,这些词汇被规范成用户的语义模型。系统用该语义模型中的概念与关联和本体约束的信息源概念与关联进行链的选择,把相关链接呈送给用户,用户根据链接获取相应的节点信息。该模型的实现机理如下:(1)构建Ontology,为所有信息资源提供统一的概念集合和通用语义;(2)根据已有Ontology对信息资源进行语义标注、分类、聚类,并建立索引库;(3)根据Ontology的语义标注和规范,构建用户语义模型;(4)根据一定的算法,选择适合用户语义模型的链;(5)根据链获取相应节点信息。⑧
图3 基于Ontology的语义导航模型
注释:
①Sauermann L.The gnowsis-using semantic web technologies to build a semantic desktop.Technical University of Vienna,2003
②Leo Sauermann,Ansgar Bernardi,Andreas Dengel.Overview and Outlook on the Semantic Desktop.http://www.ischool.utexas.edu/~i385t-sw/readings/Sauermann-2005-Semantic_Desktop.pdf,2008-04-18:14-15
③李胜,胡和平,卢正鼎.语义桌面——个人计算机技术的未来发展方向.计算机科学,2007,34(5):2
④Nenad Stojanovic,Alexander Maedche,Steffen Staab,Rudi Studer,Youk Sure.SEAL——A Framework for Developing SEmantic PortALs.http://www.aifb.uni-karlsruhe.de/WBS/Publ/2001/sealkcap2.pdf,2008-04-20:2
⑤Danish Nadeem,Leo Sauermann.From Philosophy and Mental-Models to Semantic Desktop Research:Theoretical Overview.http://www.dfki.uni-kl.de/~sauermann/papers/nadeem+2007a.pdf,2008-04-28:7-8
⑥Schwarz S.A context model for personal knowledge management.In:Proc.of the IJCAII' 05 Workshop on Modeling and Retrieval of Context,Edinburgh,2005
⑦Huiyong Xiao,Isabel F.CruzA.Multi-Ontology Approach for Personal Information Management.http://www.cs.uic.edu/~advis/publications/dataint/sdk05.pdf,2008-05-08:6-8
⑧金燕,李敏,张玉峰.基于Ontology的语义导航研究.现代图书情报技术,2005(5):38-39