普适网络中信息组织的比较与模型构建研究_搜索引擎论文

泛在网络中信息组织方式的比较与模型构建研究,本文主要内容关键词为:模型论文,组织论文,方式论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      科学技术的飞速发展使得泛在网络成为继互联网之后的又一大网络体系,它将信息对象延伸至物,扩展了人们对世界的感知范围。但在提供更加丰富的信息同时,也增加了信息组织工作的难度。为了更有效地组织信息,需要比较分析泛在网络中的各种信息组织方式,有的放矢地进行信息组织工作。本文选择有代表性的几个泛在网络信息组织方式进行分析比较,并在此基础上构建了泛在网络中的信息组织模型,旨在为信息组织工作提供一定的参考。

      1 国内外研究现状综述

      近几年,国内对泛在网络的研究主要集中在泛在网络技术及存在问题的研究、信息服务研究、知识共享研究和信息资源的研究。(1)对泛在网络技术及存在问题的研究。如马满仓[1]介绍了泛在网络涉及的三大体系即智能终端系统、基础网络技术和应用技术,并分析了泛在网络在互联互通、安全、资源等方面存在的问题。(2)对泛在网络环境下各领域信息服务的研究。如邵艳丽[2]提出在泛在网络环境下公共信息服务的用户需求发生了变化,反映在信息服务的深层社会化、信息种类和传播渠道的多样性、信息服务过程的动态性和可见性、信息服务产品的高质量要求,同时提出了泛在网络环境下新型的公共信息服务方式。(3)对泛在网络环境下知识共享的研究。曾群[3]给出了知识共享平台资源建设的方法措施,以期实现在泛在网络技术支持下知识共享平台信息资源的共建共享并最终实现信息资源建设的可持续发展。(4)对泛在网络环境下信息资源的研究。王娜[4]提出了泛在网络中信息资源的层次结构模型并在此基础上构建了信息资源价值增值机理图,指出应该通过构建智能化的信息共享平台、制定统一的信息描述标准和应用集成的知识组织系统来推进泛在网络中信息资源价值的增值。

      国外研究主要集中在基于泛在网络环境中技术的研究、泛在网络中信息资源分配的研究和泛在网络应用研究。(1)基于泛在网络环境中技术的研究。如Ren-Junn Hwang等人[5]提出了一种大整数乘法的理想化方法,此方法能够在智能低端设备中实现安全协议时将点对点技术的泛在网络寿命最大化。(2)对泛在网络中信息资源分配的研究。如C Zhang等人[6]指出资源分配是泛在网络中的重要问题,现有的资源分配方法不适合泛在网络环境,提出了经改进后的分支切割算法来解决资源分配问题。(3)对泛在网络应用研究。如Nusrat Ahmed Surobhi等人[7]提出利用泛在网络实现基于语义的交通监测能够有效解决交通拥堵等问题。

      国内对信息组织的研究主要集中在信息组织模式研究、各领域信息组织方法的研究和从微观上对各种信息组织方式应用的研究。(1)对信息组织模式的研究。如胡阿沛[8]以人人网站为例,分析其信息组织状况和优点,并着重分析了信息组织存在的不足,给出了改进人人网信息组织的建议,如设置类目导航、为类名添加注释等。(2)各领域信息组织方法的研究。如李芳等人[9]用信息组织的方法来规范设计元数据框架,通过分类法、主题法和主题图技术来构建传记资源的关联关系。(3)从微观上对各种信息组织方式应用的研究。如邢文明等人[10]指出大众分类法在图书馆信息组织中具有广泛应用的同时仍然存在语义表述模糊、用户添加随意等诸多问题,并提出要提高馆员素质、加强用户信息素养教育、提升大众分类法的组织性能、创建基于传统组织方式的大众分类法等多种优化策略。

      国外对信息组织的研究主要集中在信息组织发展趋势研究、用户参与的信息组织方法研究和个人信息组织研究。(1)对信息组织发展趋势的研究。如Jane Cho[11]研究了日本和韩国近两年对信息组织的研究,发现日本对信息组织的研究以编目和分类为中心,韩国对信息组织的研究以分类为中心。(2)对用户参与的信息组织方法的研究。如Ya-Ning Chen等人[12]对标注行为及其模式进行研究,提出了一组混合的标签类别用以阐明现有社会标签的分布和标注行为表现。(3)对个人信息组织的研究。如Dong Xin Luna等人[13]设计了一个个人信息语义组织系统,用户可以跨工具利用语义关联搜索和管理个人信息。

      从目前学术界的研究可以看出,虽然对泛在网络和信息组织的研究均较为广泛和深入,但针对泛在网络中信息组织的研究较为鲜见。基于此,本文认为有必要分析比较泛在网环境下的信息组织方式,并构建适应于泛在网络的信息组织模型,以丰富信息组织的研究体系,为泛在网络中信息组织方式的选择提供一定的借鉴。

      2 泛在网络中信息的种类与特征

      2.1 泛在网络中信息的种类

      泛在网络中的信息按照交互方式可划分为人—人、物—人、物—物三种类型。泛在网络扩展了信息通信的沟通维度,从人与人之间的沟通连接扩展到物与人、物与物之间的沟通连接。

      2.1.1 人—人交互的信息

      泛在网络继承了互联网的特点,能够实现人与人之间泛在化的信息通信,即任何时间任何地点任何人之间的沟通连接。最普遍的人—人交互信息可通过计算机、手机等电子产品实现产生、传递、交流、获取与利用。

      2.1.2 物—人交互的信息

      通信终端通过传感器延伸到各种物体,信息通信以无处不在的GPS、PFID、二维码、摄像头、传感器、传感器网络等感知、捕获、测量的技术手段为基础,随时随地对物体进行信息采集和获取并传递给人。同时人也能通过各种控制技术实现对物体的控制,例如利用脑电波探测器、脑机接口软件和遥控器实现用人的“意念”控制物体移动,通过脑电波探测器将脑部产生的微弱生物电脉中转换成信号发送给遥控器,遥控器里的微控制器再将其处理为命令发给物体,从而实现物人之间的互联。

      2.1.3 物—物交互的信息

      在泛在网络中,可通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备实现对物理世界的信息采集,利用射频自动识别技术,在射频识别标签中存储规范且具有互用性的信息,并通过各种无线/有线的长距离/短距离通讯网络把信息汇集到中央信息系统,实现对普通物理对象的自动识别和信息的互联与共享。如今物与物之间的沟通连接较为普遍,例如汽车进入很多区域是通过蓝牙、红外等技术将汽车的相关信息传递给中控系统,中控系统再控制升降杆的起落;全球眼监控探头通过图像敏感度智能分析实现探头之间、探头与报警系统之间的联动,从而构建和谐安全的城市生活环境。

      2.2 泛在网络中信息的特征

      2.2.1 具有更高的实时性

      泛在网络利用多种承接方式和多种接入方式使多个网络融合在一起实现无缝接入,按照一定的频率周期性利用各种数字化采集设备,如传感器、GPS设备、RFID标签及识别设备、信息爬虫、无线手持设备等自动采集实时信息并通过泛在网络将信息快速实时传递,以供任何人或物在任何地方通过泛在网络获取所需的任何信息,从而保证泛在网络中的信息具有比互联网更高的实时性。

      2.2.2 非结构化信息持续飞速增长

      泛在网络由于具有多种信息交互方式扩展了信息传递的渠道,这不仅使得信息的增量较互联网而言大大提升,而且使得数据类型变得越来越丰富,其中视频、音频、链接等非结构化信息的数量有明显增加。当前各国仍在深入研究物体传送信息的手段,不断拓展感知世界的途径,使非结构化信息呈现出持续增长的态势。

      2.2.3 来源与覆盖面更加广泛

      泛在网络中的信息通信超越了人与人,延伸到物与人、物与物之间,信息通信的对象包括任何事物,无论是人、各种各样的电子设备还是通过传感器能够被感知的现实世界的各种物体[14]。泛在网通过对物理世界更透彻的感知及各种有线接入、移动接入、宽带网、个人网、虚拟网络,构建了一个无处不在的通信环境,将各事物互联和管理并作为全球连接的信息终端,从而扩展了信息的来源及覆盖面。

      2.2.4 纵向延伸更加深入

      泛在网络中采用分布式处理技术,能够从不同角度、不同时间、不同地点获取事物的各种信息,并能够对这些经过感知层和网络层送达的数据进行智能的分析和处理[15],从而使信息能够更加深入地反映事物的内在本质。

      2.2.5 满足用户个性化需求

      泛在网络具有超强的环境感知能力、内容感知能力和智能性,具备智能分析和处理能力,其利用移动无线通信技术、ASDL/光纤等固定宽带接入技术以及包括传感器网络和射频标签技术在内的近距离通信技术等网络技术按需进行信息的获取、传递、存储、认知、决策、使用等[16],从而可以加工和处理出具有不同应用导向的数据,以适应不同用户的不同需求。

      3 泛在网络中主要信息组织方式的比较分析

      3.1 泛在网络中主要信息组织方式的应用分析

      3.1.1 元数据方法

      元数据是描述原始数据的独立数据,即数据之数据。在泛在网络环境下人与人沟通的维度中,元数据应用领域较为广泛,包括数字图书馆、档案馆、政府部门、出版发行、教育领域等。其中数字图书馆最具代表性,元数据主要用于对数字图书馆馆藏信息和网上数字资源的著录与标引,以方便用户检索信息及馆间信息的传递与互联。为了顺应技术发展,能够在未来的泛在网络中进行有效的信息组织,国际标准化组织和世界各国一直在不断革新原有的元数据标准,如DC元数据从20世纪90年代诞生以来就在不断完善发展,从最早的13个核心元素发展到了现在的55个元素。从国内情况来看,针对不同类型的信息资源,各研究机构已出台了多种元数据标准,部分具有代表性的如表1所示。正是由于各个图书馆都制定了自己的元数据标准,出现了同一资源类型在不同数字图书馆按不同的元数据标准进行组织的问题,导致大量人财物资源的浪费和不便于资源流通、交换及兼容的问题。

      在人与物以及物与物沟通的维度中,目前还没有研制开发出专门用于物体沟通的元数据。本文认为可以根据物体的特点将现存标准元数据方案修改、扩充用于描述物体信息,即在描述物体本身情况的元素外增加描述物体的位置、状态等相关情况的元素,从而实现信息的有效组织。此外,本文认为通过泛在网络技术能够将设在泛在网络中心的元数据库实时地连接各个发送数据的分结点以统一各种信息的描述标准,提供信息组织效率,帮助用户查找到符合其特定需求的信息,实现泛在网络的信息共享。

      3.1.2 分类法

      分类法是文献组织的重要手段,目前其应用主要有两种:一是利用传统的分类法,二是采用自创的分类体系。传统分类法的类目划分揭示了信息的本质属性,按信息资源的学科门类和知识体系进行组织。自创的分类体系主要针对通用性信息的组织,通常是将用户关注的问题总结归纳成类从而进行类目的设置,建立以事物对象为中心的分类体系。可以将自创分类法按照是否有用户参与分为两大类:一类是分众分类法,另一类是无用户参与的自编分类法。

      

      在泛在网络环境下人与人沟通的维度中,传统分类法主要应用于学术性信息的组织,大多应用在图书馆书目系统、联机书目系统、部分门户站点中形成的网络目录,总体来说应用面较为狭窄,能够组织的资源也多为正式出版和发布的信息。在用户作为信息提供者的新网络环境下传统分类法无法完全适用于信息资源的组织,因此,本文认为在泛在网络环境下自创式分类体系会得到长足的发展。自创分类法现已广泛应用于各大网站,例如豆瓣网、美味书签(Delicious)、闪亮照片夹(Flickr)等就是利用分众分类法组织信息资源,允许用户自发地用标签对感兴趣的信息进行协作式标识和共享并可以对认为不合适的标签进行增加和修改。此方法能够激起用户标注的兴趣,不断带给用户新鲜感,用户可以根据自己的使用习惯描述或检索内容,但此方法不能够精确的描述信息,同时缺乏等级结构。因此雅虎、新浪、网易等门户网站则更多的是利用无用户参与的自编分类法组织信息资源。以雅虎为例,其将信息资源分为Mail、News、Sports、Finance、Weather等16个基本类,每个基本类下又划分为多个子类,当用户明确知道所需信息的类别时,能够方便用户在得到所需信息的同时了解一些与其相关的其他信息,但当用户不能清楚辨别所需信息的类别时,就为查找信息带来了麻烦,难以在信息量无限增长的泛在网络中获取满意的资源。此方法更加适用于用户基于浏览式的获取信息,而对于用户目的性较强的获取信息也并不是很适用。

      在泛在网络环境下人与物以及物与物的沟通维度中,传统分类法固有体系结构表达关系的能力有限,不能很好地适应多样化、多性质信息的无限增长,不能对泛在网络中的信息进行充分、完善的组织,而分众分类法由于用户参与的特殊性,难以应用于物物交互的信息组织上。而无用户参与的自编分类法则由于具有一定层次体系,同时更易于用户理解而更适用于泛在网络环境下对各种物体发布的信息资源的组织,在利用该种分类法时可根据信息的类型、范围、属性等划分类目,并随着新资源的出现对类目进行修改、添加。综上所述,由于泛在网络中信息提供者的多样性和信息内容的丰富性,无论哪一种分类法都无法完全适合于泛在网络中多维度的信息组织,因此,在泛在网络的信息组织中,应将多种分类法融合应用,将传统分类法用于人—人交互中机构所发布信息的组织,将自创分类法用于人—人交互中用户发布信息的组织,而将无用户参与的自编分类法用于人—物和物—物交互中信息的组织。

      3.1.3 搜索引擎

      目前的搜索引擎按照其所组织信息的内容可分为:全文搜索引擎、垂直搜索引擎和多媒体搜索引擎。原理都是利用Robot、Spider、Worm等自动代理软件,定期或不定期地在网上爬行,通过访问网络中公开区域的每一个站点,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个详尽的可供用户进一步按关键词查询的索引数据库[18]。现今在互联网络中以百度、谷歌为代表的全文搜索引擎在应用中占主流,其主要以网页为单元组织信息,搜集面比较广,能够及时搜集到易逝且有价值的信息,但是由于词语间存在关联词、近义词、同义词使得关键词搜索会出现查全率不高的问题,而字符串匹配的全文检索模式也较易出现误检。但作为目前最为易用的检索工具,在泛在网络中人—人交互信息的组织中仍十分重要。另一方面,在泛在网络环境下,随着信息资源类型的多样性和个性化要求的增多,多媒体搜索引擎和垂直搜索引擎的应用将会逐渐增多。如FAST就是一款典型的多媒体搜索引擎,其提供音频、图像、视频等多种格式的多媒体信息检索,并能够提供搜索结果的预览和说明。垂直搜索引擎的种类五花八门,现在多集中于社交、娱乐、房产、教育、旅游、医药等领域,其更加注重信息的专深性,所提供的信息都与用户需求领域相关,结果更为精确,大大节约了用户查找信息的时间,如房产网。

      在人与物以及物与物沟通的维度中,为了使搜索引擎适用于泛在网络环境,本文认为需要将搜索引擎技术进行拓展与延伸,修改Spider系统程序使其除了能在互联网上抓取网页以外,还能自动访问物联网、多种专用网等网络并抓取确切的数据,通过建立索引数据库实现对泛在网络中多种信息资源尤其是来源于物体的数据的组织。

      3.1.4 本体

      本体是对概念体系的规范说明,是领域内不同主体之间进行交流的语义基础,其本质是领域知识的共享和复用。利用本体可以将泛在网络中的数据信息提炼成知识,有助于泛在网络实现其超强的环境感知能力、内容感知能力和智能性。在泛在网络环境下人与人沟通的维度中,本体已广泛应用于知识工程、语义Web、智能信息检索、信息集成、数字图书馆等领域。例如中国知网利用本体形成了能够揭示概念间、概念的特性间关系的知识库,同时对资源进行标注以便于实现智能检索和推理,在用户搜索到所需文献的同时会提供与此文内容较为接近的文献和同行关注较多的文献,方便用户通过一次查询全面了解关于某主题的所有相关信息。QQ等软件为了通过智能代理实现管理用户个人资料、信息自动通知、分析用户喜好提供建议等功能,将本体融入其中从而产生智能代理与信息环境之间基于语义的理解机制,从而实现智能功能。由此可见,本体应用于泛在网络人—人交互信息的组织中是十分必要且有效的。

      泛在网络环境下人与物以及物与物沟通的维度中,本体可以作为不同主体进行交流的语义基础,借助本体描述语言,人类可以理解物体所发送数据的含义,机器也可理解人类发布信息的语义,从而使得通过本体组织的信息资源更能满足全新的检索要求和信息环境,实现泛在网络环境下信息资源的有效组织。

      3.2 泛在网络中主要信息组织方式的比较研究

      对泛在网络中信息组织方式的比较可以从技术、经济、效益等多个角度进行,由于信息组织的归宿点是向用户提供信息服务,因此本文特从用户的角度,选取了用户检索信息时较关心的效率、相关性和用户体验这三个指标对泛在网络中的主要信息组织方式进行比较研究。

      3.2.1 效率的比较

      随着泛在网络中信息资源的迅猛发展,信息纷繁复杂,在一定程度上增加了信息组织的难度,能否高效地完成信息组织工作,是评价信息组织方式优劣的一个重要指标。

      (1)元数据。元数据结构简单、描述项精炼,都是由标准化组织和各种专业机构反复研讨制定的,具有较好的科学性,能够有效地对泛在网络中快速增长的资源进行组织。但是由于元数据制定和完善所经历的周期较长,一些元数据的可扩展性也较差,使得元数据无法实时高效地对泛在网络中不断涌现的新种类信息进行描述,这是其应用于泛在网络信息组织的局限性。

      (2)分类法。传统分类法是一个完整的知识分类等级体系,具有严密的类目间逻辑关系和严格的词汇控制,虽然能够较准确地对信息资源进行分类,分类具有规范性,但需要大量专业人员共同构建,工作量大且更新不易,不能满足泛在网络的要求。分类法中的自创分类体系,其同位类排列方式简便,可直接以词语组织信息并以事物为中心设置类目,为信息分类带来了便利,但是不能保证分类的准确性。

      (3)搜索引擎。搜索引擎的信息采集和加工过程由计算机自动处理而不需要人工干预,其搜集面比较广,能够及时搜集信息并进行组织,具有较高的信息组织效率,但仅能从语法角度进行关键词与索引的匹配,不能对概念进行语义理解和概念匹配,因此,在泛在网络信息数量激增的情况下,其准确性会不尽如人意。

      (4)本体。构建好的本体不仅能够揭示概念间及概念的属性间的显性关系,同时能够反映隐含在信息间的属性及关系,利用本体的网络框架能较方便地组织信息,具有一定的效率,并且满足一定的准确性。但同分类法一样,在构建本体时需要大量专业人员的参与。不过优于分类法的地方在于,本体可以根据一定的规则自动进化,适用于泛在网络信息多变的环境。

      3.2.2 语义相关性的比较

      (1)元数据。元数据以揭示描述对象自身的内容属性为主、外部属性为辅,能够较为准确地描述信息资源的本质数据,具有明确的编目规则。使用元数据的专用信息库能够保证搜索结果与查询内容在字面上具有较高的相似度,但元数据无法从语义层面对信息进行描述和组织,使得用户搜集到的信息与所需信息的语义相关性一般。

      (2)分类法。分类法按照类别组织信息。传统分类法能够扩大和缩小检索范围,其分类表的规范性和通用性能够实现跨数据库的检索和浏览,尤其是类目间关系的设置,使其在组织信息资源时,保证了一定的语义相关性。自创分类法的类目体系具有立体化和多维性,使多个类别形成联系,尤其是用户参与的分众分类,更贴近用户的概念表达,使其具有一定的语义相关性。

      (3)搜索引擎。搜索引擎能够通过索引生成器建立网络信息资源的主索引页面和索引词汇页面,发现、提取、分析信息资源,实现对网络信息资源的有序组织,通过对用户搜索行为数据的搜集分析,使其具有一定的智能推理功能,能够发掘用户感兴趣的话题,但由于当前技术手段不够成熟,使得搜索引擎的智能化程度较低,现有的二代搜索引擎的语义相关性一般。

      (4)本体。由于在本体映射过程中会进行语义相似度的计算,解决了本体异构的问题,同时由于本体能够精确定义概念间的关系,因此本体能够揭示更为丰富的语义关系,进行信息的智能推理和提炼,能精确表达隐含的信息,满足知识获取的需要并且更全面地反映用户的要求,具有较好的语义相关性。

      3.2.3 用户体验的比较

      信息组织的目的是实现无序信息向有序信息的转换以更好地服务于用户。本文认为在泛在网络环境下可从用户获得信息的准确度、便利度、满足用户个性化需求程度三个方面评价用户对于各信息组织方式的体验满意度。

      (1)元数据。元数据方法可将多样化的信息资源进行有效描述和组织,所有资源的组成部分在系统中都包含自己独有的关系、结构和行为,它便于用户进行深层次的信息检索,也能够使用户从大量信息资源中准确地找到自己所需要的信息,但需要用户掌握获取信息的较为精确的线索,而且由于其对信息资源的标引较为系统,目前在网络检索工具中应用较少,因此该方式的准确度、满足用户个性化需求程度都较高,但获取信息的便利度较低,用户体验的满意度一般。

      (2)分类法。传统分类法能提供按学科进行浏览的功能,特别是当用户对某一个类别不熟悉的时候可以通过浏览充分了解其内容,为用户进行信息查询带来便利。其经过了上百年的发展,体系已经较为完善,具有一定的用户基础并在一定程度上保证了信息组织的准确性,但不能够满足用户的个性化需求,综合来看传统分类法的用户满意度一般。自创分类法进行信息的组织过程离不开用户的参与,是使用户自己选择的关键词进行组织信息的过程,受用户群体定义的频率影响,其为群体用户和信息之间建立了一个联系桥梁,因此,其满足用户的个性化需求程度较高。但由于无法在分类体系中明确类目间的关系,故而对信息进行组织时的准确度不高,导致用户获取信息的准确度相对较低。同时自创的分类体系各不相同,用户很难掌握各个分类体系,这为信息的查询设置了障碍,用户获取信息的便利度一般,综合来看自创分类体系的用户体验满意度较低。

      (3)搜索引擎。由于网络信息总量激增和信息格式的异构性与多样性,能满足用户一站式检索需求的搜索引擎受到欢迎,成为众多用户查找信息的首选。OCLC《大学生对图书馆和信息资源的看法》显示,搜索引擎是用户最熟悉的信息资源获取途径[19]。但搜索引擎给用户带来丰富信息量的同时,也因检索结果的数量巨大和排序机制有欠缺使得用户必须花不少的精力来筛选信息。此外,各搜索引擎的标引方式不统一、不规范,检索界面的风格各异,也给用户使用带来许多不方便。再有,搜索引擎的智能处理能力较低,不能满足用户个性化的要求[20],因此该方式便利度较高而准确度和满足用户需求程度都较低,综合来看搜索引擎的用户体验满意度较低。

      (4)本体。本体提供了一个规范统一的框架模型,为不同背景不同观点的人们之间的交流提供了语义上的一致性。利用本体便于用户间的沟通和协作,并且可以实现各学科间跨平台工具、任务的转换和共享。同时可根据本体自身包含的逻辑规则进行适当的推理,输出高质量的检索结果,能够保证查询结果的准确性和满足用户个性化的需求,用户可根据概念主题来检索信息,其获取信息的便利度也较好,综合来看本体的用户体验满意度较高。

      3.2.4 比较的结论

      根据上述比较,用很好、好、较好、一般4个等级来评价泛在网络中各信息组织方式在效率、语义相关性、用户体验三方面的优劣,评价结果如表2。

      

      本文通过对泛在网络中各种信息组织方式的应用分析发现,每种信息组织方式在泛在网络中的优势不尽相同,各组织方式都不能很好地兼顾效率、语义相关性、用户体验三个方面,经过比较分析可以得出以下几点结论。

      (1)在对泛在网络的信息资源进行组织之前,应尽可能地先分析信息资源所属领域,并根据组织信息的目的,选择最恰当的信息组织方式进行信息的组织工作。

      (2)为了能够真正实现泛在网络中信息资源的有序组织,可以将多种信息组织方式相结合,在满足描述数据本质的同时能够实现一定的信息智能分析,从而提高所需信息与搜索结果之间的语义相关性。

      (3)本体相对于其他信息组织方式而言是较为适用泛在网络的一种组织方式,将本体与其他信息组织方式结合能够优化泛在网络信息的组织并且促进信息组织向知识组织的转化。例如将分类法与本体相结合实现优势互补,在信息资源以类别划分的基础上,对每个类别的信息进行本体的构建,深层次地挖掘信息资源间的隐含关系并进行智能分析与推理,从而有效、准确地对信息资源进行组织。

      4 泛在网络中信息组织模型的构建

      本体是一种知识组织工具,本体构建是对知识进行组织、管理的有效途径。分类法是一种信息组织途径,通过分类能够将繁杂无序的信息资源进行有效整合。本文将分类的思想与本体结合,按照信息的类别构建本体,而不同类之间的本体可以互相建立映射,并在本体的基础上构建泛在网络中信息组织模型,以期能够使泛在网络中的知识、信息资源得到有序组织,从而提供更加快捷的信息检索,实现资源更加全面的共享和利用。

      4.1 泛在网络中信息组织模型的宏观架构

      目前本体建模有一些常用的方法,如骨架法、评价法、七步法等,但是这些方法各自适应于不同领域,无法满足泛在网络的特殊要求。本文针对泛在网络中信息资源的特点,提出一种基于本体的信息组织模型,如图1所示。其组织信息的具体流程为:首先利用计算机软件通过分词技术和词频分析技术对数据资源的关键词进行提取,利用特征关键词和中图分类法对照以及资源频率分析信息资源的类别与层次,将资源分类分层组织形成基础数据库;其次根据基础数据库构建本体并通过本体映射形成具有语义关联的关联本体库,当出现新资源时利用其新概念、新关系进化本体;最后对基础数据库中的信息参照关联本体库进行规范化处理,形成经本体组织后的优化组织数据库。用户可以通过用户界面对信息资源进行查询,由系统对用户的信息需求参照关联数据库进行规范化处理并在优化组织数据库中进行信息的查找,经过查询请求与信息资源相关度的计算形成满意的结果集并反馈给用户。

      4.2 泛在网络中信息组织模型的技术实现

      4.2.1 网格服务层的技术实现

      泛在网络中的信息具有较高离散型,信息来源对象涉及面广。本文认为利用网格整合资源,能实现泛在网络中资源的互联互通并在一定程度上消除信息和资源孤岛现象,有利于本体的构建。图1中网格服务层是利用网格进行计算服务、数据服务和信息服务,实现泛在网络中资源的整合、管理、调度和计算并为下一层提供应用接口[21]。数据源在网格服务层中首先经过计算服务层进行资源的发现与分配、容差处理、资源的监控等操作。接着,数据服务层会对泛在网络中数据资源进行计算与分析,同时提供数据存储管理等操作。最后,信息服务层会提供一个统一的服务接口,实现各种数据资源间的相互访问。将经过网格整合后的信息资源利用计算机技术提取特征关键词,按照学科类别对特征关键词进行相似度分析,确定信息资源所属类别,并对每一类别的信息资源按照资源出现频率进行分层细化,实现信息的分类分层组织。

      4.2.2 本体构建的实现

      (1)本体构建过程中应注意的问题

      由于泛在网络是对互联网的扩展与延伸,本文认为泛在网络中本体的构建有些特殊的问题需要注意:①泛在网络环境下信息的发布者可以是任何物体,构建的本体要能够满足各类用户的需求。②为了能够搜集到更加全面的信息,某些概念应该同时分布在不同的领域本体中,并通过映射明确各领域本体间的关系。③由于泛在网络中有多个数据库和管理系统,因此本体的构建应尽可能独立于具体的编码语言,而不应该依赖于某种特定语言。④在对泛在网络中信息进行完全覆盖的前提下应尽量减少概念的数量,减轻本体构建的负担。⑤由于泛在网络中信息主体将随着技术发展不断增多,因此泛在网络中的本体应具有可扩展性,应该可以支持在已有的概念基础上定义新的概念以满足特殊的需求来进行不断进化。

      

      图1 泛在网络中基于本体的信息组织模型

      (2)本体的构建过程

      ①数据源经过网格服务层形成分类分层组织的数据集,从而构成基础数据库。②建立初始本体原型。由本体开发者和领域专家配合对数据资源及其关系进行解剖与分析,首先确定某一主题概念,其次确定主题概念所属类型,定义类及其层次关系,最后结合本体构建过程中应注意的问题和一般设计准则分别对概念的属性、方法和概念间关系进行表示和描述。③使用合适的本体编辑工具进行本体的编辑,如Protégé等。④进行本体的评价、检验。本体的评价和检验可以帮助对本体要素进行筛选,及时纠正本体构建中的不合理之处。通过概念对数据信息的覆盖程度、相同概念的重复率、由概念间关联产生的推理与概念本身的相容程度、知识歧义的消除度来对本体进行评价,具有高覆盖率、低重复率、高相容度、高歧义消除度的本体可作为一个满意的本体,当本体的满意度较低时应及时对本体进行修正直到具有较高满意度。本文认为可以通过实例并利用计算机程序自动或半自动地进行实例与概念间语义相似度的计算来实现对本体的检验。⑤对初步形成的本体模型不断调整修改。⑥选择另一主题概念重复上述过程,最终形成知识本体库。

      4.2.3 本体映射与进化的实现

      (1)本体映射

      为了解决相同概念的不同表达和不同类别的本体之间的互操作问题,需要利用本体映射建立本体与本体之间的联系,形成具有语义关联的关联本体库,以便对同一事物达成共同理解。映射过程中形成基于本体的映射库,映射库是关联本体库与数据源的中间桥梁,映射库中存放映射过程中产生的映射信息,即为经过概念相似度计算和属性相似度计算,并根据上下文关系和本体约束等条件进行选择后得到的最优本体间元素映射关系。对基础数据库中的信息进行分析并提取特征项之后,参照已构建完成的本体对信息资源进行规范化处理,将组织后的信息资源放入优化组织数据库,为用户获得满足需求的信息资源提供便利。

      (2)本体进化

      本体进化是在初始本体原型的基础上,依据一定的理论、技术和标准,对本体概念结构、概念及关系不断丰富、完善、改进、更新和评估的过程和方法[22]。在初始本体建立的基础上不断吸收添加到基础数据库的新资源来扩充和进化本体,才能保证本体的科学性和完善性。对于新概念的确定,本文认为可以利用某新资源中一新概念在所属领域中出现的频率和其被标引的频率来确定,即当新概念出现频率大于某值且被用于标引的频率大于某值时,就认为此概念可被纳入本体,从而完成本体的进化。同时本文认为可以采取具有良好扩展性的OWL作为本体描述语言,因为当概念、属性或概念间关系没有定义完全时可借助OWL的扩展性进行后续定义并持续完善。

标签:;  ;  ;  ;  ;  ;  ;  

普适网络中信息组织的比较与模型构建研究_搜索引擎论文
下载Doc文档

猜你喜欢