国外主题图研究综述,本文主要内容关键词为:国外论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G623.5
如何利用数字化信息组织技术解决信息获取,为信息需求者提供真正所需要的信息资源,目前已经成为国际上知识组织领域一个重要的研究方向。主题图(Topic Maps)作为一种新兴的数字化知识组织技术,在网络信息组织领域逐渐显现出它的独特性,吸引着专家学者的探索与研究。本文通过调查国外主题图相关研究论文的状况和访问主题图相关研究性网站,获得相关期刊论文124篇,相关图书章节59节;笔者将这些文献分为3个主要领域:主题图基础理论研究、主题图技术工具研究和主题图实际应用研究,分别对3个领域进行了较为系统的整理分析,并在此基础上提出对国内主题图发展与研究的几点建议。
1 关于主题图的基础理论研究
主题图的基础理论研究主要包括主题图标准体系的建立与研究、主题图结构及特征要素的研究、主题图与其他知识表现技术的比较和互操作研究等方面。
1.1 主题图标准体系的建立与研究
ISO标准组织一直在致力于推进主题图标准体系的建立和研究。主题导航地图(Topic Navigation Maps)是主题图的前身,诞生于GCA研究所(现以IDEAlliance著称)的一次关于HyTime的应用研讨会上[1],他们试图用HyTime展现书后索引的知识结构,并希望能够自动合并不同的索引,这次会议的思想即被称为主题导航地图。2000年初,在ISO国际标准ISO/IEC:13250中,主题图被首次完全形式化[2]。XML语言的兴起,让主题图如虎添翼,2001年3月,TopicMaps.Org采用XML制定了XTM(XML Topic Maps),2001年10月,XTM DTD被ISO13250采纳。在ISO/IEC:13250国际标准中,主题图被定义为:“一套用来组织信息的方法,使用这种方法可以提供最佳的信息导航”。在修订后的ISO 13250中,ISO13250-2为主题图定义了一个数据模型(Topic Maps Data Model,TMDM)[3],用来说明XML Topic Maps(XTM)的语法规范以及作为ISO 18048主题图查询语言(Topic Map Query Language,TMQL)和ISO 19756主题图规范语言(Topic Map Constraint Language,TMCL)的基础[4];ISO13250-5主要包含了一个主题图参考模型(Topic Maps Reference Model,TMRM)[5]。
1.2 主题图结构及特征要素的研究
主题图的组成要素包括主题(Topic)、关联(Associations)、资源实体(Occurrence)、范围(Scope)、标记(Identity)、分面(Facet)等,其中主题、关联、资源实体和范围是核心要素。关于主题图基本架构的研究比较典型的有Steve Pepper的《TheTAO of Topic Maps》[6]、Lars Marius Garshol的《What are Topic Maps》[7]以及他们合著的《The XML Papers:Lessons on Applying Topic Maps》[8]等,都对主题图的结构进行了详细的描述。除了对主题图整体架构的研究外,还有学者对主题图的组成要素进行了单独研究,如Marc de Graauw对“范围”要素的实际使用测度[9];Michel Biezunski和Steven R.Newcomb的关于“实体”的描述[10]。关于主题图特征的研究有Steven R.Newcomb提出的关于主题图的两点建议,试图来消除“主题图”名称上的歧义以及更加清晰地定位主题图[11];Rath.Hana Holger对主题图的“自控”(Self-control)功能进行了详细的描述[12];Browne Glenda从信息资源组织与检索的角度对主题图进行了概要介绍,他认为通过利用主题图技术,人们将更加有效地获取网络上的信息资源[13]。
1.3 主题图与其他知识表现技术的比较和互操作
主题图在作为一种知识组织技术的同时,也是一种知识描述语言,它与其他知识表现技术之间存在着异同点,因此,关于主题图与这些知识表现技术之间的比较与互操作也进入了国外学者们的理论研究领域。比较典型的包括:Lars Marius Garshol的《Living with Topic Maps and RDF》,他将主题图标准与RDF、DAML、OIL、OWL、TMCL分别进行了比较分析[14];Lacher Martin S.和Decker Stefan的《RDF,Topic Maps,and the Semantic Web》,关于主题图与RDF之间的映射和互操作研究[15];Nikita Ogievetsky的《DAML and Quantum Topic Maps》[16],创建了一个由XTM向RDF转换的在线转换器(XTM2RDF Translator),通过采用XLST技术来实现XTM向RDF的映射;还有Anne Cregan的《Building Topic Maps in OWL-DL》[17]、Steve Pepper的《Ten Theses on Topic Maps and RDF》[18]等,都是从概念模型、应用领域、理论基础等不同的角度来描述主题图与其他知识表现技术之间的映射和互操作。
2 关于主题图技术工具的研究
目前,国外已经开发完成的主题图技术工具主要分为3大类:主题图引擎(Topic Maps Engines)、主题图编辑器(Topic Maps Editors)和主题图的可视化工具(Topic Maps Visualisation)。其中,主题图引擎主要包括:Omnigator、TM4J、tmproc(不支持XTM1.0)、SemanText、Goose Works Topic Map Toolkit、Perl XTM等;主题图编辑器主要包括:Protégé、TMTab、Topincs、TM4L Editor Viewer、Atop、Wandora等;主题图的可视化工具有:XSiteable、TMview、StarTree、Topic Map Designer、The“V”Topic Map Browser、GNOWSYS、Panckoucke、TM3D等。
在上述主题图技术工具中,使用比较广泛的包括:
(1)Omnigator,由Ontopia公司开发的一种主题图导航工具,它采用了基于标准HTTP协议的客户端/服务器体系结构,允许用户载入、浏览XTM、HyTM和LTM格式的主题图,可以从http ://www.ontopia.net/solutions/omnigator.html处下载试用。
(2)TM4J是用户使用较为广泛的一种免费开放资源,是一个用Java编制的提供XML主题图创建、操纵、导入导出功能的工具,官方网址为http ://www.tm4j.org。
(3)The GooseWorks Topic Map Toolkit提供了主题图加工引擎和C语言的应用程序接口以及一个用于Python的API包,该工具包实施了基于图形的主题图加工模型,并支持在不同的关系型数据库中长期存储和加工主题图,同时还提供了合并、过滤主题图的命令行工具。
(4)Protégé2000是由斯坦福大学设计开发的一个可扩展结构的本体编辑器,提供可扩展的知识模型。TMTab是Protégé2000的插件,是一个本体(Ontology)创建工具,可以使得利用Protégé创建的本体用XTM语法输出,可以在http ://www.techquila.com/tmtab.html上了解和下载到TMTab。
(5)Xsitable是一个用XLST来展现的适用于中小网站的结构规划、编辑和维护的网站编辑器,官方网址为http ://xsiteable.org/。它的核心在于用sitemap.xml文件控制网站结构,利用Sablotron解析的XSLT创建框架,支持Windows2000/XP/NT/98、Linux/Unix。
(6)TMview和TM3D都是主题图的3D可视化工具。TMview由Tobias Hofmann、Hendrik Wendler和Bernd Froehlich开发,适用于中型主题图的可视化。
(7)StarTree是一种以图的方式组织层次化的信息的软件,可以在http ://www.inxight.com上了解到关于它的更多相关信息。它采用Unicode,支持中文显示,通过节点和节点之间的连线来展示概念之间的关系。由于采用不同颜色或形状的节点来代表主题和主题之间的关联,而且用URI来直接指向与该主题相关的资源,因此,StarTree常被作为一种主题图的可视化软件来使用。
3 关于主题图的应用研究
作为一种知识组织技术,主题图提出了一种基于主题的元数据组织和描述方式,提供了语义级的数据导航和组织方式,是知识管理和信息资源管理的桥梁;作为一门知识表示语言,主题图能够满足语义网的发展要求,解决信息的发现性问题。总体来说,主题图技术汲取了传统索引、图书馆科学、知识表示以及多种知识组织方法的优点,虽然诞生的时间并不长,但由于它所具有的灵活性和丰富的表现力,可广泛应用于知识管理、Web应用、语义挖掘等领域。
3.1 主题图在知识管理中的应用
知识经济的到来使得知识管理受到了高度的重视,知识管理的本质就是将知识作为最重要的资源,利用信息技术对知识进行系统化的管理。主题图作为一种新兴的知识组织技术,能够提供一个标准技术方法来构建和分享知识,定义任意复杂的、变化的知识结构,并以元数据的形式体现和表现知识,解决了知识组织所面临的存储、检索和共享的问题。基于主题图在知识管理上体现出的灵活性和丰富的表现力,知识管理已经成为主题图的一个重要应用领域。目前,已有很多行业开始应用主题图技术,其中包括政府部门、电子商务、教育机构以及医疗部门等。例如,Kondrach George提到的利用主题图技术帮助美国信息法律执行委员会解决信息资源共享和交流过程中所遇到的障碍[19]。Duen Ren Ke、Chih KunLee、Jia Yuan Lee等人提出的利用主题图来构造知识地图(Knowledge Maps)[20],通过分析挖掘用户的使用记录向用户推荐相关服务,提供决策支持,让用户更加有效地获取网络电子商务服务。在网络教育中应用主题图技术也已经成为一种研究热点,如Stian Lavik Msc和Tommy W Nordeng提出的BBL(Brain Bank Learning)与主题图技术相结合的思想[21]。BBL是一种学习概念知识、概念之间相互关系以及知识间如何产生联系的工具,通过BBL对用户在学习过程中所遇到的主题进行描述,然后利用主题图将这些主题相互间的关系组织起来,这样就可以构建出用户自己的学习网络并实现所学知识的存储。关于主题图在教育领域的应用,Darina Dicheva和Christo Dichev进行了比较系统的探索研究,从2003年提出建立和利用开放的网络教学资源到2006年TM4L(Topic Maps 4e-Learning)的开发完成,这4年期间他们共发表了15篇论述主题图应用于网络教学的相关文献。例如,利用主题图的可视化进行网络教学[22],利用主题图构建课程的数字化图书馆[23],基于主题图的网络课件TMC(Topic Map-based Courseware)[24]等。关于主题图技术在医疗领域的应用研究,Schweiger Ralf、Hoelzer Simon、Rudolf Dirk等人提出利用主题图技术来管理医疗信息系统[25],通过主题图揭示医疗临床数据资源之间的联系,并将这种关联作为上下文检索的基础,从而获取更为准确的检索结果,这种使用主题图技术管理医疗数据的方法已经成功地应用到医学分类系统和临床实践指南。
3.2 主题图在Web中的应用
主题图的直观导航界面、易于内容管理系统集成以及适应网络信息动态发布的这些特点,都使得它在Web上得到了广泛的应用。主题图技术应用于Web最初主要集中于静态内容的导航和以概念为中心的内容组织方面。典型实例有:
(1)意大利歌剧主题图(http ://www.ontopia.net/operamap/index.jsp)——由挪威Ontopia公司开发,通过Ontopia Knowledge Suite(OKS)和Ontopia Navigator Framework来建立,目前虽然已经成型,但尚未全部完成和公开。意大利歌剧主题图总体上包含7个主题:歌剧、作曲家、歌词作者、歌剧作者、剧院、城市和地区、国家,各主题索引都是按照字顺排列。
(2)QUID——法国百科全书的网络版(http ://www.quid.fr/),将主题图技术应用于编制结构化索引,其中每个主题代表一个索引款目,并且作为文章中的一个链接点,索引信息通过主题图方式组织并生成静态的HTML页面。
(3)Michel Biezunski为美国国税局(The US Inland Revenue Service)开发完成的利用主题图技术集成在CD-ROM出版物上,并以HTML形式出版的税务文件索引。在该索引中导航链接被直接插入内容中;索引中的主题按字顺排列,并且用户可以通过索引中的主题导航到其他相关主题信息;主题在文件内容中被高亮度显示,并提供了返回索引的链接。基于主题图技术的结构化索引导航能够使用户更加容易地检索到所需信息资源,并且迅速地定位相关信息资源。
建立以主题图技术驱动的网站是主题图技术在Web中的另外一个重要应用。利用主题图技术构建网站的底层结构,为用户提供清晰的网络结构和导航功能。比较典型的实例有:
(1)基于主题图技术的柯达数字摄影配件网站[26]。通过主题图技术和Excel表格的结合生成表格主题图(Tabular Topic Maps)来实现。整个过程主要分为两部分:通过工作表格的转换和XML文档的生成形成单个的主题图文档,然后这些单个主题图再依据主题命名限制和主题合并规则进行相互融合,主题图的生成以及最后结果的显示主要是通过XLST来实现。
(2)德国税收网(DCTA)通过采用一个商业主题图引擎集中处理主题词的管理与控制,进而有效提高为网站访问者所提供的检索服务质量[27]。还有其他如挪威信息技术研究和教育能力网(The Network for IT Research and Competence in Education)、挪威消费者协会(Norwegian Consumer Council)、德国环境信息网(German Environmental Information Network,GEIN)等一些网站也采用了主题图技术。
目前,Web的知识组织形态正由基于数字化资源(第一代)和基于信息集成服务(第二代)的Web向基于用户需求的第三代语义Web转变。语义Web的基本思路就是在元数据描述的基础上实现知识的表示,进行形式化本体知识描述和提供推理机制,并开发相应的Web服务。在语义Web中,主题图作为一种元数据描述语言,和RDF一样给出了一个数据模型,允许使用各种元数据标准对网络资源进行编码,并实现不同标准之间数据的相互使用。关于主题图在语义Web中的应用研究,Chen Ing-Xiang和Yang Cheng Zen等人提出了一种改进的ISWIVE(Integrated Semantic Web Interactive Visualization Environment)界面,能够同时支持RDF和主题图技术,实现语义Web的可视化[28];Dong Ying和Li Mingshu提出了一个HyO-XTM(Hyper-graph XTM)模型,用以管理分散的知识资源,该模型能够简化知识管理的工作量,适应语义Web的发展需求[29]。
3.3 主题图在语义挖掘中的应用
主题图采用了丰富的语义置标来定义主题的类、关系、角色和出处,揭示了信息对象之间的语义关联,因此,可以利用主题图所展现的语义关系进行语义挖掘。关于主题图技术在语义挖掘上的应用方面,Hans Holger Rath提出,主题图中所有的主题、关联和出处都可以聚集成类,形成Topic Maps Templates[30]。他在深入分析主题图中关联类型的基础上,探讨了主题图中的关联对于语义挖掘的意义,并提出了主题图技术在概念推理上需要改进的方面。Heekwon Chae、Kwangsoo Kim和Younghwan Choi等人提出了一个V2模型,用以表达产品之间的语义关联[31]。V2模型主要是由VIM(View-Independent Model)层和VSM(View-Specific Model)层构成,目前这个模型已经成功应用于洗衣机模型的设计开发。关于主题图技术在语义挖掘上的应用,比较典型的实例是ONI(Office of Naval Intelligence),情报分析人员通过利用主题图技术从语义层次组织信息资源,帮助信息分析人员发现信息数据之间的联系[32]。ONI的主题图主要参照Innodata Isogen利用情报学技术设计的针对不同用户定制的主题图来构建,通过从语义层次组织信息资源,帮助ONI的信息分析人员发现信息数据之间的联系,从而对它们进行有效的组织与分类,转换成为有用的情报,提高查询和检索效率。随着XML语言作为交换数据中的一种标准方式出现,基于XTM的语义挖掘和知识发现将会变得更加容易实现。
4 对国内主题图研究的几点建议
为了全面了解国内关于主题图的研究现状,笔者以计算机检索为主,辅之以手工检索的方法对国内主题图技术的相关文献进行了调查统计,获得相关期刊论文31篇,学位论文9篇。通过对检出文献的统计分析可以看出,国内关于主题图技术的研究始于2003年,起步较晚,研究内容主要集中于国外主题图新技术的引进和应用探索研究两个方面。如黄晓斌的《网络主题图的原理及应用》[33]、韩泽春的《主题地图——一种有效的知识组织与揭示方法[34]、张佩云、吴江等人的《主题地图标准及其应用研究》[35]、秦铁辉、郭延吉等人的《信息时代的“全球定位系统”——主题地图》[36]以及何建新的《主题图及其应用》[37]等,这些文献都对主题图技术进行了比较详尽的描述和概括,分析了主题图的产生背景、起源、构成要素以及应用等方面的内容。关于主题图技术的应用探索,国内有部分学者利用主题图相关技术软件进行了小规模的实验性研究,如马建霞利用主题图技术进行沙尘暴研究领域知识导航的实验研究[38]、中南民族大学数字图书馆的基于XTM的学科导航系统[39]、关懿新的基于XTM的构件库导航系统设计[40]以及田海燕的基于主题地图的多层文献组织模型(TMDOM)[41]等,这些实验性的探索研究在很大程度上推进了主题图技术在国内的发展。但是,总体上国内关于主题图技术理论与技术开发研究还不够深入,创新研究不多;研究人员少且较分散,研究成果少并且不够系统;应用研究也刚刚开始,实际的推广使用尚没有形成。
通过分析比较国内外主题图研究的现状和特点,笔者认为,国内主题图技术的研究可以从以下几个方面着手:
(1)要注重相关基础理论的研究,加强与国外同行的沟通与交流,积极参与主题图相关标准与体系的建立与研究,不断完善主题图的基础理论研究体系。
(2)在现有主题图技术的基础上,研究开发适合各个具体项目和不同领域的主题图技术工具,同时开展广泛的实践应用活动,为主题图的有效利用创造更为广阔的空间。
(3)积极开展与主题图技术相关的研究活动,建议国家数字图书馆工程、CALIS等基础支撑项目能够设立专项,开展系统的研究,以逐步建立起国内相关研究团队和产生一批研究与应用成果。
(4)要积极尝试将利用主题图构造的实验模型推进到实际应用中,通过用户的使用评价来不断改进和完善系统的建设。笔者正在进行的运用主题图技术建立特种经济动植物多媒体数据库的实践,就是这方面的一次尝试。期待通过众多专家学者和用户的共同努力,主题图技术将会得到更为广阔的发展。
收稿日期:2007-09-25
收修改稿日期:2007-11-05
标签:topic论文; maps论文; 语义分析论文; web技术论文; 用户研究论文; 主题模型论文; web开发论文;