网络环境下文档分类的可视化_信息可视化论文

网络环境下文献分类法的可视化，本文主要内容关键词为：分类法论文,文献论文,环境论文,网络论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 信息可视化与文献分类法

信息可视化是将抽象数据用可视的形式表示出来，以利于分析数据、发现规律（信息）和制定决策。它是一种崭新的方法，为广大用户直观、方便地获取所需信息提供了有效途径。信息可视化寻求人机合作，计算机将大量抽象的信息映射到图像上，人们通过图像的结构、特征等来理解认识，从而获得知识。信息可视化的关键是将数据用有意义的图形表示出来，目标是显示出文献表示的一个抽象信息空间。[1][2]

目前国际上有各种文献分类法，例如《国际十进制分类法》（UDC）、《杜威十进分类法》（DDC），都是将信息资源的主题概念进行分类，用不同的代码表示一类信息资源的类别。目前，可视化系统主要采用树（Trees）、图（Graphs）、地图（Maps）及虚拟现实（Virtual Reality）等隐喻方式，完成分类法及其结构的可视化。笔者将介绍网络环境下文献分类法的可视化进展，并探索用本体工具实现分类表的可视化。

1.1 传统文献分类法的显示

文献分类法的分类体系为等级列举式结构，按照学科知识门类层次划分，并把划分出来的子目一一加以列举，形成一个具有良好结构特征的知识一览表。传统的文献分类法是典型的树型结构体系，对知识的组织采用从总到分、从宽到窄、层层划分的方式，形成比较纵深的等级结构，分类级次多者达8级以上，其优越性在于较强的系统性和族性检索功能，但是，典型的“线型方式”给读者利用分类检索带来很大的困难。用户查询文献必须严格遵循其既定的线形体系，按照固定的单线顺序，一一往下查找。这种直线型列举式的“树状”结构不能反映现代科学的交叉和综合性发展特征，不能满足类目的多维检索，在一定程度上限制了标引用户和检索用户的多途径检索[3]。

20世纪60年代问世的、被称为“隐蔽分类法”的叙词表，在其宏观结构中引入了“隐蔽的分类”，诸如参照系统、范畴索引、词族索引，并用词族图、同心圆、箭头图、方框图等来显示。后者是情报检索语言的图形显示。但是由于当时计算机水平落后，这些图形显示未能成功地发展为分类法的信息可视化[4]。

1979年，DDC第19版在其新出版的手册中，用地图来显示DDC的地区复分表，在地图的某一区域内标明其地区分类号，便于用户查找。这是图形化显示在分类表的首次尝试。

周宁曾在《信息可视化与知识检索》一书中提出了设计图符集来表示分类法，即用一个个形象的图符或动画表示分类表的一级大类，用上级图符加注二级类目的知识概念表示二级大类，形象生动，使人一目了然。因为分类法的类目众多，少则数千，多则数万，类目并不容易设计出有针对性的、特色鲜明的图符，而且类目的上下位之间还要有统一性、继承性[5]。要实现这一构想，还有较大的难度。

1.2 网络环境下文献分类法的显示

网络环境下超文本技术的运用可以多维展示类目关系，使文献分类法的树状结构改造为网状结构，因而具有更大的灵活性和动态性。运用该技术，可以根据知识门类之间的联系和使用需要，通过链接的方式，在相应的类目下重复反映，充分揭示类目之间的多维联系。这样不仅可以充分揭示事物的多重属性，使多重列类得以真正实现，还能通过对各种关系的显示，帮助人们理解信息空间的结构，快速发现所需信息，有效防止信息迷途。但是超文本的浏览方式，只能提供给使用者很少的概念，不能让使用者有整体的、由点到面的全盘了解。因此如果能提供其它形式的浏览界面，在有限的屏幕空间中将所有相关信息呈现在用户的眼前，让用户对所涵盖的资源有一个整体、全面的了解，便可减少浏览的盲目性[6]。

如果说视窗版DDC（Dewey for Windows）的问世标志着机读分类法的成熟与实用化，DDC网络版（WebDewey）的研制则象征着分类法与网络的紧密结合，可以视为文献分类法可视化的开始。近年来大批问世的信息可视化软件，可以完成数据收集、集成、转换和映射，通过图像的变形、伸缩和位移形象地显示主题与主题或对象之间的多种联系，动态地生成可视化的联系相关图，为分类法、叙词表及本体等知识组织系统（KOS）的可视化提供了技术支持。

2 网络环境文献分类法的可视化进展

2.1 Renardus

这是一个在欧盟范围内开展的信息开发计划，目的在于提供一个集成化的网络信息资源门户站，成员包括丹麦、芬兰、德国、荷兰、瑞典、英国的图书馆与研究中心，共拥有64，000个英文学术网站资源。简单地说，Renardus相当于主题网关，该门户站将自身网站的结构和DDC结合成一个开放的公用系统，把DDC用作不同分类法的共同转换语言，将信息资源完全按DDC的等级显示出来，用户通过DDC的分类浏览体系，通过超链接跳转到各类目的浏览界面上，可以浏览各类目局部分类体系的相关类目[7]。

使用扇形图显示类目非常直观，读者可以通过对主题的层次进行浏览，页面的每个类目就是一个链接，鼠标放置其上就显示完整的类名，用户可以通过点击类名去查看上、下位类或相关类目。在浏览时，发现有时会出现显示信息不完整现象（并未显示与所查找的类目相关的所有类目层次），这是因为网络原因，有些类目信息暂时不能使用。例如，查找类目“Library & Information science（图书馆学情报学）”，图中会显示四级类目，包括类目“Library & Information science”的三个下位类“Operations of libraries,archives,information centers（图书馆、档案馆、情报中心的操作）”、“Specific kinds of institutions（特定的机构）”、“Reading and use of other information media（其它信息媒体的阅读和利用）”，这三个下位类各自的子类以及这些子类的下位类。不是所有的类目及其上、下位类都能全部显示出来，但是双击图中任一类目，可以链接到新窗口查看该类目的详细上、下位类。

2.2 OverView

这是OCLC研究署（OCLC Office of Research）的研究项目，旨在研究显示定量文本信息的方法，当前的研究是利用DDC，通过三维信息空间对检索结果进行形象的判断。OverView采用了信息可视化技术，当用户输入检索词后，检索结果将表现为由虚拟本体模型语言（VRML）构筑的一个三维信息空间，检索结果交叉地分布于这个DDC信息空间，柱形图显示检索结果在各个类的相关度[8]。用10×10矩阵表示出100个小方框，标号从00到99，是基于DDC类号的前两个数字。例如，004.6入00方框、538.84入53方框。每个小方框显示的高度与其相对应的检索结果的文献数量成正比，小方框显示的高度越高表明这个类目对应检索结果的相关文献越多。用户可以选择图中Drill down按钮（其意思可以理解为扩展）去查看类目的细分，DDC类号随点击的小方框而改变。选定一个小方框后，用户可以看到窗口右边与这小方框所表示的类目的注释。用这种方法建立的信息空间的优点在于分类表的高度结构化与可度量性，分类号附加上类名与注释后具有比较丰富的语义，对于其他体系分类表的可视化，具有很好的借鉴意义。目前系统包含44，817个DDC分类号及相关注释，另外还显示其对应的《美国国会图书馆标题表》（LCSH）[9]。

2.3 《中国图书馆分类法》和《中国分类主题词表》

在国内的数字图书馆项目中，文献分类法的应用并不普遍。《中国图书馆分类法》（简称《中图法》）编委会于2001年推出《中国图书馆分类法》4版的电子版。《中图法》电子版提供15种途径的跨类检索，并提供5种不同匹配方式的组合检索。在保留其印刷版类目线形显示的同时，实现了类目的多层面、多窗口、超文本的显示和多种形式的等级显示。在《中图法》电子版中的超文本格式界面，被选类目除了包含和印刷版兼容的详细信息显示以外，还具有从当前类目向上级类目、下级类目或类目注释中指向他类的类目跳转的超文本锚点。如，分类法的交替类目、参照类目的类目注释中，存在大量的通过类号或语词指向相关类目的线索，超链接技术使这些相关类目实现了结点之间的跳转。另外可利用《中图法》电子版在数字图书馆的导航站与检索系统中增加分类浏览界面，通过展示分类法的树形结构，增加了分类检索入口的语义性，克服了线形体系对类表类目多层次浏览的制约，引导用户在学科等级体系中扩检、缩检，最终查询到所需的信息[9][10]。

《中国分类主题词表》（简称《中分表》）于2004年10月推出用于计算机编目和检索环境的电子版。《中分表》电子版由一个主窗体和多个子窗体构成，子窗体由多个不同文档构成，简称分类表、主题表、词族表、浏览表，各子窗体之间可以相互联动（当某一窗口选中一个类目后，其他不同的窗口也都同时显示该类目）；各子窗体均有两个显示小窗口，用户可根据个人习惯和查询需求自主切换窗口，有上/下显示和左/右显示两种显示方式。类目体系显示用展开和收缩图标，图标左边有“+”号表明它是未展开的类目，图标左边有“-”号表明它是已展开类目，可以根据浏览的需要一级一级地把类目展开或折叠起来。《中分表》各种浏览方式之间和各窗口之间的随意跳转，从根本上克服了线性体系对多层次浏览的制约，实现了用户基于内容的、多需求的一体化浏览和检索的功能[11][12]。

《中分表》的初步可视化已经为用户使用词表提供了极大的方便，但是目前离词表和检索结果的全面可视化还有相当的距离，必须借鉴和引进国内外信息可视化的技术成果，加快《中分表》的网络化、可视化和智能化的进程。

3 本体编辑工具在文献分类可视化中的应用

目前学界公认的本体（Ontology）定义是Tom Gruber等提出的：“本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明”。现有本体具有代表性的语言可以分为两类：一类是基于一阶谓词逻辑的，如框架逻辑（Frame-logic）等；第二类基于XML标准的本体语言，这些语言包括：RDF、SHEOE、XOL、OML、OIL、DAML+OIL以及集成这些语言推出的OWL。本体可以描述事物的属性、关系和分类。本体的作用与传统分类法、主题法的作用有类似的地方。因本体所包含的术语量非常大，能对信息起到规范控制的作用。当然本体还有知识关联、推理等作用[13]。

目前较成熟的本体编辑工具有Ontolingua、Webonto等，斯坦福大学医学院医学情报学研究组开发的开源本体构建工具Protégé应用最为广泛，基于Java语言开发研制，是集本体编辑和知识编辑为一体的开放源码软件，提供图形界面和交互式的本体设计开发环境。Protégé以OKBC（Open Knowledge Base Connectivity）模型为基础，支持类、类的多重继承、模版、实例等知识表示要素，可以定义各种知识规则。另外，Protégé最大的特点是开放性、兼容性及可扩展性，具有可免费下载系统的安装软件与插件，可用RDF、RDFS、OWL等本体语言在系统外对本体进行编辑和修改等优势，因而拥有众多的用户，已成为目前使用范围最广的本体编辑器之一[14]。除以上优点外，Protégé还提供许多可视化插件，支持中文的编辑和输出，帮助用户构建本体、查看本体以及检查概念的一致性，宜用作分类表可视化的试验工具。

笔者选择抽取《中图法》“J艺术大类”中“各种电影、电视”，按内容、题材和表现形式分为三大类，其类目层次严格按照中图法的体系结构，各类的类号作为本体名称一并输入。因Protégé系统将“Thing”（事物）定义为超类，用户定义的类都是其子类，因此本文将“电影、电视”设为超类“Thing”的子类，再按内容、题材、表现形式等往下细分，构建结果如图1所示；每个类目都是一个超链接，有些类目上方红色的数字标注是表明该类有几个下位类，双击该类目就显示其下位类，例如，双击J974思想类型电影，就显示它的三个下位类：J974.1政治片、J974.2哲理片和J974.3伦理片。

本体编辑工具可以以各种形式表现类目，在Jambalaya插件中，有辐射形、喷泉形、垂直树形、水平树形等各种图形显示类目，可以任意选择，在这里不能一一展示。笔者选择辐射形显示图，每个类目用一黄色小方框表示，类目之间用蓝线相连，呈辐射状，图形充分显示了分类表的类目体系、类链和类列；而且每一个方框就是一节点，鼠标放置在方框上就会显示该类目的类名、下位类及注释。在该插件中还可以对类目进行检索，例如选择“search”图标，在跳出的对话框里输入“J95”，就会显示J95这个类目及其所有的下位类。

经过试验，发现用本体编辑工具构建分类法基本可行，而且在可视化方面突破了以往惯用的树型显示方式，显示的丰富程度大大增加，可用多种形式（如嵌入图、放射图等）来显示分类法的类目。

但是，将本体编辑工具用于文献分类法的可视化也存在一些难点。传统知识组织体系的设计思路、功能、对象、用法与本体是有很大区别的。有些概念没法翻译成本体，而且每个概念、概念间的关系都需要定义，许多模糊的概念关系需要明确。虽然本体编辑工具在近10年已经比较成熟，然而手工构建本体费时费力，而且本体工具的某些插件在中文的编辑和输出方面还需改进。所以在目前的情况下，可考虑用本体编辑工具建立分类表的相应类目，而不宜进行纯粹的转换。

目前关于信息可视化的研究在国外已相当活跃，在我国还处于起步阶段，但是它的方法技术正在日益成熟，其用途也正在逐渐扩展。网络环境下分类法可视化系统的研究，需要更多的实验和测试。但是随着可视化与智能化研究的不断深入，相信更多的可视化方法和工具将被开发出来，可视化操作的自动化程度也将越来越高。

标签：信息可视化论文; 文献研究法论文; 知识体系论文;

网络环境下文档分类的可视化_信息可视化论文

猜你喜欢