论网络信息分类体系的构建_搜索引擎论文

试论网络信息分类体系的构建，本文主要内容关键词为：试论论文,体系论文,网络论文,信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

自因特网诞生以来，网络资源日益膨胀，信息可获得量呈几何级数增长，并表现出分散、无序、变幻多端的特点，使网络信息无序扩张与网络信息有序利用的矛盾日益增大。无论是对传统信息组织很有经验的图书馆编目人员还是网络技术人员都在致力于解决这一矛盾，提出两种分类体系，即传统文献分类体系和搜索引擎自编分类体系。本文通过对这两种分类体系进行比较，分析各自的优缺点，从而提出未来构建网络信息分类体系的理想模式。

1 传统文献分类体系

传统文献分类体系是由图书情报学专家设计、以学科分类和逻辑划分为基础，注重体系结构的完整性和逻辑性，保持整体相对稳定的一维式知识结构。文献分类组织的直接目的是满足排架需要，最终目的是借助高度规范的词语或代码标识组织和揭示信息，反映知识的全貌和内在的逻辑关系。

1.1 传统文献分类体系的优点

作为体系结构完整、科学的分类体系，传统文献分类体系有许多优点，表现在：

①对科学、学术信息组织能力强。文献信息分类法为综合性的分类法，有很高的通用性，对科学、学术信息组织更具独特能力。

②有成熟的理论和技术。文献信息分类法的编制运用已有成熟的理论和技术，具有丰富的实践经验，严格的词汇控制和语义关联，有利于对网络信息进行筛选。

③适合网络信息的浏览检索。文献信息分类法是完整的知识分类等级体系，类目有严密的逻辑关系和严格的知识分类，全面揭示了知识的内在联系，非常适合网络信息的浏览检索。

④文献信息分类有悠久的历史，并得到广泛的应用，有深厚的用户基础。

⑤文献信息分类正向电子化和分类主题一体化方向发展，这种方向适用于网络信息组织。

1.2 传统文献分类体系的缺点

随着网络信息资源的大量涌现，传统文献分类体系在组织网络信息资源时越来越显示出自身的不足：

①文献信息分类法以学科分类和逻辑划分为基础而形成严密而深细的分类体系，这种线型等级分类体系对网上高度动态的信息资源缺乏适应能力。

②文献信息分类法过于严密而深细的分类体系，以及各种隐含的联系和限定，对检索需求千差万别的广大终端用户来说，缺乏易用性和可操作性。根据调查统计表明，网络用户经常使用分类目录的人仅占35.9％，94.2％的人经常使用关键词检索。

③文献信息法的分类体系和号码（分类号）制度，主要是为了满足图书单线排架的需要，对网上不同媒体、不同类型、不同性质信息的知识组织有很大的不适应性。

1.3 传统文献分类体系的改进

基于具有广泛群众基础和丰富理论实践的文献分类体系的优势与局限性，传统文献分类体系应在以下几个方面努力：

①加紧分类—主体一体化研究，类名设置既要便于非专业用户的理解与使用，又能与系统内部的规范主题词库相对应，利用分类限定获取范围，利用主题锁定专指信息。

②研究类号转换机制，建立不同分类体系之间类号的自动切换，即用户利用已知的一个类号在查检多语种信息资源时，系统能自动切换同一类别的其他类号，以提高检全率。

③克服文献分类组织处理网络动态信息的缺憾，依据一般用户对事物的认识习惯，以便于指导用户的浏览行为，并根据访问信息出现的频率大小等因素设置类目，按照若干标准，满足用户迅速访问信息的要求划分栏目，使之控制在3-4层。

2 搜索引擎自编分类体系

搜索引擎是对网络信息资源进行组织与检索的一类软件，它是INTERNET上最早出现的信息组织与检索工具。它主要提供两种信息获取途径，一是主题或关键词途径，即从不断搜索的URL地址中，整理出有关记录，按其相关程度序列显示。二是分类途径，即将不断搜索的URL地址所属页面的网络信息，按一定的分类法组织，并与检索法集成的信息获取方式。其中网络信息的分类是搜索引擎组织信息的主要手段。目前，大多数中文搜索引擎都创立自编分类体系，如搜虎、网易、新浪、网络指南针等。

2.1 搜索引擎自编分类体系的优点

搜索引擎分类体系是研究机构、网络技术人员面向网络信息、网络环境与大众用户而设计的，它具有较专指的检索响应、不确定的模糊检索和直观的分类浏览等特性。具体表现在：

①充分考虑网络信息的类型和特点，重视用户的需求。搜索引擎自编分类体以主题聚类为主，学科聚类为辅，依据普通用户的检索素养设置类名，依据普通用户的需求层次设置类目次序，并在同一划分过程中，随着用户需求热点的变化、网站的商业意向不同而采用多个标准揭示。

②揭示类目间的多维关系。网络分类利用超文本技术，根据知识门类之间的联系和使用需要，通过链接的方式在相应的类目下重复反映，充分揭示类目之间的多维联系。

③实现分类体系的动态组织。即动态设置类目和动态揭示类间关系。比如，在大型比赛或重大事件前将有关类目提前设置，并在一定时期里加强对这些热点类类间关系进行揭示。这些类目设置或关系的揭示一旦不需要，可以随时取消。

④体现分类法的灵活性。传统分类法多年修改一次且也多是修修补补，而对其体系结构不做大的改动，许多新学科、新事物得不到及时反映，而网络分类法可随时进行结构调整和类目的增删变更。

2.2 搜索引擎自编分类体系的缺点

目前各搜索引擎都采用自编分类体系，各分类体系间存在很大差异，限制用户对其充分利用，表现在：

①分类体系中知识领域不全和知识体系不严密，不少网络信息难以归类。网络分类法设置基本大类时，对知识的系统性考虑不足，仅以信息量多少、信息内容的重要性及使用频率为设置标准，如多数将计算机与互联网、教育、休闲娱乐等设为基本大类。

②类目概念划分逻辑混乱，隶属关系不清。如“搜狐”在18个基本大类中，将“计算机与互联网”与“科学与技术”并列；关于“图书馆”类目，“中国导航”将其设为“教育与科技”的下位类；“搜狐”将其定义为“参考信息”的下位类。

③类目设置随意，类目划分缺少规范。如对各级教育的划分，“新浪”为胎教—婴幼儿教育—初等教育—中等教育—高等教育—研究生教育—成人教育；“搜狐”为幼儿教育—中小学教育—高等教育—继续教育；“网易”则只有中学教育—高等教育—成人教育。再如，“搜狐”中有“各科教育”按科目内容划分教育：“网易”中则设“各地教育”按地区来划分教育。

④类名表述不相同，概念选用不科学。“新浪”类表中称计算机，“网易”中用电脑；“搜狐”类表中称互联网，“网易”中用因特网；“新浪”类表中用商业经济，“搜狐”中称工商经济，“网易”中用经济金融。甚至在同一分类系统中，对类名的选用也会出现不一致现象。如：“常青藤”类表中，“特殊教育”的含义为：残疾人的教育，但在“若比邻”中，则是指计算机辅助教育等。

⑤分类深度广度不同。不同搜索引擎类目设置深度广度不同，有的过细，有的过粗。如查找《路遥作品集》，“搜狐”类表中要经过文学〉文学类别〉小说〉文艺小说〉更多作家（拼音排序）〉K-L〉路遥。共七层。而“网易”中用经过文学〉中国现当代文学〉中国近现代小说〉现当代小说〉作者拼音（K-L）〉路遥。共六层。“新浪”中则只经过文学〉小说〉现当代小说〉路遥即可。

2.3 搜索引擎自编分类体系的改进

基于搜索引擎的使用状况，应注意三个方面：一是应建立与网络信息分类法相对应的网络检索系统，利用分类法与主题代码系统共同组织网络信息。二是重视主题结构的显示，建立自然语言与受控语言的对照系统，引入组配技术，加强分类主题之间的转换。三是加大对类目体系的深度控制，充分利用多重列类和重复反映技术，加强类目说明。

3 理想的网络分类体系模式

根据以上分析可知，搜索引擎自编分类体系与传统文献分类体系在网络信息组织中都有很大的不适应性。随着网络环境的延伸，用户对多检索途径的需求显得更加突出，单纯使用分类或主题的方法来组织信息资源，都满足不了用户网络查询的需要。因此，分类主题一体化成为网络信息资源组织的一种理想模式。

分类法是依据概念划分和概括原理，采取尽量列举的方法编制。主要特点是按学科、专业集中文献，并从知识分类角度揭示各类文献在内容上的区别和联系，提供从学科分类检索文献的途径。主题法是以事物为中心来集中与该事物有关的一切信息资源，具有直接性，能达到较高的专指度，这符合人们希望能快速从网上获取信息的需求特征。但主题法缺乏像体系分类法那样的“鸟瞰全貌”、“触类旁通”的系统性，且容纳海量信息的能力有限，它只适用于组织人们最关心、最常用信息的类目。因此，将体系分类法与主题法相结合的网络分类体系—分类主题一体化，既克服了分类法单纯以学科分类，又克服了主题法单纯以事物聚类的局限性，同时，既突破了传统分类法层层划分、层层隶属的等级结构，又克服了主题法系统性差的缺点。分类主题一体化是将分类法和主题法有机的融合为一个整体。

我国第一部综合性分类主题一体化检索语言工具《中国分类主题词表》，是一种人工创制的、将分类检索语言和主题检索语言的功能加以融合的新型检索语言，其功能主要体现在：分类和主题可以互为索引，提高标引质量，适合于计算机和网络上的应用。检索的检准率和检全率都较高，实现分类号和主题词的混合检索。分类主题一体化检索语言在网络中的充分应用为分类主题一体化分类体系的构建打下基础。我国的《中国分类主题词表》的机读化和清华大学研制开发的《中国学术期刊（光盘版）》大型数据库，美国国立医学图书馆（NLM）研制的一体化医学语言系统UMLS都是分类主题一体化对网络信息资源进行组织的成功应用。随着数字图书馆的发展和成熟，分类主题一体化的网络分类体系将在实践中得到改进和完善。

标签：搜索引擎论文;

论网络信息分类体系的构建_搜索引擎论文

猜你喜欢