完善网络信息分类与组织的思考_搜索引擎论文

完善网络信息分类与组织的思考_搜索引擎论文

对完善网络信息分类组织若干问题的思考,本文主要内容关键词为:若干问题论文,组织论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

据美国加州大学伯克利分校Peter Lyman和Hal Varian 2002年的研究报告显示,全球每年生产的信息量平均每人250兆。这些信息中绝大多数以多媒体形式存在,印刷型文档只占总量的0.003%。网络信息如此巨大的生长速度和内容繁杂、缺乏科学规范与有效过滤的状况,将进一步湮灭价值信息,导致信息的严重污染和“效用危机”。

网络信息的分类组织是规范、优化信息的有效手段,当前,网络中大量存在的商业性“主题——分类”搜索引擎和部分网络数据库所采用的“分类——主题”检索窗口,已从实践层面,开始了网络信息分类组织的先行研究并获得了较好经验。分析思考与之相似的若干命题,为最终确立新型统一的网络信息分类系统提供参考,成为本文关注的焦点。

1 网络信息特点问题

网络信息是指通过计算机网络可以利用的各种信息的总称,根本上区别于传统的载体信息,是网络信息分类组织的直接考究对象。网络信息的特殊性决定着网络信息分类组织应有的特殊要求。网络信息的总体特征主要表现为4个方面:

1.1 数量大、内容广、形式多

网络信息的自由发布,促成网络信息量的激增。据统计,Internet网上每天发布的新信息高达14万件,信息总量超过20TB;信息内容涉及政治、学术、教育、体育、新闻、影视、经济、文化、历史、艺术、生活娱乐、文学、地理、人文、科技等人类活动的各个领域;信息形式涵盖文本、声音、图形、图像、软件、数据库等多种类型。

1.2 动态性、网状性、无序性

网络信息所处网站、网页的推陈出新,网络信息自身的更新维护,使得网络信息从形式、内容到地址都具有极高的动态性;同时,相关的网络信息以超文本方式链接,使网络信息在总体上呈现出网状性;信息取舍的网状性因用户的现实需要和随意组合而产生,这种非线性的杂乱编排,最终造成网络信息用户界面、检索方式的各不相同,表现出网络信息的无序性特征。

1.3 共享性、不均性、交互性

网络信息以数字化存贮,以网络化传播,一定的缓存空间即能满足不同用户对同一信息的共时享用,“无复本”,“不破损”,体现了较强的共享性;同时,网络信息发布的自由度与随意性,欠缺必要的质量审核程序,导致网络信息良莠不齐,既有高质量的信息资源(如最新的科研动态),又混杂着大量的信息“污垢”和信息“垃圾”,表现出不均性;大部分网络信息在发布的同时,相应地提供了版主(或网站)的E-mail地址,或开辟BBS、讨论组等反馈渠道,便于用户浏览信息后进行见解交流,体现了交互特征。

1.4 多语种、超时空、低成本

网络信息是基于全球网络的信息汇集,因而是多语种的信息资源;通过TCP/IP协议和自愿原则,网络将原本存贮于不同国家、不同区域服务器上的信息连接在一起。超越时空限制的网络信息成为“只要用户与网络连线即可随时调用的信息资源”;同时,网络信息的生产本质上是计算机二进制代码的产生过程,实现电子技术、通讯技术、网络技术等手段支撑的信息“在线浏览、复制、下载、上传与存贮”等交流过程,体现了网络信息的低成本特征。

基于网络信息的上述特征,在完善网络信息分类组织中,应树立“动静结合”的观念,在确保基本知识大类“静态”的前提下,提高类系、类目依网络信息变化而“动态”更新的能力;应充分利用网络信息超文本链接的网状分布特征、达到线性结构与网状结构相统一、体系列举与分面组配相补充,学科分类与事物分类相转换的多维聚类目的;应针对网络信息的多语种、超时空特征,考虑类系建构中国际性与民族性的融合问题,不同语种分类体系类目的转换问题;应减少观念形态对体系结构的主导定势,注重揭示各类知识的内在联系。

2 网络环境现状问题

网络环境泛指电子计算机等设备与通讯技术、多媒体技术、计算机技术、网络技术等手段相结合而构建的宽带、高速、综合、广域型的数字式电信网络,是社会化的信息环境。网络环境是网络信息的生长环境,也是网络信息分类组织的工作环境,分析思考网络环境的现状与特点,将有助于网络信息分类体系的进一步完善。

网络信息分类组织随着网络的形成而发展。全球网络环境形成于20世纪90年代,Internet现已联接了3万多个网络,6000多万台主机,6000多个图书馆,1万多个联机数据库,覆盖世界190多个国家和地区,用户超过2亿,网络日信息量以万亿比特(bit)单位计算,并按月均8%的速度增长。国内网络基地建设始于1992年,至今已建成了中国金桥网(CHINAGBN)、中国教育科研网(CERNET)、中国科技网(CSTNET)、中国公用计算机网(CHINANET)等四大国家级计算机互联网络。同时,高校图书馆网络(文献信息资源共享服务系统)、中国科学院文献情报信息共享系统、国家图书馆远程光盘检索系统、中关村地区书目文献信息共享系统(APTLIN)、珠江三角洲图书馆网等一批主干资源,和为数众多的以局域网方式挂接四大网络的情报机构、图书馆、文献部门所提供的专业性、地方性、特色性共享数据库等次干资源,组成了我国网络资源的基础。据2001年中国互联网络信息中心(CNNIC)发布的第七次《中国Internet发展状况统计报告》显示,中国现有上网计算机892万台,上网用户2250万,国际出口带宽2799M,国内网络环境也基本形成。

网络环境的现状同时体现了它的基本特点,即:信息分布式——没有网络中心,信息分散于各网络节点;用户非专业——利用网络信息的用户大多不是专业人员;需求大容量——用户需求包含广度深度的大容量信息;检索人性化——提供人性化的检索途径、检索平台和检索方法;获取无障碍——选择使用信息资源的无障碍、通畅性等方面。

基于网络环境的现状与特点,在完善网络信息分类组织中,应定期检视分析网络各节点的分散信息,及时发现“新知识”和“老化类目”,动态地管理分类体系;应提供详细、完善的自然语言人口,建立自然语言、规范语词与机器赋号的对应转换机制,实现信息的“无障碍”获取;应降低类名的专业含量,完善类名与术语,指向一致的类目注释;应提高不同分类法之间的类号转换能力,提高人机结合赋号标引能力,实现用户信息的“大容量”需求。

3 文献分类组织问题

传统的文献分类体系是以学科分类和逻辑划分为基础,注重体系结构的完整性与逻辑性,保持整体相对稳定的一维式知识体系。它通常由图书情报学专家设计,是面向印刷型文献的分类体系。文献分类组织经过长期的发展已较为成熟,积累了丰富的经验与成果。网络环境下,分析借鉴文献分类组织的优势与局限,将有利于调整网络信息分类组织的发展思路。

文献分类组织的直接目的是满足排架的需要,最终目的是借助高度规范的语词或代码标识组织和揭示信息,反映知识的全貌和内在的逻辑关系。总体上,文献分类体系是以统一标准,按照从总到分、从一般到具体的逻辑次序,树型纵深的等级结构,实现对知识的组织与揭示;局部上,文献分类体系又在具体表达类目、主题之间复杂关系时采用了交替类目,借助大量的参见、组配、注释等方式来辅助组织与揭示。文献分类组织结构上的严谨性、逻辑性,使知识隐含的联系和限定贯穿在整个体系内部。可见,文献分类组织经过长期的理论与实践已然成熟,是当前关于载体知识组织与揭示的较好版本。

然而,网络环境下,文献分类组织的局限性却愈发地明显。具体表现在:网络信息的动态性、扩充性、暂时性、选择性等特点,强化了动态揭示新学科、新知识的迫切要求,而文献分类组织严密的结构体系,长达几年甚至十几年的更新周期,将远远滞后于信息的发展;注重某一概念在知识体系里的准确定位,一维、固定的“层层划分,层层隶属”,既给不熟悉分类体系的用户带来极大的认知负担,又会把用户访问的希求信息“埋藏”于5、6级类目之后;由于按学科或专业划分,致使同一主题的类目过于分散,影响了需求信息的查全率等多个方面。可见,文献分类组织与网络环境二者之间存在“隔阂”,却仍然有“沟通”的可能。“网络指南针”采用《中图法》创建了网络信息分类检索系统;“中华网”采用分面组配分类法,设置了地域分面与主题分面;美国俄亥俄州联机图书馆中心(OCLC)利用杜威十进分类法(DDC)建立了网络信息分类检索系统Netfirst等等。实践证明:文献分类组织在网络环境下,“可以用于联机浏览检索、非文本信息组织、超文本系统管理,并可以作为网络信息组织的通用工具,促进分类主题一体化的发展”。

基于文献分类组织的优势与局限,在完善网络信息分类组织中,应借鉴文献分类组织以知识分类体系最大限度地覆盖信息资源内容,直接用于网络信息组织,具有广泛群众基础和丰富理论实践积淀的优势,构建以文献分类组织为基础的多维分类体系;应加紧分类——主题一体化研究,类名设置既要便于非专业用户的理解与使用,又能与系统内部的规范主题词库相对应,利用分类限定获取范围,利用主题锁定专指信息;应研究类号转换机制,建立不同分类体系之间类号的自由切换,用户利用已知的一个类号(自知或被告知或输入自然语言由系统默认)在查检多语种信息资源时,系统能自动切换同一类别的其他类号,以提高查全率;应克服文献分类组织处理网络动态信息的缺憾,依据一般用户对事物的认识习惯,以便于指导用户的浏览行为,并根据访问信息出现的频率大小等因素设置栏目,按照若干标准、满足用户迅速访问信息的要求划分栏目,使之控制在3~4层。

4 搜索引擎使用问题

搜索引擎(search engine)是对网络信息资源进行组织与检索的一类软件。它能在获得“指令”后,运行网络机器人或蜘蛛程序、漫游的Web软件程序,在网络页与页的链接顺次中搜索相关的Web,页,并将Web页的URL(Universal Resource Lo eator或经格式化了的Internet地址)地址及其他网络信息写入索引数据库中。当前,全球已有Infos eek、Yahoo、Hotbot、Excite、Lycos等“七大检索引擎系统”;Norther Light、Inforian Quest98、Webseeker等“集成检索引擎系统”;Yeah搜查、中国导航等“中文引擎系统”,分析思考搜索引擎的使用状况,为完善网络信息分类组织提供直接的理性元素。

搜索引擎是Internet上最早出现的信息组织与检索工具,主要提供两种信息获取途径:一是主题或关键词途径,即从不断搜索的URL地址中,整理出有关记录,按其相关程度序列显示;二是分类途径,即将不断搜索的URL地址所属页面的网络信息,按一定的分类法组织,并与检索法集成的信息获取方式。其中,网络信息的分类是搜索引擎组织信息的主要手段。由于Internet存在大量的非专业用户,搜索引擎在建构类分网站(或网页)的体系时,多以主题聚类为主、学科聚类为辅,依据普通用户的检索素养设置类名,依据普通用户的需求层次设置类目次序,并在同一划分过程,随着用户需求热点的变化、网站的商业意向不同而采用多个标准,动态揭示。可见,搜索引擎的分类体系是研究机构、网络技术人员面向网络信息,网络环境与大众用户而设计的,它具有“直观的分类浏览方式”,“较专指的检索响应”,“适合不确定的模糊检索”,“浏览最新学术、新闻时政”等较好的实用性特点。

然而,搜索引擎在实现网络信息的分类组织、主题标引和定题检索等方面还存有较大的弊端,具体表现在:

第一,搜索引擎的分类体系逻辑性、严密性不够。类目残缺、随意,缺乏必要的类目索引;类名过于迎合大众用户的习语素养,缺乏有效注释,无法反映信息资源的学科属性;类目设置因只反映大众用户所需信息,只将网站或网页地址作为分类对象,而显得较为粗糙。

第二,搜索引擎的网络信息分类索引数据库标引深度不够,缺乏合适的检索语言。大量地以程序软件析自网站篇名、内容的关键词作标引,虽然一定程度上能够表达信息的主题概念,但由于信息发布用词并无规律,同时存在大量的同义词(近义词、俗语、呢语、缩写、全称等)现象,使得关键词与检索课题常不匹配,标引深度不够;使用人工控词标引,虽然查全率、查准率较高,却又因为成本大、工期长,而无法适应网络信息的增长。

第三,搜索引擎组织网络信息的区域不足,检索功能不全,无法全面检索。目前,Internet开放的网页已达21亿页,并以每天730万页的速度递增,而全球最大的搜索引擎Fast仅含3亿个网页,Altavista仅舍2.5亿个网页,都不足以覆盖全部的Internet资源;无法检索图形、音频、视频、动画、图像等多媒体信息,无法甄别检索信息的“真伪”和过滤虚假信息;自动搜索程序通常仅对网站最高的2~3级网页建立索引,而遗漏掉处于低级页面的信息。

基于搜索引擎的使用状况,在完善网络信息分类组织中,应建立与新型网络信息分类法相对应的网络检索系统,采用与网络信息分类法相关联的主题范畴系统,利用分类法与主题代码系统共同组织网络信息;应重视主题结构的显示,建立自然语言与受控语言的对照系统,引入组配技术,加强分类主题之间的转换;应加大对类目体系的深度控制,充分利用多重列类和重复反映技术,加强类目说明;同时还应关注搜索引擎业已成熟的技术经验和日渐人性化的用户界面。

标签:;  ;  

完善网络信息分类与组织的思考_搜索引擎论文
下载Doc文档

猜你喜欢