网络环境下的信息组织研究_搜索引擎技术论文

网络环境下的信息组织研究_搜索引擎技术论文

网络环境下的信息组织研究,本文主要内容关键词为:组织论文,环境论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

信息组织是采用各种方法和手段使信息序化的过程,它通过揭示信息之间内在的逻辑联系,将某一方面大量、分散和杂乱的信息经过加工、整理、提炼和优化,使之组织化、系统化,从而达到有效利用的目的。随着因特网的普及和发展,其已成为全球最大的信息资源库,网络信息正以惊人的速度增长,网络信息的组织和传播正以全新的方式进行。在信息网络化过程中,面对种类繁多且杂乱无序的海量信息,传统的文献组织理论和方法面临着困境和新的挑战。下面就网络环境下我国信息组织研究的理论和方法进行探讨。

1 信息组织的理论研究

任何学科的发展都离不开理论的支撑,传统的文献组织主要是以语言学、逻辑学和知识分类作为理论基础,分类法、主题法就是在此基础上建立起来的。但网络信息具有高度无序性、分布动态性、信息数字化、载体多媒体化等特征。传统的文献组织的基本理论和方法已显得捉襟见肘,迫切需要拓展信息组织的理论和方法,以便更好地对网络信息进行有效组织管理。

1.1 关于知识组织的理论

知识组织是在图书馆学、情报学的分类系统和叙词表研究的基础上发展起来的[1],是文献组织的延续和升华。与传统的文献组织以文献加工为本位,揭示文献所载的知识内容不同,知识组织是以知识单元为加工本位,它不仅揭示文献的学科、主题内容,而且更注重揭示文献所载的知识单元。知识组织将文献和信息中所包含的知识内容用语词和概念表达,采用知识工程中的知识表达方法——OAV三元组法进行知识标引和组织[2],能更有效地对网络信息进行组织和检索。关于知识组织的理论基础还包括整序、概念学、数学方法、系统科学、知识工程、心理学等。

1.2 系统科学理论

系统科学的思想是20世纪20年代由奥地利学者贝塔朗菲提出来的,他把系统定义为“相互作用的诸要素的复合体,认为系统的定义可以确定为处于一定的相互关系中并与环境发生关系的各组成部分的总体。”系统的基本特性有整体性、内部相关性、环境相关性、层次性、有序性和目的性等。系统的整体性是指各个要素按一定的方式构成的有机整体,其要素与整体、环境以及各要素之间相互联系、相互作用,使系统整体呈现出构成部分所不具有的功能。因此,可以通过提高系统要素的基质和系统整体的组织化程度,使整体的功能大于它的部分功能之总和。系统的层次性是指系统由若干子系统有机组成,子系统可由更小的子系统构成,从而形成一种层次结构。系统的有序性表现为结构的有序性和系统运动的有序性。在信息系统中,可将系统科学理论应用到信息组织、信息开发利用以及信息资源管理中,使信息系统更加组织化、有序化,更好地发挥信息资源的作用。

1.3 耗散结构理论与协同学

耗散结构理论是由比利时布鲁塞尔学派领导人普里高津教授于1969年在理论物理与生物学国际会议上首次提出来的,这一理论着重从“非平衡”和“开放系统”两个方面,论证了那些存在进化发展的系统有序性增加的原因。所谓耗散结构是指一个远离平衡态的开放系统,通过不断地与外界交换物质、能量,在外界条件的变化达到一定的阈值时,从原来的无序状态转变为在时间上、空间上或功能上的有序状态,这种在远离平衡情况下所形成的新的有序结构,就称为耗散结构。耗散结构理论的基本思想有两点:一是系统内部非平衡,是有序之源;二是开放系统通过与外界交换物质、能量而增加、维持有序性[3]。信息系统正是一种耗散结构系统,它是远离平衡态的开放系统,具有输入、输出、多次循环及反馈等开放性的基本特征,因此耗散结构理论可作为信息系统信息有序组织的理论基础。

协同学是由前西德科学家哈肯于1970年提出来的,是一门专门研究系统进化普遍规律的科学,它研究由许多子系统构成的系统(如电子、原子、分子、细胞、器官、生物、社会等)是如何通过协作从无序到有序演化的规律,在对系统进化规律研究的具体或普遍程度上,协同学比耗散结构理论更进了一步。而信息系统正是由许多子系统构成的,如何建立各子系统之间的协同作用机制,使信息系统由无序向有序转化是信息组织研究中的一个重要课题,因此协同学也是信息组织的理论基础之一。

1.4 突变理论

突变理论是现代数学的一门新兴分支学科,是20世纪70年代由法国数学家勒内·托姆首先提出来的,它用形象而精确的数学模型来揭示和预测事物的连续性中断的质变过程。突变理论指出系统的熵可以增加也可以减少,这种熵增、熵减可以在宏观无限小的时间内突然发生。突变熵减少产生的有序性,可以抵消、战胜自然界某些自发熵增趋势,有可能造成有序性的发展,由此得出突变理论的一个重要观点“突变是产生有序性的重要源泉”[3]。因此突变理论为信息组织理论的发展与完善提供了理论基础。

1.5 信息自组织理论

信息自组织是信息组织方法的拓展,是信息组织理论研究中的一项新课题。凡是能够不再借助于外部控制而能实现从无序到有序的转变,并维持稳定有序状态的系统,就称为自组织系统。任何自组织系统都是通过谐振、反馈和放大来完成信息增强,并保持其有序效应的[3]。信息自组织是指作为信息系统组成要素的信息,由于人与人之间、人与系统其他要素之间存在的相关性、协同性或默契性而形成特定结构与功能的过程,也就是信息系统无须外界指令而能自行组织信息,自我走向有序化和优化的过程[4]。近几十年来,由于信息总量的持续增长、信息技术的飞速发展,使信息系统显著地具备了自组织的条件,特别是网络信息已经具有自组织系统的开放性、远离平衡和非线性相干等特征,因此研究信息自组织理论对于网络信息的有序组织具有非常重要的理论与实践意义。

2 传统文献组织方法如何适应网络信息组织

2.1 分类法在网络信息组织中的应用

分类组织法是一种按照学科或体系范畴,依据类别特征组织排列信息的方法,它以分类标识作为检索标识,按学科性质进行系统排列,具有很好的层次性和系统性。其分类体系便于用户扩检和缩检,便于进行浏览检索,传统的文献组织多采用这种方法。由于网络信息更加多样和无序,目前,分类法仍然是网络信息组织的一种基本方法。但是由于传统的分类法存在更新速度慢、变更难度大、表达关系的能力有限等缺欠,用传统的分类法组织网络信息并非完全适宜,应根据网络信息的特点,对传统分类法进行改进,以适应网络信息组织的需要。

分类法在网络信息组织中的应用有两条途径,一是实现传统分类法的机编化和机读化,如杜威十进制分类法第21版电子版本“Dewey Windows”的问世,将分类法带进电子信息资源环境,用以组织各类网络信息[5]。我国很多学者也对分类法的机编化和机读化问题进行了研究,并尝试实现《中图法》的部分机读化;二是创建新的网络信息资源分类体系,女口中文Yahoo和Sohu所采用的分类就很有自己的特色,其分类索引涉及到了科学技术、文学艺术、教育文化等各个方面,但也存在一些问题:如体系不统一、类名不规范、无分类代码等[6]。因此有必要在充分汲取传统分类法优点的基础上,深入研究网络信息分类法,探讨构建网上知识分类的原则与方法,以及如何依据网络信息分类法建立网络信息分类系统。

2.2 主题法在网络信息组织中的应用

主题组织法是根据信息的主题特征来组织排列信息的方法,它以语词作为检索标识,按字顺排列,直观性强,也是一种普遍使用的信息组织方法,该方法提供了一种直接面向具体对象、事实或概念的信息组织方法和信息检索途径。传统的主题组织方法包括标题词法、单元词法、叙词法及关键词法。世界上一些著名的检索系统都采用了主题组织法来组织文献信息,如印刷型的“The Engineering Index”、“Science Abstracts”、“Science Citation Index”、“Biological Abstracts”、“Chemical Abstracts”等。由于主题组织法在信息组织中表现出许多优势,使主题组织法仍然是网络信息组织的一种重要方法,具体方法有:

2.2.1 使用关键词法组织网络信息 关键词法是一种采用自然语言来组织信息的方法,由于关键词能深入、直观地揭示信息中所包含的知识,而且符合人们的思维习惯,因此关键词法在网络信息组织中得到了广泛应用。网上各种各样的搜索引擎和数据库大多采用了关键词法组织信息资源,如Yahoo、Infoseek、Hotbot、网易、搜狐等,中国科技期刊数据库、中国学术期刊光盘数据库也大多使用关键词法来组织信息。关键词法组织信息具有易标引、用户易掌握及管理费用低等优点,但是由于关键词完全取自自然语言,未经任何规范化处理,常给数据交换和网络检索带来困难,因此用关键词法组织的信息系统存在着检索效率不高等问题。

2.2.2 使用叙词法组织网络信息 叙词法是主题法中较后出现的一种方法,它吸取了其他多种方法的优点,使之成为一种质量较高的并能够较好适应电子计算机系统组织信息的方法。目前叙词法在网络信息资源组织特别是在一些数据库中得到了充分应用,如INSPEC数据库中的Thesaurus检索模式,MEDLINE数据库中的Thesaurus检索模式均采用叙词法组织信息。由于叙词是一种规范化的检索语言,其参照系统和索引系统都比较完善,适宜于科学的组织和管理网络信息,用叙词法组织的信息系统检索效率较高。但是叙词表一般规模庞大,而计算机内存有限,往往难于将整个词表全部输入计算机,而且非专业人员未经专门训练很难掌握其使用方法,所以叙词法组织网络信息仍然存在着一些需要解决的问题。

2.2.3 使用关键词法与叙词法相互结合组织网络信息由于关键词法和叙词法组织网络信息各有其长处与不足,因此可采用关键词法与叙词法相互结合的双重组织法来组织网络信息,即同时用关键词和叙词作为标引词,并建立关键词与叙词之间的对应参照,这样既有利于读者利用自然语言检索信息,又有利于对网络信息资源的准确描述与科学组织[5]。

2.2.4 使用分类主题一体化方法组织网络信息 分类主题一体化方法是将分类法与主题法有机地融合为一个整体,即实现了一个分类系统与一个主题系统的完全兼容。既能充分发挥各自独特的功能,又能通过配合,发挥最佳的整体效应。分类主题一体化代表了信息组织的一种发展方向,目前国内外在这方面都进行了大量的研究,提出了多种一体化方案,并编制了许多一体化词表,如“Thesaurofacet”、“UNESCO Thesaurus”、“Root Thesaurus”、“Physics Thesaurus”、《中国分类主题词表》、《社会科学检索词表》等。将分类主题一体化方法应用到网络信息组织中,一方面应尽快实现一体化词表的机读化,另一方面可利用一体化词表组织网上超文本系统,设计和管理超文本系统的链路。如Infoseek分为按范畴层次查询的Ultraseek和按词语查询的Ultraseek,它们很好地将分类检索与主题检索结合在一起。因为分类的族性检索与主题的特性检索反映了人类思维的两个不同侧面,用分类主题一体化方法组织网络信息,用户可随意选择检索途径,为信息检索带来极大的方便。

3 构建新的信息组织方法

3.1 搜索引擎的信息组织方法

搜索引擎是一种专门为组织与检索网络信息资源使用的检索工具,它所起的作用与传统的二次文献相同[7]。

3.1.1 目录式分类搜索引擎 将信息系统加以归类,利用传统的信息分类方式组织信息,用户按类查找,如著名的Yahoo。网络分类目录所使用的分类法有主题分类法、学科分类法、分面组配分类法和体系分类法。目录式分类搜索引擎由于网络目录中的网页是由专家精选的,所以网页内容丰富,有较高的检准率,但检全率较低,搜索范围较窄。

3.1.2 全文搜索引擎 是将网站的每个主页上的所有文字进行组织,建立索引数据库,索引信息包括文档的WWW地址,每个文档中单字出现的频率、位置等,如AltaVista。全文搜索引擎具有较高的检全率,搜索范围较广,但检准率较低,缺乏清晰的层次结构,查询结果中重复链接较多。

3.1.3 分类全文搜索引擎 是将目录式分类搜索引擎和全文搜索引擎组织信息的方法结合起来,通常是在分类的基础上再进一步进行全文检索,这就克服了目录式分类搜索引擎和全文搜索引擎各自的缺点,可提高检全率和检准率。现在大多数的搜索引擎都是分类全文搜索引擎。

3.1.4 智能搜索引擎 是根据已有的知识库来理解检索词的意义并以此产生联想,运用人工智能推理的方法来组织信息。目前比较成功的智能搜索引擎有FSA、Eloise、FAQFinder,FSA和Eloise是专门用于搜索美国证券交易委员会的商业数据库,这两个系统中均内嵌了特定领域中的商业知识,并使用推理—证明式的自然语言识别技术。智能搜索引擎具有较高的检全率与检准率[8]。

随着网络信息资源数量的指数级增长,搜索引擎组织信息的一些弊端已经暴露出来,检索速度逐步降低,缺乏满足不同层次用户需求的多种检索途径,检索效果不尽人意,因此需要进一步深入研究搜索引擎的信息组织方式,以便更好地利用网络信息资源。

3.2 数据库组织方法

数据库组织方式是将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其组配查询,就可找到信息线索(即相关站点链接),并通过信息线索直接连接到相应的网络信息资源。这种组织方式利用数据模型对信息进行规范化处理,利用关系代数理论进行数据查询的优化,从而大大提高了数据操作的灵活性,因而成为广泛的网络信息组织方式[9]。

3.3 超维组织方法

这是一种基于知识单元的新型信息组织方法,它借助超文本技术实现。超文本技术将文本信息存储在无数节点上,一个节点就是一个相对独立的“信息块”,节点之间用“链”连接,由此组成信息网络,它也可以链接声音、图像、影视等多媒体信息,构成超维检索点[10]。

3.4 FTP信息组织方法

文件传输协议(FTP)是实现网络信息资源共享的重要方式和有效手段,是一种快速、可靠、高效的信息传输方法,FTP服务器上的信息资源以计算机软件和统计数据为主,以文本和可执行程序软件包的形式存在。FTP以文件目录的形式组织信息资源。

3.5 基于图像的信息组织方法

随着计算机多媒体技术的发展,网上的非文本数据如数字化的声音、图像和视频图像等信息也在快速增长,对这些非文本信息进行系统组织,构建多媒体系统数据库,并对其进行灵活而有效的管理,能极大地方便人们对多方位和多层次信息的需求。近年来出现了一种新型图像检索方式——基于内容的图像检索(Content Based Image Retrieval, CBIR)[11],它是一种根据图像的可视特征如图像的颜色、纹路和形状等对图像信息进行组织,用与图像有关的文字对图像进行说明和注解,检索时使用传统的数据检索方法,根据关键词提问和查找所需的图像。

标签:;  ;  

网络环境下的信息组织研究_搜索引擎技术论文
下载Doc文档

猜你喜欢