重点学科知识组织与专题知识库开发研究——兼论楚辞研究专题知识库的组织与实现,本文主要内容关键词为:知识库论文,组织论文,专题论文,楚辞论文,重点学科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
清华同方光盘股份有限公司TPI协办
1 知识组织内涵
“知识组织”是从文献分类系统和叙词表的基础上发展起来的。1929年著名分类法专家H.E Bliss在《知识组织与科学系统》、《图书馆的知识组织》两部著作中阐述了以文献分类为基础的知识组织思想,现代知识组织即起源于此。此后成立于1989年的“国际知识组织学会(ISKO)”为推动世界范围内的知识组织研究起到了积极且卓有成效的作用。科技的高速发展带来知识的爆炸,而知识存储的无序导致知识利用的困惑。因此应采取必要措施来对知识进行组织以利于更好地利用,这些措施应能使知识存储有序化并且易于获取,也就是说运用有效方法处理知识的存储,使那些在知识的获取方面受到物理限制的用户能够对知识加以利用。因此,知识组织的目标就是知识获取手段的改善与获取过程的优化。综合目前国内外对知识组织概念的多种解释,结合以上我们对知识组织目标的理解,我们给出以下知识组织的定义:知识组织就是为了改善知识存储状况和优化知识获取过程而对知识进行有效整序的过程,以及对知识有效利用功能的知识处理系统。
2 重点学科知识组织过程(见图1)
重点学科是高校开展科学研究、创造高水平和高质量标志性科研成果的重要阵地,是高等学校进行“211工程”建设的核心,是衡量高校办学水平、办学质量的重要标志之一。图书馆作为院校的文献信息中心,是教学、科研的重要组成部分。如何适应重点学科的发展需要,进行重点学科知识组织与管理,构建重点学科信息资源体系,深化信息服务工作,是当前文献信息服务部门面临的机遇与挑战。以下拟结合重点学科信息服务实践,通过重点学科知识管理系统的实现对重点学科知识组织过程进行研究。
学科专业馆员从用户目标和环境出发,进行重点学科知识的收集与捕获管理,并构建重点学科专业多媒体知识库,然后设计完成重点学科知识组织的各个系统功能模块。具体内容包括5个部分。
2.1 知识智能获取模块
学科馆员利用各种搜索工具,针对对口重点学科外部知识、对口重点学科内部知识尤其是隐含知识,包括数字图书馆资源库、重点学科专题信息资源、重点学科多媒体教学课件资源、重点学科专家学者信息资源、重点学科WWW网络信息资源等进行跟踪、搜索、检索和获取。
2.2 知识智能分类整合管理模块
利用各种分类工具对重点学科知识分类整合,这是构建重点学科专业多媒体知识库的关键部分。分类过程中要清理掉无用的知识、重复的知识,将共享知识、重用知识、专题知识等进行归类,经过分类梳理后的知识再进行整合,会使知识的使用者知道知识的来龙去脉、前因后果,知道要做什么和怎么做。将不同重点学科、不同类别、不同来源的知识整合为符合创新要求的特定的知识,整合为在创新驱动下所生成的新的知识。在对重点学科知识进行整合的过程中可采用立体整合方式,即将重点学科相关知识划分为横向知识和纵向知识,然后分别进行整合的方法。横向知识,是指某一类(或某一学科)知识与其它相关知识的关联程度。例如,关于信息处理方面的知识,其横向知识就涉及到图书情报知识、计算机知识、网络知识、人工智能等知识。而纵向知识则是指某一门类知识的广度和深度方面的知识,是知识内部的变化问题。立体整合的特点在于通过整合可以通观重点学科某一类知识的历史溯源和发展前景,也可以了解与其它知识的关系及相关程度,对于建立知识的立体架构具有十分重要的意义。在重点学科知识组织过程中,采用知识的立体整合方法,有助于开发重点学科内部的隐性知识和显性知识,促进重点学科内部知识共享和重用,在重点学科建设、科研、教学实践中,处于一个较为主动的地位。知识的立体整合要求学科馆员对某一学科的知识有较为深入的了解,同时具有较强的归纳整理能力。经过对重点学科知识的立体整合,可以构建重点学科知识情报体系,提高重点学科核心竞争力,为重点学科建设提供高效的信息资源保障。在知识整合中,自然科学与社会科学合为一体,为区分研究对象而在抽象中隔离开的知识,在打破学科界限的具体实践需要中,又重新走向统一。科学与技术相互作用,科学成为新技术思想的直接源泉,成为工程设计的工具与方法的源泉,技术也同样是对科学做出新挑战的源泉,这样就达到了知识整合的真正目的。
图1 重点学科知识管理系统功能图
2.3 知识智能组织、挖掘和优化管理模块
经过对重点学科知识分类整合,学科专业馆员在自身专业知识的基础上,利用信息技术、数据库技术和人工智能技术,从重点学科纷杂的信息流中发现新的知识点及知识间的联系,按相关重点学科知识体系组织到数据库中,并通过计算机存取、检索算法进行智能匹配,使相关重点学科用户能方便地检索有关数据与知识。
2.4 知识交流和知识匹配传送管理模块
通过知识库、计算机网络群件管理系统、工作流智能控制系统等方法,促使重点学科有关学术信息知识更方便地被用户所知晓和利用,促进重点学科专家学者与重点学科知识源之间、重点学科知识需求与知识提供之间的准确匹配和传送。
2.5 知识利用管理模块
学科馆员利用专家系统、专门分析工具、决策支持系统等支持重点学科用户对知识的分析和运用,利用知识、利用管理模块将知识的应用有机融合在日常教学科研工作过程中,并将所产生的重点学科研究的新知识迅速组织到相关重点学科知识管理体系中并不断更新重点学科专业非结构化多媒体专题知识库。
3 重点学科专题知识库开发研究
重点学科专题知识库开发是重点学科知识组织的重要组成部分,是重点学科知识管理系统的核心。以下结合对南通师范学院重点学科“古代文学”当中的“楚辞研究专题知识库”系统的开发研究,论述重点学科专题知识库系统开发过程及其功能实现。
楚辞研究专题多媒体知识库系统是利用非结构化数据库智能组织技术、专家系统、智能挖掘技术,采用结构化设计思路开发设计,后台数据库使用MS SQL SERVER2000。前台使用ASP结合JAVA语言编写动态的交互功能,ASP采用了网页嵌入服务器脚本机制,并应用ASP内置的数据库存取组件ADO(ActiveX Data Objects)技术实现对专题知识库的直接访问,不需要编译代码程序也不必告诉WEB服务器如何响应URL请求,因此可以简单、快速、高效地开发WEB信息发布系统。
系统整体分为两部分,一是楚辞研究专题知识库组织与实现部分,二是楚辞研究专题知识库系统用户管理与服务部分(见图2)。
3.1 楚辞研究专题知识库系统组织与实现
专题知识库构建内容包括:楚辞研究著作库、楚辞研究论文库、楚辞研究专家学者库、楚辞音像资料库、兰文化研究资料库、楚辞网络导航库六部分知识库的组织与实现。上述六部分知识库的结构设计、专题知识库内容获取与组织整理、检索功能的设计与实现、与用户模块的接口设计等方面,其中最重要的部分是知识库内容获取与智能检索功能的设计与实现。以下是这两部分具体实现过程。
(1)知识库内容获取与组织整理。具体包括楚辞研究专题知识的内容分析、专题知识的收集和整理、知识形式化。a.知识内容分析包括对楚辞研究领域的文字、图像、音像、超文本等多种媒体信息源知识内容进行分析,研究该研究领域横向和纵向知识、边缘知识、核心知识、该领域所包含的事实与规则、知识内容的详细程度(例如题录、全文、图像详略、音像资料的完整性)、知识的确定性与不确定性(包括文本知识的确定性和超文本知识的确定性)等等。b.专题知识的收集和整理。通过对知识内容的分析,确定知识收集、整理的具体方法,初始知识库内容收集主要包括三方面内容:一是楚辞研究核心知识,包括楚辞研究专家学者核心期刊和权威出版社出版著作、现有的重大课题和研究成果等等;二是楚辞研究扩展知识,包括普通期刊论文、省级公开出版论著、音像资料等;三是楚辞研究相关知识,包括民间收集(包括INTERNET网上)的未经出版或公开发行的论文、论著以及事实、图片、音像资料等。随着知识库内容收集的不断深入,可选择知识获取工具来辅助完成收集和分类整理工作,知识获取工具可帮助快速完成楚辞研究领域知识体系的构件。此外为了提高楚辞研究资料的收全率,可以借助网络挖掘工具,对网上虚拟文献资料、多媒体资料、超文本资料等进行智能抓取、归类,倒入和更新知识库内容。C.专题知识形式化,按照知识库结构设计要求的形式,通过手工录入和机器录入工具,将收集和整理好的各种格式的知识内容统一转换输入到知识库中,初步完成图2中楚辞研究专题知识库组织与实现的六个部分的内容。
(2)智能检索功能的设计与实现。本系统具有智能检索功能,首先用户提出检索请求,进入用户检索信息分析器,然后通过用户智能检索WEB界面对楚辞专题知识库、用户兴趣关联规则知识库以及预测用户行为进行智能存取匹配,实现用户检索结果智能导航。在设计中,我们首先设计了一个简单实用的数据模型来描述知识库中的页属性;再利用关联规则挖掘算法和预测算法,建立兴趣关联规则知识库;然后根据用户当前访问的知识库和Web页面中各链接点的信息和访问轨迹,结合“行业专业词汇表”和兴趣词条间的关联规则,计算并排序各链接点的权重值,从而预测并预取出用户将最可能要访问的前n个Web页面的信息,按多种推荐方式供用户快速有效地浏览、下载和编辑。
图2 楚辞研究专题和知识库系统结构图
3.2
楚辞专题知识库系统用户管理与服务
系统用户管理与服务部分包括系统用户管理与WEB用户服务两个功能模块。系统用户管理模块包括用户权限管理和用户信息修改管理功能。具体功能包括:实现用户认证,实现各部分的录入、修改、删除功能等。WEB用户服务模块包括用户定制检索、专家交流讨论、课题跟踪服务、专题信息推送等服务功能。以下给出用户定制检索功能以及与知识库远程连接的实现过程。
用户定制检索包括:定制楚辞著作库、楚辞论文库、楚辞专家学者库、兰文化库、楚辞音像资料库和定制楚辞网络导航。以下以楚辞著作库定制为例介绍其实现方法。首先定制对著作名或作者或出版社检索,输入任意检索的关键字,设定查询的模式为前方一致或任意匹配,同时可以设置查询的时间范围提交后通过ADO远程连接数据库服务器,发送检索的命令,数据库处理后送回匹配信息,按时间先后的顺序进行分页显示结果并提示检索的命中条数。
收稿日期:2004-02-09