全文信息资源数据库技术实现及开发利用分析,本文主要内容关键词为:信息资源论文,开发利用论文,数据库技术论文,全文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在信息领域中,硬件不断淘汰,软件不断升级,惟有信息资源具有长期的价值。在我国的信息资源的建设过程中,由于方方面面的原因,传统图书馆及情报资料机构建立数字化全文资料的可行性非常小,虽然文摘能节省用户获取文献利用的时间,但同时也损失了大量的原始信息,增加了信息内容的失真率。考虑到目前各种信息文献资料中,非结构化数据占了80%的比重,针对这些格式复杂的文献信息的管理要实现应用人员的快速查询响应的需求,因此,在系统建设过程中,针对结构化数值数据型信息与非结构化文档、文本信息的协同应用等扩展需求,这就要求我们在建设信息资源数据库应用平台的同时要廉顾结构化信息统计分析与非结构化文献信息的知识挖掘。
1 系统设计与技术选择
作为面向Internet/Intranet共用信息资源平台,在信息系统的建设应遵循以下基本原则:
1.1 安全性与易用性
根据应用的特点,整个系统的安全性必须得到充分的保证。全文数据库综合查询系统不论在局域网Intranet内,还是在Internet上,都要提供有效的、灵活的全文数据库查询手段,支持html格式、WORD、PDF等文件格式,还要对多媒体信息兼容操作,通过对数据库的权限管理、日志文件等操作途径实现数据库安全管理的目的。
1.2 先进性与实用性的平衡
系统应用建设要有一定的前瞻性、可扩展性。在系统应用建成后的五年之内,数据量等方面的增加不应导致对网络结构及主要设备的重大调整。同时要考虑实际的应用水平,避免技术环境过于超前造成投资浪费。
系统应用设计、分类信息的组织与实现将体现信息获取的方便性,完备性。充分挖掘各类信息资源,为Intranet/Internet用户提供及时、便利和个性化的信息服务。
1.3 可靠性和可维护性
易维护性也是确保系统成功应用的重要因素。系统操作与维护简单易用,风格统一,尤其对于系统管理员来说,无须编程,即可对数据和应用进行维护与扩充应用。同时系统应体现协作应用的特点,体现日常的信息加载、发布、维护更新的分布式协同应用与集中式系统管理的需求(见图1)。
图1 系统应用与信息开发结构示意图
笔者在技术研究与实际应用中发现,采用关系数据库(Oracle及SQL Server7)开发中文全文检索应用中走了一定的弯路。关系数据库针对于数据存取操作、统计应用、数据分析等结构化应用中,对中文信息的检索处理非常不实用,在上千条全文信息检索中,效率难以达到日常应用的需求,缺乏对存储在“大对象”中的数据的内容进行检索和分析的核心功能。我们通过实际测试比较发现,北京TRS信息技术有限公司的中英文全文检索系统具有相当的技术优势与应用优势,TRS for RDBMS GATEWAY实现了主流关系型数据库的全文检索,全面实现了关系型数据库与TRS全文数据库之间的数据共享以及两者之间的双向数据迁移。通过该技术,各种Web应用服务器可以透明地连接Oracle、SQL Server、DB2、Sybase和Informix五大主流数据库,使我们在利用主流关系型数据库卓越的数据处理功能的同时,拥有TRS领先的全文检索功能。
通过实际应用研究发现,我们总结了建立全文检索数据库应用中要遵循的2个要:
(1)要支持丰富多样的信息和数据对象。因为在信息资源的来源中,包括有Text、HTML、WPS、WORD、PDF、ISO2709、MARC、RTF等格式数据,甚至还有S2/PS2/PS等版式文件。
(2)索引策略的选择。对于中文数据库,会有四种类型的索引策略:按中文词检索的索引策略、按中文字检索的索引策略、按用户自定义关键词的索引策略以及字词混合索引策略。在实际应用中,采用何种索引策略主要取决于数据的特点、检索的需求和系统的资源等。为解决长期以来关于字索引和词索引的问题,字词混合索引的独特方案有效解决了分词无法达到100%准确性的问题。
2 数据库应用实例
中国石化石油勘探开发研究院是中国石化股份有限公司直属科研单位,在勘探开发前瞻性的基础理论及应用技术开发研究、资源评价研究、储备性工程技术研究;重大油气勘探开发科研项目和重大生产经营项目的技术经济论证、设计审查;国外油气资源、信息研究,国外资源利用选区评价论证及可行性研究等方面积累了大量的各种综合信息数据。我院采用了北京TRS公司的中英文全文检索系统,经过三个月的系统实施和四年之久的实际运行检验,完全达到了预定目标。
根据石油石化工业的特点和研究院的未来发展需要,我们着力开发了有代表性的期刊数据库、资料数据库和国际油价库等内容,在数据库开发技术和面向用户功能上各有特点,体现出“系统集中管理,信息协同发布”的应用特点,建立严格的用户权限管理机制,不同的栏目授权不同的人(部门)来维护,用户根据授权浏览个性化信息。系统的最初实现并应用在Window NT平台上,最近根据研究院系统平台统一规划的要求,已经将TRS全文数据库应用系统移植到Turbo Linux系统平台,由于系统采用三层架构的模式,保证了该系统具有一定的通用性、可扩展性等方面的特点。
2.1 数据库
(1)油气工业信息期刊数据库。这是以研究院信息中心国外情报组定期出版的内部刊物“油气工业信息”为数据源的期刊数据库,包括期刊和专题的全部内容,其中全文部分常常插有大量图片和表格及超文本数据信息。在这个期刊库中,已装进1996年至今的期刊。
(2)研究动态数据库。这是以研究院科技处不定期出版的内部刊物“研究动态”为数据源的刊物数据库,包括标题、作者和正文,在这个期刊库中,已装进1998年至今发行的刊物。
(3)研究院资料馆数据库。
(4)新星石油公司资料总库。
(5)国际市场三种油价库。
2.2 应用
我们根据TRS平台提供的应用工具建立的各专题信息数据库,支持同时对多个数据库进行检索,查询页面风格也可根据需要自由变换显示模板,使页面显示更灵活多样。TRS的WAS4.0正是基于模板技术,使发布的信息和表现形式分离,信息的维护与页面表现分离,大大简化了维护工作量,提高了工作效率。系统集中体现了以下特点:
(1)提供全文检索和外部特征检索的各种逻辑组合检索手段,辅以二次检索、历史检索、概念检索、层次分类检索,实现全方位的检索手段。
(2)对检索结果提供包括相关性排序、日期等外部特征排序在内的各种排序手段,在文章中提供命中点加亮的功能。
(3)融合TRS数据库和多种关系数据库的信息统一发布,支持对TRS全文索引库、关系数据库(如:ORACLE)中全文信息的检索处理等。
(4)消除了平台的障碍,由于TRS Web Application Server4.0完全采用了基于JAVA的技术,因此,完全适应跨操作系统平台的移植问题。
2.3 权限管理
研究院数据库中凝聚了研究院数年来积累的大量信息,这些也构成了研究院面向未来快速发展的数字资产,同时也是国家宝贵资源的重要组成部分,因此,在建立完善数据库的同时,系统应用的安全性也被放在了首要位置上。
在全文检索数据库中,我们采取将用户、数据库分层管理的技术,对不同身份和需要的用户,设置有:
普通用户权限A:对于一般用户,不需任何口令就可以访问局域网网页上对公众开放的数据库,可以对数据库进行全文检索,可以从允许下载的数据库中以文本格式下载数据库内容,存放到指定的路径中。
研究院用户权限B:对于研究院用户规定了统一的用户名和口令,用这个用户名和口令登录后,可以浏览到一些普通用户看不到的数据库,可以访问和对数据库进行全文检索,比如:研究院科技档案馆资料库一、研究院科技档案馆资料库二:属于内部资料的保护设置。
特殊用户权限C:属于更高一级的内部资料保护设置。
资源用户权限D:对于特殊岗位的用户,使其有对指定数据库插入权限(不能删除数据库已有的记录)。拥有这一权限的用户同时拥有了对相应数据库的浏览检索权。
资源用户权限E:对于特殊岗位的用户,使其具有建立网上指定数据库和对该数据库操作的权限,并有对指定数据库创建和注销用户的权限。
标签:全文检索论文; 数据库应用系统论文; 大数据论文; 数据库技术论文; 数据检索论文; 用户分析论文; 索引论文; 文献检索论文;