基于大数据数字图书馆的信息资源组织与信息检索论文_赵新宇

基于大数据数字图书馆的信息资源组织与信息检索论文_赵新宇

赵新宇 山东财经大学 山东 济南 250014

摘要:随着时间的流逝数字图书馆的信息资源会越积越多,再加上计算机技术和社交网络的不断更新用户产生的信息资源也会越来越多。数字图书馆信息服务需要大数据技术,数字图书馆信息服务建立在大数据的基础上将极大地改善用户对数字图书馆信息服务的满意度。数字图书馆的信息资源组织与信息检索作为大数据图书馆信息服务的重要内容之一,是实现数字图书馆有序运行的重要保障。

关键词:大数据数字图书馆;信息资源组织;信息检索

数字图书馆作为一种可检索复用的庞大信息系统,它是分布性、大规模的和有组织的数据库和知识库的集合体。对于用户来说,他们对这些数据库和知识库进行一致性访问,目的以获取自己对需要的最终信息。而要达到这种需求和结果之间的精确对应,就需要他们之间有某种“默契”,一致性的匹配方式,就是说,在数字图书馆短,为了便于用户获取有效信息资源,进行信息共享,就首先需要对数字资源进行合理科学准确适当的描述和组织,形成从分、有效、有序、准确的组织信息,为用户提供可检索和操作的入口,从而达到利用数字资源的效果。大数据环境下,数字图书馆的信息资源的数量大、结构形式多样化,对数字资源进行组织就显得尤为重要。大数据的出现对数字图书馆信息检索影响很大,大数据时代数据的更新速度非常快,如何快速处理这些快速更新的数据,为用户提供最新的检索信息成为基于大数据的数字图书馆信息检索服务的难点。

一,信息资源组织

目前数字图书馆信息资源组织存在的问题主要有四方面:信息组织具体操作中的问题、信息组织的要求问题、信息组织的方式方法问题和信息组织的标准化与协调问题。信息资源组织具体操作中的问题中又包括两个方面:具体组织对象难以选择和具体信息特征难以揭示。数字化信息存储的特点是不同主题的信息可以存储在同一载体上。如何选择组织对象成为一个问题。信息组织的要求来自数字信息资源本身对计算机软硬件设备的要求和技术的更新能否适应新环境。数字化信息资源的产生的方式很多,到目前为止没有形成统一的规范和标准,所以具体的信息特征很难揭示。信息组织方式很多,其中最基本的是主题法和分类法,到目前为止沒有规范统一的方法将分类法和主题法结合起来。数字图书馆是有许多数据库和知识库组成的庞大信息系统,构建一个统一平台实现不同数据库和知识库中的数据流通成为一个问题。

信息资源组织是治有信息人员运用专门的信息技术手段对大量的、分散的、杂乱的各种源数据进行搜集选择,采用科学方法,将搜集的信息经过优化、加工处理和分析整序,形成一个便于有效利用的系统的过程。大数据的数据来源有结构化数据,半结构化数据和非结构化数据,面对这种复杂的数据通过处理和批处理等信息组织方式对这些数据进行处理,使数据呈现出一定规律。

数字图书馆信息资源包括馆藏信息和网络信息资源。馆藏信息包括实体信息资源和虚拟信息资源。网络信息资源的范围比较广,凡存储在互联网上的信息都可以成为网上信息资源,包括电子出版信息,用户浏览网页产生的信息。

馆藏信息和网络信息发展到一定程度会是数据呈几何倍增长,形成大数据。

期刊文章分类查询,尽在期刊图书馆目前的主题树方式、数据库方式、文件方式和超媒体方式等信息资源组织不能满足从大数据从及时高效分析和挖掘出有用的信息,所以要将大数据的组织引入数字图书馆信息组织钟来,更好的为用户提供服务。大数据组织方式包括流处理和批处理。这两种方式主要是针对非结构化数据进行信息资源组织。

二,数字图书馆的信息检索

信息检索是数字图书馆信息服务的必不可少的核心部分,数字图书馆的易用性很大程度上是通过信息检索系统来体现的。由于数字图书馆的数字化信息资源类型丰富,不受时间、空间、地域的限制,加大了信息检索服务的难度。随着信息技术和时间的流逝,这些数字化信息资源会越来越多,且数据的类型越来越丰富,在这种情况下如何来进行信息检索服务呢?这就需要将大数据处理技术应用到数字图书馆检索服务中。目前学界对数字图书馆的信息检索研究已趋向成熟,而基于大数据的数字图书馆信息检索服务的研究并不多。大数据环境下,数字图书馆信息服务的核心是面向用户信息需求为用户提供个性化的信息需求。基于大数据的数字图书馆信息检索的特征:

(1)个性化搜索。数字图书馆信息检索是建立在对用户信息的收集的基础上进行分析,这种用户信息包括用户的个人信息,学习信息和行为信息(研究信息)。通过对这些信息的挖掘准确定位用户的信息需求,根据现有的技术主动为用户提供信息推送服务。搜索引擎必须具备智能化,能根据用户输入的关键词将检索的结果按照相关度的高低呈现给用户即在保证查全率的同时要提高查准率,这就要求搜索引擎具备基于语义的分析能力和智能化的人机对话功能。

(2)实时优化需求。大数据环境下数字图书馆的数字化信息数量大,种类多,数据价值联系低,处理速度快,效率高,而且数据结构复杂,不仅有结构化的数据,半结构化的数据和非结构化数据,而且非结构化得数据所占的比例越来越大,使得信息更新的速度越来越快。基于以上情况,图书馆应该根据用户检索需求变化和数据环境更改,对搜索引擎进行实时优化。

(3)移动搜索需求。在大数据时代,海量数据的出现,用户获取信息的方式的改变,用户期望获取信息不再受时间,空间和方式的限制。为了满足这种期望除了数字图书馆能够7*24小时提供数字信息资源,用户还要有能够浏览,阅读数字信息资源的终端。

(4)智能化需求。基于大数据的数字图书馆信息检索服务的特征是精准定位用户的信息搜索目的,快速制定出检索策略,并将检索结果快速反馈给用户。第一,图书馆应实现索引擎“机器学习”的智慧功能。这种智慧功能主要表现在搜索引擎可以根据用户输入的关键词和表达习惯等,准确定位用户真正的信息需求,将检索的结果按照相关度排序后反馈给用户,并将于检索的关键词相关的信息也能反馈给用户。其次,搜索引擎应通过“机器学习”过程,除了满足文字的智能检索,还要扩展到图片和视频数据的智能化检索,并对检索到的信息进行恰当表达,语义分析,图片分类与存储,实现用户随时检索随时能得到满意的结果。最后搜索引擎要具备更新功能。在大数据的平台中数据会实时更新,搜索引擎要具备当这些大数据引进时能实时自我补充和完善,保持相关数据的动态更新,从而确保检索结果的准确性,全面性,实时性,提高用户信息检索的满意度。

参考文献

【1】李鹏云,大数据与图书馆服务【J】,农业图书情报学刊,2013,09

【2】刘明,大数据趋势与专业图书馆【J】,中华医学图书情报杂志,2013,02

论文作者:赵新宇

论文发表刊物:《文化研究》2015年10月

论文发表时间:2016/7/4

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于大数据数字图书馆的信息资源组织与信息检索论文_赵新宇
下载Doc文档

猜你喜欢