数据挖掘技术在图书馆创新服务中的应用,本文主要内容关键词为:数据挖掘论文,图书馆论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 图书馆开展创新服务的基本内容
图书馆的所谓创新服务是指图书馆通过多种途径主动了解各类读者的现时及潜在的需求,分析读者类型和需求结构,适时地更新服务手段,改变服务方式,千方百计提高服务质量,为读者提供方便、快捷和实用的服务。创新服务是高校图书馆服务发展的方向和工作建设的重点。新技术的应用是创新,管理的改革是创新,服务方式的改变也是创新。图书馆实施创新服务的最终目的,是为了满足读者的需求。故图书馆的创新服务较之于以往的传统服务方式,主要有以下内容:
1.1 以互联网为依托的信息服务
首先利用网络信息资源拓展服务领域。网络资源内容丰富、数量庞大,读者要利用的资源相当之多,然而,并非所有的读者均有时间利用网络信息资源,而图书馆在这个方面的确有着得天独厚的优势,可以开展多种形式的服务,如:为读者开展专题信息资源的搜集、整理加工服务;网上数据库开发利用及用户培训;远程文献信息传递服务等等,都是比较有效的方式。其次,开展网上虚拟咨询服务。为适应数字图书馆建设的需要,近几年来,国内外图书馆纷纷推出基于网络的参考咨询服务,他们以浩如烟海的因特网资源以及丰富的图书馆馆藏资源为依托,以一批参考咨询馆员和主题专家为后盾,通过服务系统,为在任何时间、任何地点提问的读者提供高质量的参考咨询服务。第三,开展馆际互借服务。馆际互借,是基于网络环境下的更大范围、更高层次、真正意义上文献信息资源共享,同时它也是高校图书馆“知识获取”服务的重要形式。包括文献复制、文献传递服务、馆际互借。第四,利用主页服务。网络信息的利用较之于传统的图书馆利用,不管是在时间上,空间上,效率上都比传统图书馆便利得多,因此,各个图书馆都纷纷建立了数字图书馆给读者更为便利的利用。各高校图书馆都利用网络环境来更好地宣传自己、展示自己,图书馆主页就成了面向读者、服务读者的重要窗口,成为网络环境下高校图书馆服务的崭新形式。
1.2 开展基于内容的专业化垂直服务
这种服务是读者目标驱动的面向解决方案的服务。它需要图书馆馆员具有超前意识,即超前于读者的现实欲望,主动出击,深入目标读者群体,把读者需求调研与图书馆提供的信息服务的宣传结合起来;它非常重视读者需求分析,通过对信息的分析和重组来形成符合需要的知识产品,并对知识产品的质量进行评价;它要求与读者的联系更明确、更紧密,建立起针对具体读者或读者过程的服务责任制,如挑选出有学科专业背景及业务知识丰富的馆员,分配到各院、系、所作为我馆信息服务的联系人,负责全面深入了解有关院、系、所的教学、科研任务及其对图书馆文献保障服务的综合需求;为各院、系、所在图书馆主页上提供学科文献信息导航服务,逐步向重点学科组开展门户网站的学科信息推送,以定期或不定期的形式组织并联系有关院、系、所师生参加图书馆举办的有关电子数据库检索和利用的培训讲座。
1.3 以读者为根本,开展个性化信息服务
随着知识需求的变化,知识服务正在向“个性化”方向发展。所谓个性化,即针对每一位读者独特的信息需求提供的有针对性的服务。一是个性化推送服务或个性化定制服务。利用信息推送技术,向读者提供定制的WEB页面、信息栏目,实施查询代理服务;或基于电子邮件的信息推送,根据读者的定制提供相应的信息栏目。二是个性化推荐服务,不但根据读者的特性提供具有针对性的信息,而且还能通过对读者专业特征、研究兴趣的智能分析而主动向读者推荐其可能需要的信息。三是个性化知识决策服务,即利用数据仓库、数据挖掘、知识提取、人工智能等技术对信息内容进行深加工,向读者提供能够用于决策支持、智能查询、科学研究、解决问题的策略。这是数字图书馆个性化信息服务的发展趋势。开展个性化信息服务还必须注重对读者信息需求的获取和分析,读者信息可从读者的注册和调查记录、流通和借阅记录、参考咨询留档、馆际互借记录、电话和邮件服务情况、电子数据库的使用等统计和分析中得到。基于大量读者的各自不同的信息需求,应对集成化信息进行高效率的过滤,即进行“信息分流”,从而提高个性化信息服务的质量和效率。
2 数据挖掘技术的概念及功能
信息技术的迅猛发展,导致数据库规模不断扩大、大量数据不断产生,而大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息。传统的查询、报表工具无法满足挖掘这些信息的需求,因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识。
2.1 数据挖掘的概念
数据挖掘(Data Mining)是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘是数据库知识发现中的重要技术,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持。
2.2 数据挖掘的功能
数据挖掘通过预测未来趋势及行为做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。
(1)自动预测趋势和行为。数据挖掘自动在大型数据中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。
(2)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
(3)聚类。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。20世纪80年代初,Mchalski提出了概念聚类技术,其要点是:在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4)概念描述。概念描述就是对某对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。
(5)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
3 数据挖掘在创新服务中应用的意义
图书馆信息管理与服务的发展大致经历了三个阶段:第一是文献信息以藏为主,文献利用较为消极的馆藏模式阶段;第二是文献信息注重有效服务,馆藏文献服务与网上信息服务相结合的服务模式阶段;第三是文献信息注重经济效益,着重开拓为经济服务的新信息资源并以网上服务为主的商业模式阶段。三个阶段的发展历程表明,信息管理与服务在横向上朝着市场化发展,在纵向上朝着网络化进深。市场化的挑战和网络化的复杂都对图书馆的信息管理与服务提出了新的要求。
首先,图书馆要处理和提供的信息更多、更新、更广泛、更复杂。为了避免陷入“数据丰富,但信息贫乏”的局面,图书馆有必要增强对信息的处理能力以及对信息资源的组织能力,尤其是对海量信息深层次的开发,提取表面上庞杂无序的内在联系供读者使用。
其次,个性化主动信息服务将是未来信息服务的主流模式,它实现的是“信息找人,按需服务”。而其实现途径就是通过对用户的信息需要、兴趣爱好和访问历史的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而指导用户的浏览过程和信息检索,或向用户主动推送服务。而这正是数据挖掘工具的强项。
第三,图书馆日积月累产生的大量统计数据和表单,如果没有一个强有力的数据采集和处理工具介入,往往会变成“数据坟墓”,失去其对图书馆工作的指导作用,而数据挖掘就是这样一种新兴的技术,可以为图书馆工作提供技术支持和决策管理支持。依赖于现代高新技术支持,通过采用现代高新技术,有序地组织资源,高效地满足用户的需求。目前,数字图书馆的信息内容包括大量的数字化馆藏、种类繁多的数据库、全文WEB资源链接以及互联网上的大量信息。这些大量的数据,只有通过组织、分析和挖掘,找出数据背后真正有价值的信息,才是用户实际需要的。这也正是数据挖掘技术所要解决的问题。采用数据挖掘技术,将其用于数字图书馆的信息发现和信息提供的全过程。从而向用户提供更优化的信息服务,并满足用户的个性化需求。因此,数据挖掘在数字图书馆信息最优化建设、信息自动化处理、信息服务质量的提升和义务拓展等方面具有广阔的应用空间;在数字图书馆向自动化、网络化、智能化方向发展过程中将一展神通。
4 数据挖掘技术在创新服务中的应用
图书馆的创新服务就是指图书馆通过多种途径主动了解各类读者的现时及潜在的需求,分析读者类型和需求结构,适时地更新服务手段,改变服务方式,千方百计提高服务质量,为读者提供方便、快捷和实用的服务。如何更好地组织信息?如何提供有效服务?这两个问题是图书馆创新服务研究的难点之一。面对“被数据淹没,却饥饿于知识”的挑战,基于人工智能的数据开采和数据挖掘技术应运而生,并被广泛应用。
4.1 在洞察读者信息需求方面的应用
搞好创新服务的根本目的是为了满足读者的需求,而要满足读者的需求,首先得了解和洞察读者的信息需求。在信息挖掘技术出现之前,要了解读者的需求只有通过读者抽样调查或者借阅数据的抽样统计来进行,既费时费力,也分析得不够全面具体。有了数据挖掘技术以后,可以利用图书馆的信息管理系统中的读者借阅数据进行分析统计,可以利用读者经常访问的网页进行分析、挖掘,了解到读者的兴趣爱好、研究方向,从而确定提供服务的内容和方向。
4.2 文献信息组织和开发中的应用
传统服务也好,创新服务也好,最终提供给用户的是信息产品。没有切合读者需求的高质量的信息产品提供给读者,就谈不上创新服务。传统服务的信息组织方式自不必说,在浩如烟海的网络中,如何找到读者需要的特定的信息不是一件容易的事。利用Web数据挖掘技术,就使这一过程变得容易并得以实现。在信息发现中,一是应用Web数据开采技术。它是针对Internet上信息的获取困难而发展起来的,其实现过程包括信息的采集、文档的识别与分类等。具体包括两种实现方式:网络智能体和智能信息捕捉器。二是应用多语种信息发现。它是针对全球化信息遇到的地理和语言的障碍而开发的研究项目。目前主要有几个方面的研究:多语种电子文档获取、集成机器翻译和多语种信息检索系统。三是跨学科协同检索。它的功能是可以向多个甚至几十个数据库并发请求,同时与OPAC、馆际互借、文档提交和电子资源相连,而提供给用户的是统一检索界面,返回统一结果。
4.3 个性化服务中的应用
可以说,个性化服务是图书馆创新服务的一种主要表现形式。个性化服务就是针对用户的特定需求主动地向用户提供经过集成的相对完整的信息集合或知识集合。个性化服务的形式有三种:①按照特定用户请求,为用户提供定制的Web页面、信息频道或信息栏目,实施查询代理服务;②按照特定主题,指引文献源或提供文献全文,实施个性化文献性信息服务。③按照特定主题,提供相对完整的方案知识,实施个性化决策支持服务。实现个性化服务,必须要经历以下的过程:构建个性化用户动态需求模型;搜索、挖掘,针对特定需求的相关信息;按照特定主题,将搜索、挖掘到的信息进行过滤、加工和组合,整合成完整的信息集合,并以在线或离线形式主动发送到用户或服务代理,实现信息支持;按照特定主题,融合、激活相对完整的信息集合,产生新的方案知识,并以在线或离线形式,主动发送到用户,实现创新服务。
4.4 在网上虚拟咨询服务中的应用
传统的信息检索技术主要针对结构化的数据库或文本型数据,使用的多为布尔逻辑检索或全文检索技术,缺乏对其它媒体数据的检索手段。而数据挖掘中对复杂类型数据的检索技术大大丰富了信息检索的技术手段,如图像识别技术、语音识别技术、基于相似性的检索技术以及对时序数据采取的关联检索的技术等。数据挖掘中的多媒体检索技术完全能够用于信息检索,实现跨媒体检索,从而使信息检索技术取得全面突破。因此,数据挖掘技术的应用,能大大提高咨询服务的效率和质量。
收稿日期:2006-12-13
标签:数据挖掘论文; 图书馆论文; 大数据论文; 文本挖掘论文; 数字图书馆论文; 数据检索论文; 用户分析论文; 用户需求论文; 文献检索论文; 数据库论文;