应用Web数据挖掘技术捕获网络档案信息资源的个性化服务研究,本文主要内容关键词为:信息资源论文,数据挖掘论文,个性化服务论文,档案论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着人类步入信息化时代,网络作为信息产生和积聚的重要媒介,已成为一个巨大的信息海洋和知识宝库,提升捕获网络档案信息资源个性化服务功能,是目前满足用户对网络信息资源需求的一项前沿性研究课题,更是高校馆藏现代化建设最具发展前途的新潮流。本文依托Web数据挖掘技术,围绕开发和生成具有高校特色的专业/专题档案数据库,着重就网络异构信息索取和个性化服务的途径选择,提出可供开发高校馆藏信息服务的技术措施。
一、网络档案信息资源个性化服务的目标追求
信息资源管理(Information Resources Management,IRM)的思想和理论现已发展成为一门独立的应用管理学科。随着现代电子信息技术研究成果在IRM领域的普及应用,网络海量信息资源捕获模式和异构信息索取的技术研究备受青睐,不仅对高校馆藏信息服务具有不可估量的开发价值,而且终将成为引领高校特色专业/专题档案数据库建设的必由之路。
作为“人类活动记忆”的档案,在网络时代其信息来源、载体、功能、管理模式正在发生着深刻的变化。高校档案管理机构必须顺应IRM发展领域的新潮流和网络技术跃迁的新趋势,科学调整策略,加快技术创新,着力构建和完善捕获网络海量信息资源的多功能、全息式、个性化服务体系,不断丰富高含金量的馆藏信息,为最终实现“5W”目标而不懈努力。所谓“5W”目标,是指创建Whoever(无论是谁)、Whomever(无论对谁)、Whenever(无论何时)、Wherever(无论何处)、Whatever(无论何事)的网络海量信息资源个性化服务模式,能够根据每一个来访者的需求,分析出潜在的用户群,预先做出满足其需要的“对象库”,以利提供特色化的增值服务。
二、网络档案信息资源个性化服务的主要障碍
Web是当今Internet上最受欢迎、最为流行的超文本信息系统,不仅能实现各种类型数据的无缝集成,还具有提供图形界面快速检索等服务功能。但是,Web技术仍有诸多缺陷和不足,尤其是Web数据存在着海量性(Magnanimity)、异构性(Heterogerleity)、非线性(Nonlinear)、可靠性(Reliability)、动态性(Dynamic)等固有特点,用户要从分散的、异构的、没有统一管理的网络数据中快速、准确地获取信息,尚待Web数据管理技术能有新的突破。
一是Web数据的海量性。网络环境下档案信息不再是单纯的文本信息,还包括大量的非文本信息,呈现出多类型、多媒体、非规范、跨地理、跨语种等特点,且网络信息的“指数级”快速增长,引发了生产和利用之间的矛盾。如:一方面是网络海量信息资源与日俱增,另一方面是用户采集网络信息碰到的技术困难愈来愈多。怎样针对网络信息资源海量性特征,提炼出可利用的高纯度信息,这是Web数据管理技术发展需解决的首要难题。
二是Web数据的异构性。在Internet上,目前具有众多的信息系统,如何让任意两者进行通信、存取相关资源、远程执行指令、交互和合作等,既是市场竞争中最自然最基本的需求,也是任何一个信息系统能否生存与发展的基石。但网络信息资源目前尚未形成统一的数据化体系和标准化结构,特别是计算机硬件平台、数据库系统、软件版本、信息数据形态等方面都存在着明显的差异,致使全球Internet构成了一个巨大的异构数据库环境。在提倡个性化的时代,Web数据异构性不仅面临着进一步扩大的趋势,而且将不断加剧信息系统之间资源存取的复杂程度。
三是Web数据的非线性。Web数据的非线性,是指不按比例、不成直线的关系,表现为不规则的运动和突变。WWW运用超文本技术既可让用户从一个文件自由快捷地跳跃到另一个文件,也可在同一页面的不同部分之间跨段跃行地自由浏览。这种非线性的组织构建方式虽营造了一个令人惊奇的“虚拟世界”(Virtual World),但Web技术创新的难度和需付代价将随着速率增高而呈高于线性的增长,甚至引发种种出乎预料的“网络危机”。
四是Web数据的可靠性。在网络信息资源采集过程中,由于“信息源”具有易被修改的特性,其真实性很难得到保障,导致用户经常为网络信息的可靠性而担忧。为让用户放心使用采集到的网络信息,Web数据管理平台必须对“信息源”的客观性和准确性进行仔细审视、鉴别,或与其他信息资料进行对比、校验,才能作出较准确的判断,但这项工作不仅需要耗费大量的时间和精力,也是Web数据管理技术亟需解决的一项重要课题。
五是Web数据的动态性。信息如果不能反映事物的最新变化状态,其效用不仅会迅即降低,甚至会随着“生命周期”的结束而完全失去效用。Internet是一个时刻更新和变化的系统,其信息增长速度快、更新频率高的优势为其他媒体所难以企及。但是,如何让Web数据系统从动态的网络海量信息中自动发现突发事件的主题,并能对突发事件的相关信息进行自动化的组织与生成、智能化的探测与跟踪,这既是Internet最具市场研发价值的追求愿望,也是Web数据管理技术发展进程中尚难跨越的一大障碍。
三、网络档案信息资源个性化服务的技术支撑
随着网络个性化时代的到来,广大网络用户对Web服务种类和质量的要求日益提高,但面对“众口难调”的网络用户,信息采集系统的技术创新步伐却始终处于滞后状态。在此背景下,高校馆藏机构如何及时发现分散在不同时空、具有价值的网络信息资源?如何提升用户个性化需求的服务能力?计算机科学的回答是:大力创新和发展数据挖掘技术。
数据挖掘(Data Mining)是指从大量、不完全、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。Internet日益普及的今天,Web浏览器已成为获取网络信息的“第一窗口”,Web网站上的信息可看作是一个“数据库”——更大、更复杂的数据库。创新Web数据挖掘的运用技术,正是通过建立Web信息数据库来实现个性化服务的关键所在。
根据高校特色专业/专题档案数据库建设的工作实践,笔者将数据挖掘与Web两者新技术成果加以结合,试图从Web文档与Web活动中,发现并获取用户的潜在需求,探索建设以用户为中心的“人—机”接口智能化的服务平台,以促进高校特色专业/专题档案数据库步入“服务时空个性化、服务内容个性化、服务方式个性化”的发展轨道。应用Web数据挖掘技术,建设高校特色专业/专题档案数据库,需要注重把握的技术处理流程如下:
一是建设目标的确立。明确数据挖掘的目标,是实施数据挖掘的首要任务。构建高校特色专业/专题档案数据库,必须首先明确建设目标,制定建设规划,提出实施措施,切实使信息资源采集的对象、类型、范围、时间和采集的深度等方面均能符合用户需求,以避免和克服信息采集的盲目性。
二是信息网络的评价。首先,要按照高校特色专业/专题档案数据库建设的目标要求,对所需采集的目标网站进行细致周全的考察,了解其基本信息,如网站的知名度,所需收集信息的完整度,相关专业/专题网络信息的知识水平,以及网站信息的存储格式、检索手段、更新频率等。其次,要根据各类网站的信息资源特色和技术条件,制定出信息采集评价指标体系,包括网站信息资源的广度和深度、网络信息的权威性和新颖性等重要指标。第三,要运用信息采集评价指标体系对被选择网站可供的专业/专题信息作进一步深度评价,以提高决策的科学性和可行性。
三是信息版权的协议。为确保网络信息捕获工作的顺利进行,在采集网络海量信息时,对网站信息的下载深度、下载内容可否公开利用等问题,必须与被采集网站达成协议,以避免发生版权纠纷。
四是采集工具的选择。网络信息数据的“捕获”(Capture),是指对电子文件进行实时收集和存储的方法与过程。现有的网络信息采集软件名目繁多,但服务平台和技术功能各异,应根据采集内容来选择相应的专业Web信息自动采集器,并按照网络信息采集频率、深度和分类等技术要求,合理选择综合功能优、价格成本低的匹配软件,以促进采集工具装备建设实现效益和效率的“双赢”。
五是数据库平台的优化。提高网络信息数据捕获的质量,既要依托匹配的采集工具,更要注重优化数据库智能集成水平。因此,要建立健全采集“元数据”与B/S模式高校档案Intranet管理系统的对接平台,以实现自动标注相对应的数据来源、自动对全文文件生成“标识符”、自动转换为统一的存储格式等。同时,要在提高剔除无用或重复信息自动过滤技术水平的基础上,更加注重完善数据库信息资源的分类、整合、编目和存储等技术处理功能,以提高不同类别或主题的被采集信息优化集成水平。值得重视的一个概念是“元数据”(Metadata),是指描述电子文件数据属性的数据,它包括文件的格式、编排结构、硬件和软件环境、文件处理软件、字处理和图形工具软件、字符集等数据。鉴于不同系统生成的“元数据”具有异构性,因而必须将来源于不同系统的“元数据”进行技术转换处理,才能实现“元数据”的本地化存储和利用。
四、网络档案信息资源个性化服务的方式选择
Web信息捕获在多元化、交互性、动态化发展的网络环境中易受到诸多技术条件的制约,用户“因事而异”地选择搜集方式是一个不可忽略的重要问题。目前,可供选择的技术手段有三种:一是手动搜集方式;二是自动搜集方式;三是半自动搜集方式。
1.手动搜索方式(Manual)——选择式归档。是指档案数据库管理平台对Internet海量信息资源作某种特定范围选择后的再归档,目前主要有两种手段:一种是直接登录专业网站访问有关方面的信息;另一种是选用专业搜索引擎作选择式归档。搜索引擎(Search Engine)是指Internet上专门为用户提供查询服务的检索工具。用户在Internet上借助搜索引擎的帮助,不再需要记住复杂的网址和路径(URL),只需记住搜索引擎的入口,提交查询词就可找到想要的信息。手动搜索方式,试图将Internet的数字化信息与纸质信息同等对待,是对传统纸质信息收集方法的变通和延展。其优点是:每个选出条目的质量基本能够得到保证,且可被最大程度的利用;每个选定条目的内容,能较完整地集中于数据库某项主题之下进行归档;归档后的各个条目可进行完全著录,并自动输入目录数据库;每个归档后的条目,用户可立刻通过B/S模式高校档案Intranet管理系统进行检索利用。其缺陷是,手动搜索方式的选择判断是人为主观做出的,难免存在偏颇。尤其需要注意的是,手动搜索方式虽移植了纸质信息的文档保管方法,但网上信息资源的产生、发布和利用仍处于初期阶段,极多的变化因素易使选择式归档受到种种限制,如果高校馆藏信息的采集范围不断扩大,不仅劳动量会呈无限增长之势,而且数据库会因技术层面的制约而出现过多的无用信息、信息占有量不足或查准率不高等方面的困扰。
2.自动搜集方式(Automatic)——全面式归档。自动搜集方式实质是一种全面式归档,是对Internet 上所有信息资源进行归档的方法。这一技术手段,能运用智能程序对Internet上所有的信息资源进行自动归档,可最大限度地减少信息归档时的人工干预,还能有效降低成本。
运用自动搜集方式进行智能采集,必须选择与数据库集成平台相匹配的Web信息自动采集器。目前,已经面世的“Teleport Pro”、“Offline Explorer”、“WebCHM”、“WebZip”等专业软件都是较为出色的离线浏览工具,利用这类工具软件既可从Internet的任何地方抓回用户想要的文件,又能在用户指定的时间自动登录所需网站下载被指定的内容。
除了以上介绍的离线浏览工具外,还有一些特色工具软件可供用户采集信息时选择使用。就网页图片保存技术而言,运用“网页图片保存能手”这类特色工具软件,点击一次就可批量保存网页上的数十张甚至上百张图片到指定的文件夹内,并能在自动生成的网页图片信息文件上添加文字注释。“WWW2Image”是可把整个网页保存为一个图片的专业工具,其只需在Address中输入要保存的网址,剩下的工作则由“WWW2Image”自动完成。“网页照相机”是一款强大的网页快照工具,能将被指定的网页快速保存为JPG图片。“网童网页保存”这款工具软件可以做到不用“拷贝粘贴”,点击右键菜单即可自动提取正文内容,并有将多个网页保存在一个文件中和自动将网页保存为MHT、WORD格式等多项功能。
需要指出的是,大部分数据库类型的网络站点,因系统和数据结构差别太大,若想获取其内容,使用一般的采集软件可能很难做到,技术条件强的高校馆藏机构应根据需要,有针对性地编写专用软件来采集所需的信息(尤其是采集全文文件),以期达到更切合个性化服务的检索要求。
3.半自动搜集方式(Semiautomatic)——综合式归档。半自动搜集方式实质是一种综合式归档。所有的归档方法都被指出了缺陷,如选择式方法疏失了也许在将来很有价值的资料,全面式方法则过于宽泛,捕获的信息许多是残缺的或有瑕疵的,而有价值的资料也易被忽视,特别是计算机能否具有全天候的运行能力、是否具备巨大的存储空间,以及装备这些基础设施的高费用等,这都是高校馆藏机构难以在短期内做到的。半自动搜集方式,综合了前两种方式的合理部分,充分利用了自动搜集方式效率高的特点,并融入了手动搜索方式的人脑智力思考。可见,信息搜索方式的最优选择,应是三者的有机结合,即实施以自动为主、以手动和半自动为辅的功能互补搜索方式。
五、网络档案信息资源个性化服务的建设重点
面对与日俱增的网络信息服务需求,高校馆藏机构必须结合实际条件,更加注重数据库个性化服务能力建设,切实加强特色信息资源的采集。这里,笔者根据自己的工作经验,对应用Web数据挖掘技术,创建高校档案特色数据库和提供相应服务的技术要领,提出一些应对措施:
1.捕获网络学术资源的要领。学术期刊是一种最新颖、最活跃的“信息源”载体,其出版周期短、发表文章快,且具有连续性,能及时报道不断运动发展着的知识,能迅速反映科学技术和学术研究的最新成果,应用Web数据挖掘技术在B/S模式高校档案Intranet管理系统技术集成平台上,加快建设本校师生学术期刊论文和论著全文数据库、学报期刊全文数据库,以及本校博士、硕士、学士各个层次学位论文全文数据库等,这既是丰富高校馆藏信息资源的重要手段,也是提供个性化服务的必要基础。目前,可供选择的网站有三类:一是“中国知网”(CNKI)、“中文社会科学引文索引”(CSSCI)等网站,它们大规模集成整合了最丰富的知识信息资源,并提供了最有效的网络信息资源共享平台。二是国家、地方和行业发布科技情报的网站,它们以专业性、学术性信息为主,主要发布国家重大科学技术计划、项目、成果等信息。三是国内外行业院校信息网。目前,高校校园网信息系统多数是内部化的“信息孤岛”,只能独立运行,沟通程度不高,因此,推广应用Web数据挖掘技术,建立捕获网络学术资源专业/专题档案信息数据库,是了解行业院校最新科技信息和科研学术动态的重要手段。
2.捕获网络媒体信息资源的要领。报刊是出版周期最短的定期连续出版物,其作为一种独特的“信息源”载体,具有及时性、连续性、完整性、内容丰富、传播面广等特点,依托Web数据挖掘技术创建报刊信息全文数据库,应是高校馆藏信息化建设的重要内容。目前,国际国内多数报刊都在Internet上作电子版同步推进,直接登录其网站即可阅读到与当日发行报刊一致的内容。对此,高校馆藏机构要在收集纸质载体的同时,通过报刊信息全文数据库及时采集Internet上的电子版本,进行“同步归档”、“双套保存”。此外,对本校报刊的电子版也应将其及时收录进网络档案管理数据系统,以便提供在线检索之用。
3.捕获网络人物档案信息资源的要领。登陆专业检索网站,键入要搜索的人名或主题,用户可直接获得Internet上有关的人物档案信息。除了专业检索网站外,一些综合性的搜索引擎也提供了检索人物信息的功能,许多机构则通过建立自己的Web主页来介绍本机构的人物信息,一些个人也建立了自己的Web主页。这些都是高校馆藏机构捕获人物档案信息资源的重要渠道,因此,要应用Web数据挖掘技术,加快推进人物档案信息数据库建设。
依托Web数据挖掘技术,提升捕获网络档案信息资源的个性化服务功能,是一项庞大的系统工程,尤其是网络信息数据库建设需要进行长期的目标跟踪和系统采集,才能保证捕获的信息数据具有较高的质量。因此,高度关注Internet技术发展走势,及时调整信息采集策略,大力推进高校档案管理数据系统的信息采集功能体系建设,不断更新优化Web数据挖掘技术的硬件与软件配置装备,不断强化档案管理人员的信息素质,这既是掌握和驾驭网络档案信息资源变化规律的现实途径,也是完善和提升捕获信息资源个性化服务水平的有效举措。
标签:个性化服务论文; 数据挖掘技术论文; 大数据论文; web技术论文; 档案管理系统论文; 海量数据论文; 用户研究论文; 信息发展论文; 数据库论文; 元数据论文;