网络新闻数字档案馆构建设想及其运行关键刍议,本文主要内容关键词为:刍议论文,档案馆论文,网络新闻论文,关键论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在数字化、信息化、网络化时代,每时每刻都有新的新闻信息产生、传播和利用。面对如此海量、庞杂的新闻信息,如何对其进行科学的管理、整合,如何使这些在网络环境下产生的新闻信息成为整个社会的记忆和财富,如何使这些新闻信息永久、有序地保存并能够随时提供利用?笔者借鉴数字档案馆建设的成功经验,提出了网络新闻数字档案馆的构建设想,并就其必要性和可行性进行了初步探讨,认为网络新闻数字档案馆的建设将有效解决上述问题。
一、网络新闻数字档案馆概述
网络新闻数字档案馆,是在网络环境下对互联网上的新闻信息进行捕获、整理、存储、开发并向社会提供利用的集成管理系统。它的建设将为人类积累大量的数字财富,为广大公民信息获取权利的实现创造必要条件,并且为社会经济发展提供丰富的信息资源。网络新闻数字档案馆有其独特的功能,与新闻网站和综合性数字档案馆不尽相同。
(一)网络新闻数字档案馆与新闻网站的差异
或许有人会认为如今互联网上各种各样新闻网站的设立已经很好地突破了传统新闻传播的时间、空间等限制,网络新闻数字档案馆的实现也仅是新闻网站的重复而已。但是笔者所提议的网络新闻数字档案馆与新闻网站相比有其独特优越之处。
1、信息整合功能不同。网络新闻数字档案馆对新闻信息的整合主要体现在两个方面:一是内容上的整合。网络新闻数字档案馆虽然也是在网络环境下提供新闻信息资源的一种方式,但它经过收集、整理、加工等过程,以用户易于接受的形式提供利用,具有很高的价值,是一种具有强大增值功能的知识数据库。而目前网络新闻信息都是未经过加工整合的无序、无组织的零散信息,给用户的利用带来很大的不便;二是形式上的整合,网络新闻数字档案馆从信息资源管理的角度出发,以新闻信息共享为目标,对互联网上新闻系统的新闻信息进行收集、整理、加工,基于统一信息管理平台,提供统一检索服务。它不仅是网络环境下新闻信息的集散地,而且还兼顾了管理与服务功能,实现了网络新闻信息资源在更大程度上的共享。而新闻信息网站仅以一般新闻信息服务为宗旨,忽视了对信息的整合。同时因为多头建站主体的存在,新闻网站的信息呈分散异构存在,是信息共享的最大阻碍。
2、信息组织功能不同。虽然互联网上的新闻信息在管理和组织上也有一定的协议和规范,但是淹没在大信息中的新闻信息真实性却难以保证。相反如果将其纳入档案信息系统,以维护档案的要求管理新闻信息才能真正发挥新闻的社会效用。互联网上大多数的新闻信息以条目标引为主,没有进行全文信息标引或标引深度不够[1],如仅进行单一主题标引。在响应用户查询请求时,也仅提供与查询关键词有关的信息,结果不全面,且存在误查现象。因而不能很好地满足用户的利用需求。网络新闻数字档案馆将在互联网上收集来的新闻信息进行自动标引和分类,不仅包括标题的标引、全文的标引,更包括对相关元数据的采集。并对其进行合理的整合开发,形成各种各样的基础数据库和特色数据库,通过信息服务系统向用户开放利用。
3、信息服务机制不同。建立在自动标引、自动分类基础上的网络新闻数字档案馆实现了基于语义的新闻信息快速准确检索利用功能。用户只要采取合适的搜索方法,就可以迅速在数据库中找到经过智能化整理和开发过的新闻信息资源。而互联网上的新闻网站多缺乏对新闻信息资源相应的加工,用户搜索出的信息并非基于语义而仅是字面上的简单匹配,检索范围也仅是单一网站的站内检索抑或是淹没在大信息资源中的搜索引擎检索。
(二)网络新闻数字档案馆与综合性数字档案馆的差异
从上世纪90年代开始,数字档案馆就成为档案信息化建设中的一个亮点。无论是国外还是国内,都投入了巨大的人力、物力、财力对数字档案馆进行理论研究和实践探索。如美国的911数字档案馆,日本的关西数字档案馆,英国的联合王国数字档案馆计划,我国的深圳、青岛数字档案馆等。
以上均是基于传统档案馆实体系统网络构建起来的地域性综合性数字档案馆,而网络新闻数字档案馆从本质上来说是专题、专业系统的数字档案馆。从两者的差异来看,主要是信息来源不同。综合性数字档案馆信息来源主要有三个途径:一是馆藏档案的数字化,二是电子文件和业务数据的移交,三是网上档案信息的搜索。就目前国内外发展来看,主要还是基于前两个阶段的信息来源为主建立的数字档案馆。而网络新闻数字档案馆的信息来源是互联网上各种各样的新闻信息。笔者设想建立的网络新闻数字档案馆就是针对互联网上的新闻信息的收集、整理、加工、提供利用的管理体系,它是一种智能化、知识型的数字档案馆。
二、网络新闻数字档案馆建设的力学分析
(一)网络新闻数字档案馆建设的阻力分析
阻力,是阻碍事物发展的力量。网络新闻数字档案馆建设的阻力,就是阻碍其发展不利于其实现的因素,主要表现在网络新闻信息的存在形式和传播特点等方面。
1、网络新闻信息的高重复率。由于互联网的开放性,发布新闻信息的主体比较多,加之网络新闻抄袭现象的存在,对于同一件事实的报道往往会有很多相关的新闻信息。网络新闻信息高重复率带来的一个问题就是因为参与报道主体的视角和立场不一样而造成的新闻信息质量良秀不齐现象。再者大部分的网络新闻与传统的新闻媒介如报纸、杂志等相比缺乏深度和可信度。
2、网络新闻信息的无序性。网络新闻信息往往呈分散、零乱的状态。新闻在互联网上的分布比较散,各个新闻网站的新闻关注的重点、对象不同。网络新闻信息以超文本、超媒体方式而构成立体网状的形式,缺乏统一的控制机制,可以根据节点任意跳动,不同于实体文献信息资源自成体系、呈线性方式的分布模式。往往使用户在查找新闻信息时无从下手。
3、网络新闻信息的分类标准不统一。网络新闻信息没有统一的分类标准,用户无法快速精确地搜索到想要的新闻信息。目前国内主要新闻媒体已有初级信息分类模式,但还存在以下不足之处:分类体系内容不够完善,具有明显的行业特征,不适于作为统一的新闻信息分类标准;类目代码设置不科学,众多媒体普遍采用字母数字混合制,不利于机检和记忆;类目层次不清晰,上位类和下位类没有严格的划分,给标引带来不便;这些分类法只按单一主题设置类目,标引之后的信息不利于后期检索,即多途径检索[2]。
4、网络新闻“信息孤岛”现象。网络环境下,各个新闻媒体的信息报道往往是孤立的,他们所利用的报道手段在功能上是不关联互动的,相互之间缺乏相应的协调机制。各个新闻媒体往往是各自为政,重复建设现象严重,浪费了社会资源。形成了网络新闻“信息孤岛”。在这种情况下,新闻信息的整合显得尤为重要。
(二)网络新闻数字档案馆建设的动力分析
动力,是指推动事物向前发展的力量。网络新闻数字档案馆建设的动力即是推动其向前发展,有利于其实现的积极因素。网络新闻数字档案馆建设有赖于时代背景、技术环境、数字档案馆建设的实践、信息生命周期理论、受众理论的推动。
1、社会信息化的推动。当今社会发展正在经历着一场信息化革命,随着互联网的迅速壮大,为信息交流创造了极大的便利,使得世界变得越来越小。但在使用获得便利的同时,网络的规模也越来越大,信息越来越多,有价的信息获取变得越来越困难,用户很容易产生信息迷航。当网络信息呈爆炸式增长时,获取有效信息的困难程度则变得更高。尤其是对普通使用者,这一问题的出现大大降低了互联网的使用价值,降低了工作效率,并且浪费网络资源,迫使用户支付高昂的费用[3]。因此,建立网络新闻数字档案馆能够有效解决用户信息迷航问题。
2、数字档案馆建设的经验。数字档案馆发展至今,经过了数据型(date)数字档案馆、信息型(information)数字档案馆和知识型(knowledge)档案馆[4]。对于网络新闻数字档案馆来讲,则属于第三种类型,这也是数字档案馆发展的高级阶段。网络新闻数字档案馆能够自动捕获网络环境下的新闻信息资源,并按照一定的规则来组织、管理新闻信息资源,通过开发整合向用提供利用,并实现管理者和用户之间的互动,使网络新闻数字档案馆变成存放社会记忆的地方。
3、技术环境的支撑。随着计算机技术和网络技术在数字档案馆中的应用,如中文分词和索引技术、网页内容自动抽取技术、自动摘要技术、互联网语义重复识别技术、自动聚类热点发现技术、信息自动分类技术等,使得建立网上新闻数字档案馆成为可能。有了现代信息技术的支撑,网络新闻数字档案馆整合新闻信息和提供利用等功能得以更好地实现。
4、信息生命周期理论。信息和其他资源一样也有一个从产生到消亡的过程,这个过程就是信息的生命周期。信息的生命周期包括收集、传输、加工、存储、维护和使用的整个过程[5]。也就是说网络新闻信息从产生到利用有一个完整的过程,在这个过程结束后,如果不对其进行合理的保存,那么它很可能就会消失在网络信息的洪流之中。这对于新闻来说也许没有太大的影响,因为它作为新闻的时效性已经过了,但从人类数字信息财富的角度看,却是一种不幸。网络新闻数字档案馆的出现可以将网络新闻信息永久保存,为以后的再利用创造条件。
5、受众理论。为了更好的服务用户(受众),需要研究用户的动机、态度、个性差异,采取更加优质的行动整合网络新闻信息资源,提供利用。受众理论要求网络新闻数字档案馆在研究用户的实际需求的基础上,通过对网络新闻的收集、整理、开发,提供更好的新闻信息服务。
上述因素促使网络新闻数字档案馆的实现,网络新闻数字档案馆的建设将有利于网络新闻信息资源的深度整合和高效利用,真正实现新闻信息资源共享。不仅可以互通有无,在第一时间让信息使用者得到最丰富完整的信息资源,更能减少重复建设,节约大量社会成本。
三、网络新闻数字档案馆的总体目标和运行关键
(一)网络新闻数字档案馆的总体目标
网络新闻数字档案馆建设的总体目标是使互联网新闻信息资源聚类化、有序化、特色化[6],并建立相应的检索机制,满足用户的利用需求。聚类化,是指网络新闻数字档案馆在收集网上新闻信息时,按照事先划定好的类别,有计划、有目的地收集网上新闻信息;有序化,对收集到的各类网络新闻信息进行整理、加工,利用相关的软硬件条件对新闻信息进行处理,变杂乱为清晰、变无序为有序;特色化,是指通过分析用户的不同需求,针对特定的新闻信息进行整合开发,形成专门的新闻数据库,满足用户的各种需求。
(二)网络新闻数字档案馆运行的关键
管理系统的建设是网络新闻数字档案馆建设的关键和核心,从某种程度上来说,网络新闻数字档案馆功能的实现有赖于管理系统的正常运行。因此,笔者在此对网络新闻数字档案馆的业务流程以及其管理系统作用机理做了初步探讨。
1、网络新闻数字档案馆业务流程(图1)。
网络新闻信息的收集,是对网络新闻信息进行整理加工的第一步,丰富的网络新闻信息是网络新闻数字档案馆建设的前提。信息收集是否全面、所收集信息质量的高低直接影响到新闻信息的整理、加工、利用。
网络新闻信息的整理,是基于所收集的网络新闻信息本身,从格式和内容上对其进行初步的整合。具体包括对表现形式各异的新闻信息进行统一的标引规范,去除重复的新闻信息,对新闻信息进行分类等。
网络新闻信息的加工,是在整理的基础上,根据用户的需求,基于语义分析对新闻信息内容进行深度的整合。形成针对特定事件的新闻专题数据库、特定行业的新闻数据库等。
网络新闻信息的利用,是在上述操作的基础上,集合相应的检索机制和面向用户的人机界面提供新闻信息利用。用户在利用的过程中,可以根据自己的实际需要,定制更加符合自己需求的信息服务,网络新闻档案馆可以根据用户的不同需要整理相关新闻信息,并通过邮件、手机短信的方式及时主动地推送。用户在实际使用过程中发现任何问题都可以向系统反馈。
2、网络新闻数字档案馆管理系统构成模块(图2)。
图1:网络新闻数字档案馆业务流程图
要实现网络新闻数字档案馆的上述业务功能,建立一个科学的网络新闻数字档案馆管理系统显得尤为重要。这一管理系统应该包括网络新闻信息自动采集子系统、网络新闻信息自动组织子系统、网络新闻信息开发子系统、网络新闻信息服务子系统、安全管理模块、系统管理模块等。
(1)网络新闻信息自动采集子系统。网络新闻数字档案馆不同于基于传统档案馆实体的数字档案馆,它没有相对固定的移交信息来源。网络新闻数字档案馆的信息来源是对互联网新闻信息的自动采集。对网络新闻信息采集一般可以通过两个途径实现。其一,对指定URL的新闻信息进行采集,比如对主流的新闻网站、论坛、贴吧、博客上的相关新闻信息进行采集。其二,指定新闻关键词,通过各种搜索引擎对互联网上的新闻信息进行采集。
(2)网络新闻信息自动组织子系统。对自动采集子系统采集的信息进行初步的处理和鉴别。包括去除所采集新闻信息中重复的信息、与新闻信息内容无关的广告等,对所采集的新闻信息进行自动标引、自动分类等操作,将不同的新闻信息归入各自的门类。最终形成网络新闻数字档案馆基础数据库,其结果以三种形式表现:①以URL的形式存储在数据库中,在检索利用过程中,可以直接通过URL链接找到原始网页新闻信息;②以网页快照的形式存储在数据库中,在原始信息被删除的情况了,通过网页快照可以查找用户查询的新闻信息;③以提取新闻信息内容的形式存储在数据库中,去除原有的格式,在保持原有内容不变的前提下,变换成统一的格式保管。
(3)网络新闻信息开发子系统。网络新闻信息的开发是在上述基础上,通过调查市场需求,对新闻内容进行整合,开发出能够满足用户需求的各种特色的全文型网络新闻数据库。使网络新闻信息从无序到有序,从分散到集中,通过网络新闻信息服务子系统,提供全文检索,从而使用户更快捷地利用网络新闻信息。
网络新闻信息开发的核心是对新闻信息本身的重新整合,包括标题的整合和内容的整合⑦。新闻标题是最能直接反映新闻内容的工具,是用户决定查阅新闻信息的关键因素,但是有些网络新闻的标题不能全面反映新闻内容,在这种情况下对标题进行整合是必要的。网络新闻内容的整合,可分为以下几种情况:其一,把文章中提到但有所忽略的新闻点提取并放大,通过自拟的小标题的形式表达出来。其二,根据某一专题的需要,将全篇新闻或者是摘取新闻段落进行组合,形成专题新闻报道,将反映各个事实侧面的新闻信息汇总在一起,思路清晰地将反映整个事件的新闻信息展现出来,使用户有一个全面而深入的了解。
图2 网络新闻数字档案馆管理系统模块图
(4)网络新闻信息服务子系统。服务子系统的任务就是直接满足用户的需求(图3)。这一系统有直观的人机界面,用户通过访问服务系统界面,就可以检索网络新闻数字档案馆的各个数据库。用户可以在信息反馈界面上向系统发送反馈信息。服务子系统的检索方式主要有以下几种:①以时间为线索的纵向检索。用户通过输入相应的时间,系统会在各个数据库中检索出在这一时间区间的全部新闻信息资源,并提供全文浏览;②以分类目录为线索的横向检索。用户可以点击相应的分类目录,从而获得自己感兴趣的新闻信息;③以专题为线索的特色检索。用户可以通过关键词检索专题数据库,全面了解所要查询的新闻信息。
(5)系统安全模块。在网络新闻数字档案馆管理系统和外网之间设立防火墙,禁止未授权的用户进入系统内部。保证整体系统不受病毒侵害,系统内数据不被非法读取。
图3 用户检索过程示意图
(6)系统管理模块。通过系统管理模块,可以实现对词表的管理和用户信息的管理。系统管理模块负责管理和维护网络新闻信息自动采集子系统、网络新闻信息自动整理子系统、网络新闻信息开发子系统、网络新闻信息服务子系统、安全模块的日常运行。并负责记录系统的运行状况,生成相关的报表供系统维护人员参考。
当然,文章探讨的网络新闻数字档案馆仅是笔者的一种设想,是否能实现,还依赖于实践的检验和进一步探索,依赖于电子政务的借势带动,依赖于社会公众的强大需求导向。文章中所论述的也仅是笔者管窥之见,还存在许多未全之处有待进一步的探讨。
标签:网络新闻论文;