数字保存的风险管理,本文主要内容关键词为:风险管理论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 数字保存与数字保存的风险管理
1.1 数字保存
随着互联网的不断发展,海量的数字信息每天不断产生,而与此相对应的,大量的数字信息也在随着承载的网页和网站的不断变动一天天消失,许多有价值的数字信息我们已经无法找到。OCLC从 1998年开始追踪公共的可获取的网络资源,调查其内容可获取性和发展趋势,其中关于“网站挥发性”的调查显示,1998年的45%的IP地址在第二年已不能够确定,63%-65%在第三年不能确定,75%在第四年不能获取[1]。众所周知,IP地址是在互联网上确定网站和网页的唯一标示,IP地址的变动,实际上就意味着该IP地址所指向的网页和网站无法获取,而这些网页和网站所承载的数字信息也就不能查到。总之,网络信息的快速消失和数字保存的紧迫性早已引起广泛的关注,采取有效措施和对策实施数字保存计划也已处于深入研究之中、
一般而言,数字信息包括两类,一是印刷载体信息的数字化,二是以数字形式产生的信息。现在的保存研究集中于后者,而后者主要就指变幻无常的网络信息。比之印刷载体的信息保存,数字保存要复杂困难得多。面对变动极大的海量信息,数字保存需要大量资金,大量人力物力,需要制订详尽的保存计划和策略,包括行业之内、一国之内、国际之间等范围;同时.要考虑许多具体技术,比如保存方式,选择标准,保存载体等等。其中,数字保存的风险管理也是重要研究内容。
1.2 数字保存的风险管理
网络无限扩展。网络信息全面影响人的每个方面,这要求图书馆和档案室将其角色从印刷载体信息的保管者扩展到对分布于网络上的信息有选择的进行管理。同时,也有许多其他信息中介机构对于保存和管理网络信息有所关注,图书馆等机构对这些有兴趣的网络信息并不拥有所有权,也不能直接进行管理,但却日趋依赖,因此,需要通过某些方法对这些信息的安全性、可靠性、稳定性进行评估与监测,以保证其长期可用,这样,数字保存的风险管理研究显得十分重要。
数字保存的风险管理,是指采用风险管理的原理、步骤和方法来确定、分析、管理网络信息保存中出现的风险,并针对可预测的风险做出相应策略和反馈,以减少出现的损失和降低风险。风险管理研究和实践的目的,就是为图书馆等信息保存机构和信息中介机构提供数字保存风险管理理论、方法以及相关工具,使这些机构能够对无法直接控制和拥有管理权的网络信息进行风险管理,减少不断变动的风险,保证其长期和稳定的可用性。所以,数字保存的风险管理针对数字信息的内容,而不是管理数字信息的机构(机构减少责任和义务的风险)。
2 数字保存风险管理的阶段
风险是一个相对的词汇,在一个环境下某一个事件可能存在风险,但在另一个环境下面却可能没有。因此,风险管理项目应当在一个机构内部环境下创建和执行:每个机构需要定义自己的“担忧半径”——提供可察觉的风险和可接受的损失背景,比如,在数字保存风险管理的理论之中,一个机构“担忧半径”之内的网络资源可能是一个网站,一个网站的部分资源,或者一个单一的网页或文件。所以,对于网络信息的风险管理,不能套用传统的风险管理方法、步骤和过程,而应当根据网络信息的特殊性及其控制机构的背景进行创建。下表显示了数字保存风险管理阶段与典型的风险管理阶段的对比。
┌────────────┬───────────┐
│ 数字保存风险管理阶段 │ 典型的风险管理阶段 │
├────────────┼───────────┤
│ 1 数据收集和特征描述
│1风险确认//2风险分类 │
├────────────┼───────────┤
│2 简单的风险宣布和检测 │
3 风险评估 │
├────────────┼───────────┤
│3 某一背景下的风险方案 │
4 风险分析 │
├────────────┼───────────┤
│ 4 自动反馈/减轻风险
│
5 风险管理执行 │
└────────────┴───────────┘
第一阶段:数据收集和特征描述
数字保存风险管理开始于对一个或多个有兴趣进行追踪和评估的网络信息的数据收集。采用网络搜索引擎和其他方法持续的、系统的、全面地查询相关资源,从而确定有兴趣和需要关注的网络资源,这是风险管理的开始。
一旦确定了有兴趣进行追踪和评估的网站,就需要一个关于该网站的特征描述来确定其范围,结构和状态,了解该网站的内容和管理方式。在此阶段需要采用自动的和手工的方法来收集大量数据,以描述网络信息的潜在的风险。网络爬虫是一个有效的收集网页和网站状态信息的工具,可以检测到网络信息的特性和长期威胁,从而为特征描述提供数据支持。
特征描述对应于风险分类,就是在大量已收集数据的基础上,创建一个对风险进行分类的结构化模型,将已经观测到的风险属性和事件安置进去,从而完成对风险进行的特征描述。需要采用定性和定量的方法来对不同的对象(网页,网站,服务器等等)的风险进行特征描述。经合组织的carat就是这样一个风险分类的工具。
第二阶段:简单的风险宣布和检测
对追踪对象的风险作出初步的评估和宣布,针对风险的方案则在后面的第三阶段完成。这一阶段定义相应的风险背景,描述可能导致网站或网页破坏或消失的事件,以及这些事件发生的可能性。这一阶段对应典型的风险管理的风险评估阶段,第一阶段收集的大量信息为本阶段的风险评估提供了数据基础。公认的风险评估的标准需要具有这些特性:透明的,连贯的,一致的,完全的,全面的,公平的,统一的,平衡的,可支撑的,灵活的,伴随适当的和充分的指导。考虑风险评估的可变化的因素还包括:资产价值,可能威胁,公认的弱点.失败的可能性,以及潜在的保护。
第三阶段:某一背景下的风险方案
“某一背景”是指该网站或网页是由个人创建和管理,还是由机构创建和管理,以及该网站或网页是否与追踪的信息中介机构签署有相关风险管理协议,等等,不同的背景,需要不同的风险方案。
对风险进行全面地分析是创建风险方案的基础,风险分析确定网络信息的弱点,考察网站管理者接受风险的潜在结果,以及对减轻风险的反应。人工智能方法,决策支持系统,以及组织的结构都支持风险分析。在风险评估、风险分析的基础上,可以创建一个风险方案,目的是确定风险模式的潜在影响、损失或失败的可能范围以及恢复的直接和间接成本。风险方案帮助信息中介机构为个人网站或者机构控制的网络资源创建风险参数,以便准确掌控这些目标网络资源的风险状态。
更为主动的风险方案,应当将被动的追踪网站的行动,扩展为主动地向网站控制者通报潜在的风险,进而捕捉和管理网络信息。这种扩展的主动的行动,需要建立于信息中介机构与网站控制者正式协议之下。
第四阶段:自动反馈/减轻风险
创建一个可执行的风险管理政策、程序和机制,以及对已确定的风险做出反应,从而减轻风险。应当根据成本,利益,和风险权衡产生和评估减轻的选择和反应。然后应当作出决定,确定执行哪个选择以及以何种顺序执行。一个可执行的风险管理程序应当平衡资产价值与为了防止和抵御损坏或失败以及从损坏中恢复而付出的间接或直接的成本之间的关系,同时,这样的程序也包括:广泛的范围、经常的审核、经过测试的反馈和策略、固定的冗余以及公开的可用性、可分担的责任。这样,一个完整的可执行的风险管理机制包括:建立整体政策和顺从的监控,创建检测效力的方法,管理策略的发展和执行,确定激励机制,组建风险管理团队,为这个机制创建或者配备支持工具。
3 数字保存风险管理工具VRC
数字保存的风险管理研究处于实验之中,目前著名的研究项目是欧盟委员会和瑞士政府资助的ERPANET(Electronic Resource Preservation and Access Network)项目和康奈尔大学的Prism项目,前者创制了风险管理工具ErpaTool,后者则创制了著名的VRC工具,以下将对VRC工具作出介绍。
3.1 VRC概述
名称:VRC:Virtual Remote Control虚拟远程控制,是一个软件工具箱,随时间推移进行网络追踪,确定和对已探测的风险做出反应,用捕捉作为最后的手段。虚拟:采用网络工具创建原始数据模型,描述能够持续追踪的已选择网站的重要特性;远程:VRC工具提供给信息中介机构使用,这些机构对于远程服务器上的网络信息的寿命和长期可用性有兴趣,但这些信息不是这些机构拥有或管理;控制:在通过协议或者采用告知或行动的方式绝对同意的情形下,一个追踪组织可能采用来保护另一组织的资源的最主动的方法。
目标:为研究图书馆创建网络资源保存风险管理模型;为在另外的文化机构/信息中介机构和其他环境下使用做出调整;支持一个从网站选择到被动追踪到主动捕获的反馈范围;理解网络资源的特性和发展;通过确定共同的风险以及减轻风险的方法来传播好的实践VRC模型为信息中介组织提供如下方法:从目标网站被确定开始,为其创造一个原始的形态,使用这个原始形态追踪改变,探测风险,以及建议需要的行动;为在分类网站的网页、网站层面上创建一个一致的管理形态提供可重复的、可信赖的机制;通过系统地回顾,探测以及行动,使用工具创造一个可升级的方法;认可一个组织对潜在目标网站的数量持续扩大的兴趣;当需要的时候调用智能捕捉以确保风险中资源的保持力。
3.2 六个模块
VRC提供六个模块,每个模块实现风险管理的一种功能,与数字保存风险管理的阶段基本对应。
模块一:确定。工作人员编译和定期评论一系列有兴趣的网络资源,并且为了评估提供每个新的 URL。在此阶段,VRC工具会管理URL列表,允许通过各种途径访问列表,比如主题,文件类型,创建者等。
模块二:评估。工作人员提交一个URL用于评估。VRC工具产生一个关于该网站的原始网络资源形态,包括追踪的网页,站点,以及服务器水平要素,这些元素的改变范围将在评估期间被存档。
模块三:评价。这一阶段支持网络信息的价值评估,基于如下特性:与组织藏品的相关性和重要性 (基本的,合意的,短暂的),存档角色(资源的首要档案.为完全或部分捕捉的非正式协议,其他),维护 (好的站点管理的关键指示等级),冗余(捕获不止一个文档),捕获条件(站点结构的复杂性,更新周期, MIME类型,动态内容,行为指示),大小(网页数量,爬行必需的深度)。工作人员能够为评估/再评估单个网站或一组网站产生特别的主题摘要报告。他将察看网络资源形态,填入评估元素,如果适用,填入协议和公认的冗余元素。VRC工具箱将追踪协议状态;通过在谈判协议中编译所有信息提供使用来帮助工作人员创建新的协议;在协议全部完成时捕捉每个元素;管理来自于协议的各种正确信息。
模块四:策略。使用一种关于资源形态的方格方法(包括资源的控制水平,信赖程度,以及价值大小三个元素),VRC工具箱将对每一个资源建议追踪频率和风险水平,这些元素可能随时间的改变和追踪结果的反馈以及风险的提升而调整。信息机构可以使用或调整VRC工具箱提供的频率和水平,一当使用,VRC的模块将自动的追踪和记录每个追踪周期的信息。
模块五:侦测。侦测阶段支持在网页和网站水平上持续追踪,已经侦测到的改变与每个网站风险参数的建立相关联。使用前述方格方法,VRC工具会记录已侦测到的风险,通过点击被影响的资源,一个工作人员就能够回顾/评论全部风险报告。
模块六:反馈。利用积累的规则,改变,和随时间推移的风险水平,相适应的风险-反馈机制将被设计。通过使用风险反馈机制和被机构采用的风险水平,VRC工具会自动向网站拥有者通报已侦测的风险,提供建议的反馈,对风险采取行动,或者为了更深入的行动向工作人员提供风险报告。
3.3 追踪水平
在对网络资源进行结构分析后,VRC创建了一个网络资源背景层次模型(Web Resource Context Layer model),根据这一模型,VRC针对网络信息进行不同水平和层面的追踪和监测。即:作为单独监测对象的网页,忽略其超链接;作为局部背景下的网页,考虑其超链接;作为被链接的一系列网页的语义连接体的网站;作为存在于服务器上的数字实体的网站;作为管理体系中的一个实体的网站.从属于局部需要,运作程序,优先顺序,组织改变;作为一个外部环境的一部分的网站,从属于技术发展,领域水平发展,政治和经济改变。
关于VRC的内容还很多,这里只简单介绍了最主要的内容,有兴趣的研究者可以根据提供的参考资料进行更深入的研究。同时,VRC创建了一个初步的测试网站,有兴趣的研究者也可以登录该网站对VRC工具的功能作用等诸方面进行详细了解,地址是:http://irisresearch.library.cornell.edu/VRC/tool.php。
随着时间的推移,图书馆和其他信息中介机构将会极大的扩展其收集范围到分布式的网络信息资源,同时,对更多的网络信息资源进行更广泛的关注,这些网络资源的长期寿命将会是首要的考虑。数字保存的风险管理机制必然要引入其中,对网络信息长期寿命和可用性的风险进行有效管理。自动的方法将会被用于处理这些资源,这将使网络信息的长期保存更少的受人类错误的影响。数字保存的风险管理研究处于研究初期,其理论与工具都需要更深入的研究和发展。
标签:风险管理论文; 软件项目风险管理论文;