数学模型在档案信息开发利用中的应用,本文主要内容关键词为:开发利用论文,数学模型论文,档案论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着改革开放的深入和政府信息公开进程的加快,公众对档案信息的需求也越来越迫切。档案利用需求快速增长,馆藏档案数量逐年增加,档案数字化能力弱的矛盾凸显出来。为此,长春市档案馆承担的国家档案局科技项目《档案信息资源开发利用数学模型研究》课题已完成,初步探索了用数学的方法系统、定量研究档案利用需求、档案数字化能力、数字化档案利用之间的关系,直观、理性地表达其内在规律。
一、引用的方法
1.Monte Carlo方法
该方法也称计算机随机模拟方法。此法源于美国在第二次世界大战进研制原子弹的“曼哈顿计划”。近来随着计算机技术的发展该方法已经成为解决数学问题的重要方法。
2.TOPSIS法
该法是属于多目标决策这一数学分支中的一种重要方法。其基本原理是通过检测评价对象与最优解、最劣解的距离来进行排序,若评价对象最靠近最优解同时又最远离最劣解,则为最好;否则为最差。其中最优解的各指标值都达到各评价指标的最优值。最劣解的各指标值都达到各评价指标的最差值。
3.MATLAB软件
该软件和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。
4.术语说明
全宗——年代单元:将档案按照全宗和年份来进行分类,如此得到的类别这里称为全宗——年代单元。
全宗——年代单元编号:所有全宗——年代单元的统一编号。
全宗——年代单元的档案卷数:该全宗——年代单元所包含的档案总卷数。
全宗——年代单元的利用卷数:该全宗——年代单元所包含的档案总的利用卷数。
档案价值权重:一个全宗档案价值大小所占的比重。
成功率:用户访问到已数字化档案的概率。
5.数据说明
格式说明:全宗——年代单元编号
对以全宗和年代进行档案分类的,我们特将如此的类别称为全宗——年代单元,它也是这里的要研究数据的基本对象。这里将把全宗——年代单元排列成如下格式(其中共m个全宗,n年)。
其中全宗号往下逐渐增大,年份往右逐渐减小,所有全宗——年代单元按照从左到右,从上到下的顺序从1开始递增编号(各全宗——年代单元所在空格数据即为对应的全宗——年代单元编号)。
档案卷数:档案进馆整理完成后,每个全宗——年代单元的档案卷数都已进入档案统计范围。这里视为已知数据,按表1格式排列的矩阵。
利用卷数:对每个全宗——年代单元档案的利用卷数进行统计汇总,这里视为已知数据,按表1格式排列的矩阵。
档案价值权重:为了能够区分不同全宗档案的价值不同,这里特引入一个指标,其确定方法后文有具体说明。对这里是未知数据,按表1格式排列的矩阵。
扫描情况数据:有每年平均投入多少资金,每年平均扫描档案的卷数。
二、准备工作
1.档案利用情况数据
将档案利用数据分解成以下两点:一是所有档案利用总数;二是档案利用数据在全宗——年代单元的分布。对于前者,利用线性最小二乘法,将已知的m年的拟合出直线,从而来预测未来的档案利用总数。其中,是第i年的年份,是第i年的档案利用总数。方法如下:
第一步从下式解出
对于后者,用今年的档案利用总数在不同的全宗——年代单元的分布作为下一年的分布。因此必须做出如下假设:不同档案利用总数对其在不同全宗——年代单元的分布没有影响。
2.档案扫描量与投入资金的数据
由于地区差异,不同地方的物价等差异较大,并且从投入的资金到最后产生数字化的档案信息,中间有多种因素在影响,但总体上扫描量与投入资金是正比关系,对于比例系数,直接取为若干年的总扫描卷数与总投入资金的比例。
三、数学模型建立
选择模型
目标:在档案数字化的过程中主要遵循的原则有:实用性原则,开放性原则,价值性原则,抢救性原则,时效性原则。然而在实践中,公众已成为利用档案的主体,可见档案信息实用性无疑是首先需要考虑的。因此本模型的目标即是最大化访问到已数字化档案的成功率。
指标:档案利用数据代表了档案的利用率,为了最大化成功率,就得以档案利用数据为指标。
分析:由于档案利用数据存在明显的扎堆现象——“二八现象”,即20%全宗的利用卷数之和可能占了总数的80%,20%年份的利用卷数之和可能占了总数的80%。如果盲目或粗放式的制定数字化顺序,那么产生“要用的档案未数字化,已数字化的档案却没有用”现象也就不足为怪了。
通过以上分析,显然已经将问题归结为如何从档案利用数据中选出那些利用卷数占的比例比较大的全宗——年代单元。显然最笨的蛮干法(也称穷举法)可以实现选到最优的组合(利用卷数总和最大)。然而,仅长春市档案馆这样中型规模的档案馆,就有428个全宗、143个年份(1866-2008)。假设选出15个全宗,15个年份的组合,则一共有种组合,显然已经不是普通的个人电脑所能够计算的了。为了提高效率,我们将从如何选择全宗与年份的组合入手,分别采取两种不同选择方法得到两个模型。
1.直观选择模型
本模型主要想法是用局部最优来体现整体最优,即选择总利用卷数最高的全宗与总利用卷数最高的年份的组合。步骤如下:
求出每个全宗的总利用卷数(所有年份利用卷数之和),按从大到小次序,根据实际情况选取排在前面的部分全宗。
求出每个年份的总利用卷数(所有全宗利用卷数之和),按从大到小次序,根据实际情况选取排在前面的部分全宗。
按照以上两步所选的全宗与年份组合的全宗——年代单元即为应该先数字化的全宗——年代单元。
2.Monte Carlo选择模型
使用Monte Carlo方法来进行优化。其基本思想是每次试验选取一种全宗与年份组合并求出该组合总的利用卷数,从大量的试验中找出总卷数最大的组合。由于涉及组合问题,所有的情况太多,所需进行的试验的卷数必须非常非常大才能够得到较理想的结果。在长春市档案馆的计算中,在不加改进的情况下进行试验,发现即使进行1亿次试验,所得到的结果也不如直观选择模型来得好。这里主要的思想是减少组合的数量,考虑到利用卷数是典型的稀疏矩阵,其中有很多全宗和年份其实是可以先被排除的,结合直观选择模型的方法,我们采用的方法是,先将利用卷数矩阵按照“行和”与“列和”大小从大到小进行排列,根据实际情况选择排在前面所占比例比较大的行和列,然后再利用下面的流程进行计算。
符号定义
STEP:最大迭代次数,i:当前迭代次数,S:当前组合对应的全宗——年代单元的利用卷数之和,m:随机产生的全宗向量,n:随机产生的年份向量MAX:最优组合全宗——年代单元的利用卷数之和OPTm:最优组合所对应的全宗OPTn:最优组合所对应的年份。
流程图
在具体应用时只要根据该流程图,即可编写程序进行求解。在后面的具体应用中使用的是Matlab数学软件进行求解。
3.TOPSIS模型
目标:考虑到[2]提出的五个原则,以及具体的量化难易程度,本模型的目标是最优化档案的实用性与价值性。
指标:具体将考虑每个全宗——年代单元的三个指标:利用卷数,档案卷数,档案价值。
档案价值权重量化:由于是以全宗——年代单元为研究对象的,全宗的价值主要由档案形成机构的性质、职能、作用、年代久远、稀缺程度等多种因素来决定的。其分类原则如下:一是考虑各种因素,把档案价值权重分五个档次;二是现行档案主要考虑职能与来源因素,历史档案则考虑年代和来源因素。
TOPSIS法排序
符号定义
Y:决策矩阵,Z:规范化决策矩阵,w:不同属性的权重,X:加权规范阵E:综合评价指数(优先权)。
对于每个全宗——年代单元有三个数据指标:利用卷数,档案卷数,档案价值。使用决策论中的TOPSIS(逼近理想解的排序方法)法给每个全宗——年代单元计算综合评价指数(即优先权),同时也就给了它们的排序。
决策矩阵
按照数据说明中给出的全宗——年代单元编号,有如下表形式的决策矩阵。
步骤六,按照的值由大到小排列数字化优先顺序。
4.仿真分析
利用仿真技术,分别模拟长春市档案馆按照三个模型的档案数字化顺序,2009-2010两年内的,具体到每一天的成功率的变化情况。主要方法是利用产生服从一定概率分布的随机数,来模拟真实的随机事件。
(1)模块分析
数据输入:
档案卷数矩阵
利用卷数矩阵
全宗——年代单元的排序(对于选择模型以选到的全宗——年代单元的先后次序排列,第三个模型用TOPSIS法产生的次序)
每天平均数字化档案卷数:
数据输出:每天访问到已数字化的全宗——年代单元的成功率。
(2)符号定义
a:档案卷数矩阵,b:利用卷数矩阵,F:全宗——年代单元的排序Arr_daily:每天平均用户数量,D_num:每天平均数字化档案卷数,k:当前天数,Time:仿真的时间(天),Sum:b的利用卷数之和,Digit(i,j):已数字化的档案卷数,UDigit(i,j):未数字化的档案卷数,Succ(k):每天访问到已数字化档案卷数之和,NSucc(k):每天访问到未数字化档案卷数之和,Q(k):每天已数字化档案的成功率。
(3)仿真取值
取每天用户数量的平均值均为Arr_daily。取每天数字化档案卷数的平均值均为D_num。只计算每天利用数字化档案接待用户的数,即先完成数字化,再接待用户的“常用先扫”的范围,不考虑档案未数字化“现用现扫”的情况。
5.主要步骤
初始化:a,b,F,Arr_daily,D_num等。
按照TOPSIS法产生的全宗——年代单元顺序选择全宗——年代单元。
完成数字化档案工作,并记录Digit与UDigit。
产生随机顾客。
确定所需的全宗——年代单元。
确定该档案是否已数字化。
计算Succ,NSucc及Q。
6.流程图(见图2)
流程图2
四、理论应用
1.模型应用
step1 准备相关数据
统计最近几年的档案利用总数,得到拟合直线从而预测几年内的档案利用总数变化。
统计近几年的档案数字化卷数以及投入资金,从而按2.2可得投入资金与数字化卷数的关系。
统计馆藏档案,并按照全宗——年代格式转换成档案卷数矩阵。
统计最近一年档案利用卷数,并按照全宗——年代格式转换成档案卷数矩阵。
按照不同全宗重要性及其他因素,统计档案价值,并按照全宗——年代格式转换成档案价值矩阵。
step2 代入模型
按照理论部分内容,利用MATLAB编程,带入相应数据,即可得三个模型的相应结果。
2.仿真分析应用
按照仿真分析要求,输入数据:档案卷数矩阵,利用卷数矩阵,全宗——年代单元的排序以及每天平均数字化档案卷数。按照流程,利用MATLAB编程,带入相应数据,即可预测三个模型的数字化方案所带来的成功率变换。
3.应用推广
这里具有很强很广的应用性,对于不同的需求可以使用不同的模型来满足。
对操作的简易性要求比较高的用户,这里建议采用直观选择模型,该模型简单实用,仅需简单操作即可实现较好的结果。
所需数据:利用卷数矩阵
方法:按照上文直观选择模型的两个步骤操作。
对于要求从本质上理解并提高数字化效率的用户,这里建议采用TOPSIS模型,该模型稍微复杂,但是效果非常良好。
所需数据:利用卷数矩阵,档案卷数矩阵,档案价值矩阵,数字化能力。
方法:按照上文TOPSIS模型的六个步骤操作。
五、课题研究启示
档案利用统计及需求分析是档案数字化精细管理的基础。2004年长春市档案手工汇总了2001-2003年档案利用数据,从2005年开始建立档案利用登记数据库,积累了2001-2008年档案利用的统计数据,没有这些数据课题研究是无法进行的。2009年,吉林省档案馆2009年汇总了2003-2008年五年的档案利用统计数据,成为吉林省制定档案数字化规划必不可少的条件。
完善档案管理软件统计功能是当务之急。提高档案利用统计自动化水平,是今后档案管理软件开发的重要内容。当我们把档案利用情况自动统计为全宗、年代、卷、件的时候,应用此成果进行档案数字化规划设计,检验档案数字化成果将起到重要的作用。