基于因子分析的计算机打印文件鉴定∗
赵克坚1廖海斌2
(1.咸宁市中心医院(湖北科技学院附属第一医院)计算机中心 咸宁 437100)
(2.湖北科技学院计算机科学与技术学院 咸宁 437100)
摘 要 在计算机打印文件鉴定问题中,当样本和检材文件中没有相同字或相同字符极少时鉴定极其困难。针对这一问题,提出了一种基于因子分析模型的打印文件鉴定方法。首先对特征矩阵采用双线性模型进行因子分析,分离出文本因子,提取近似文本无关的打印机特征,然后采用贝叶斯决策和期望最大化算法进行分类,实验结果表明论文方法有效改善了识别率。
关键词 打印文件鉴定;因子分析;双线性模型;EM 算法
1 引言
随着现代科技的发展,人们的生活越来越数字化,打印机逐渐普及,与之相伴随的打印文件相关的民事纠纷、刑事案件等也越来越多。如伪造合同、证件,传播恐吓、煽动性文书等。打印文件是重要的物证或线索,鉴定问题文档是否被篡改或者辨别此打印问题文档的打印机源能给案件侦破提供有价值的援助。此外,验证印刷证件、打印票据等的真伪也极为重要。
针对一些特定的打印文档,目前的鉴别技术已经可以利用水印[1~2]、安全纤维、全息图[3]或者特殊的墨水[4]等特征来识别真伪,但是这类安全技术往往花费较大,需要特殊的设备来植入安全特征,对普通用户来说成本太昂贵。因此,利用计算机图像处理和人工智能方法来自动鉴定打印文档具有重要的理论意义和应用价值。
计算机打印文件鉴定技术研究开始于21 世纪,目前研究者相对较少。J. Oliver 和J. Chen[5]利用计算机统计打印字符的面积特征,通过相同字符是否存在不同面积来判断文件中是否有非法伪造的内容。该方法简单,计算速度较快,但是判断的依据并不严密,效果并不理想。美国Purdue 大学2002 年成立了传感器与打印机鉴定实验室(PSAPF),其成果主要有:研究了激光打印机的齿轮传动装置的齿咬合误差与大齿轮的离心率误差对打印图像造成的明暗间隔的条纹特征;通过提取字符“e”的灰度共生矩阵等来提取纹理特征,并分别利用5 近邻分类器与SVM 方法进行分类[6~10]。Tsai 等提出利用离散小波变换和特征选择方法来识别彩色激光打印机[11]。Akao 等通过最大熵方法估计正齿轮数目来识别喷墨打印机[12]。王宁、韩国强[13]等利用扫描采集的打印字符的笔画总面积和笔画轮廓总周长等特征值建立单字信息库来识别文档的来源机型。邓伟、涂岩恺、陈庆虎等[14~17]设计并开发了图像整体显微放大系统来采集打印文档的整体细节图像信息,并采用图形匹配算法、双极性Hausdorff 距离、小尺度小波域特征的半影条纹特征提取方法等多种方法进行打印文档的源机识别。总的说来利用计算机进行打印文件鉴定取得了一定的成果,但识别率仍需进一步提高。
国外学者利用计算机进行打印文件鉴定的研究时,训练文件与识别文件常取相同的字符内容,如出现频率高的字母”e”或单词”the”。国内学者也往往是取相同字符内容的样本进行匹配分类。而对中文打印文件来说,很可能识别文件与训练文件中的内容存在很少相同字符甚至不存在相同字符,这样显著增加了识别的难度。这是因为相同字符的非同机距离明显小于不同字符的同机距离。为了更好地研究训练与识别文件字符内容不一致时的打印机文档鉴定问题,本文将影响打印字符形态特征的因素从来源上划分为两类,由打印机的不同如打印机部件的参数不一致、器件不同等引入的差异称为打印机因素或打印机因子,是一种风格因子;由字符本身的文本内容的不同引入的差异称为文本因素或文本因子,是一种内容因子。对打印文件鉴定来说,打印机因子是有效因子,而文本因子是干扰因子。本文提出将因子分析模型的方法用于打印字符的二次特征提取,通过双线性方法进行因子分解,提取特征矩阵的打印机因子,降低文本因素对识别的干扰,从而提高了对打印文档源机的识别率。
2 基于因子分析模型的特征分解
把内容和风格看作影响一个事物的两个互相独立的因素[18],它们决定了事物的观测。比如:语音信号中,表示语音文本即语义信息的是内容因子,表示说话人的音色、说话语气和声调等信息的是风格因子;手写笔迹中,表示这个样本是哪个字符的信息是内容因子,表示这个样本是哪个人写的是风格因子[19];多字体印刷字符中,表示字符文本信息的是内容因子,表示字符字体信息的是风格因子;在人脸图像中,正规人脸(正面,中性,光照归一化)是内容因子,而人脸的姿态、光照、表情等变化是风格因子[20]。同样的,在打印文档中,由打印机的不同引入的差异是风格因子,也可称作打印机因子;由字符文本内容的不同引入的差异是内容因子,也可称作文本因子。打印文档鉴定的目的就是根据打印机风格信息识别出此文档出自何台打印机,如果能将影响打印字符特征的文本内容信息分离出来,提取出内容无关的特征,将有利于打印文档鉴定。基于此思想,本文提出基于因子分析模型的打印字符二次特征提取方法,通过双线性方法分离出打印机因子和文本因子,从而提取近似文本独立的打印字符特征。
2.1 基于双线性的因子分析模型
如果打印字符内容bj∈ℝJ具有风格ai∈ℝI ,那么打印字符的观测y ∈ℝK 可以用双线性表示:其中,k ∈[1,K]表示打印字符观察向量中第k 维特征,符号s 和c 分别标记风格和内容,wijk表示内容与风格的交互作用关系。为了使因子分析模型更具灵活性,假定交互作用项wijk随着内容变化而变化,设,则式(1)变为
设Bc 表示K*I 维的矩阵,元素分别为,则式(2)可写为更简洁的因子分析模型形式:
例如,将双线性模型应用到不同字体的印刷字符集中。则字体的信息为风格因子,字符本身是内容因子,结果如图1 所示。每一个字符都可以由基本内容因子矩阵和字体因子系数的来表示,如果要重建一个特定字体下特定内容的字符,只需要将基本矩阵进行字体系数加权线性组合即可。
2.2 因子分析模型匹配求解
因子分析模型的匹配求解目标是在训练阶段使所有样本的总平方误差最小化。设第t 次训练观测值为y(t),其中t=1,2,…,T 。 设指示变量为hsc(t),其中
明显的,这些观测矩阵是3 维的,为了利用标准的矩阵算法,把SC 个K 维行向量转为S *(KC )维的二维矩阵,表示如下:其中为K 维观测均值向量。则式(3)可表示为更为简洁的矩阵形式:其中,为S*I 维矩阵,表示打印机因子的参数矩阵;为I *(KC )维矩阵,表示文本因子的参数矩阵。
y 的整体概率密度分布则为
因此,因子分析模型的全部训练集的总平方误差E 为
M-步:估计新的文本因子Bc ˜,使得对数似然概率最大。令
3)根据式(13)更新文本因子Bc ˜的值;
根据试点专业改革方案,实施对专业建设的全过程管理,不断修订、改进和完善改革方案,形成持续改进的动态调控机制,并据此进行年度考核、检查和验收。
图1 三种字体的双线性模型分解图
种子发芽的最适温度为25~30℃,最高温度35℃,最低温度15℃。幼苗期生长最适温度为20~22℃。最高温度为25~28℃,最低温度为15~16℃,夜间12~15℃,不高于18℃。从破心到定植前7~10天,白天要保持在20~25℃,夜间在13~15℃,有利于雌花分化且降低雌花节位。定植前7~10天进行低温锻炼为提高黄瓜秧苗的适应能力和成活率,一般白天在15~20℃,夜间l0~12℃。
HW4504机心专为史诗陀飞轮Histoire de Tourbillon 9号腕表研发,确保这款腕表成为不可多得的非凡臻品。腕表一共限量发行20只,白18K金和玫瑰18K金款式各10只。
在打印机鉴定中,设打印机为s ,文本为c 的观测均值为
为了得到打印机因子和文本因子参数的最小方差估计,利用SVD计算Y ˉ=USVT ,S 的对角线元素按特征值的大小取降序排列。则A 可取U 矩阵的前I 列,B 可取SVT 矩阵的前I 行。模型的维数I 的大小可以根据先验知识或者实验效果来定。
图3、图4为应用实例。图3为CF-8M的碟板铸件[4],采用横浇道生产时存在夹渣和气孔。后来改进浇注系统,增加浇口杯B,原浇口杯A 作为排气孔,且浇口杯A 上设置了3条拉筋用来排气。实践证明,渣孔问题得到解决。
2.3 基于EM算法的打印机分类
假设测试数据来自训练数据中S 台打印机的某一台,但是字符内容与训练数据不一样。设打印机因子为as ,新的文本因子为Bc ˜。假设打印机s 的新文本c ˜的观测数据y 服从高斯分布,其均值为双线性预测值,方差为σ 2,则
11.2.5 转段:间苗后,会出现相邻两个灵芝相连而长到一起的情况,需要转段。转段时不要用手触摸灵芝菌盖。
根据先验知识,p (s ,c ˜)为均匀分布。下面采用EM 算法循环迭代来得到新的文本因子Bc ˜和描述测试数据的最佳标签
E-步:对打印机为s ,文本为c ˜的观测数据y 计算概率密度函数:
如果训练样本中,对各种风格s 和内容c 的观测数量相等,那么利用奇异值分解(SVD)就可以得到因子分析模型的最优拟合结果。
新的Bc ˜则可以由解出:
EM迭代具体算法如下:
1)初始化文本因子Bc ˜;
2)计算出式(11)E-步中观测值y 的后验概率
经过血常规及两对半检验分析,所有的乙肝病毒性肝炎患者当中,大三阳患者26例,占所有患者的26.67%,小三阳患者25例,占所有患者的20.83%,其它类型的乙肝病毒性肝炎69例,占所有患者的57.5%,且p<0.05,具体的检验统计结果见表1。
“今天你们要学的第一项任务是持枪射击,第二项任务是格斗的时候怎么赢。”老四看都没看我一眼就把枪按在我手里,然后继续大步向前,“既然你们站在这里,就已经知道怎么从奔驰的火车跳上跳下,我就不必再教你们了。”
4)重复步骤2)3),直至两次计算得出p (s ,c ˜ |y )的差值小于阈值或迭代次数超出规定的最大次数。EM 算法收敛于L 的局部最大值,测试数据就可以根据使得后验概率最大的类别s 来分类。对于EM 算法来说,初始化是非常重要的。由于本文主要关注的是识别性能,所以初始化采用最近邻方法,即对于每个测试数据向量,文本因子取与之最相近字符的文本因子。
3 实验结果与讨论
为了测试上述基于因子分析模型的打印文件鉴定的有效性,建立了包括40 台激光打印机的打印文件数据库。这些打印机包括一些常用品牌及多种型号,见表1。对40 台打印机分别采样,每台打印机打印两张文件,一张用作训练,一张用作测试。每张文件的打印内容是1100 个一级常用汉字,采用宋体、小四号打印。利用图像整体高倍放大系统采集每张训练文件的504 个字符和每张测试文件的另外504 个完全不同内容的字符,经过预处理,切割,字符内容自动识别,这样就构成了40份样本、每份样本504个字的训练库和40份字符内容与训练库完全不同的测试库。
表1 实验中打印机编号和型号
首先取一台打印机的两张文件,记为A1,A2,取另外一台打印机的一张文件,记为B2。对3张文件中每个字符提取反映字符形状的8 维矩特征,并求出A1与A2之间的距离,记为D1,求出A1与B2之间的距离,记为D2。则D1 表示同一台打印机不同字符内容的距离,如图2 中星形点所示;D2 表示不同打印机同样字符内容的距离,如图2 中菱形点所示。可以看出,同一台打印机不同字符之间的距离远大于不同打印机同样字符之间的距离。即文本因子对字符特征的影响非常显著,远大于打印机因子。因此,打印机因素在字符形态特征中是一种弱信号,容易受到文本因素强信号与误差因素的干扰,这也影响了打印文件鉴别的准确率。
采用本文提出的方法进行打印机因子和文本因子的分离后,对A1,A2 和B2 的打印机因子按上述方法分别求距离,如图3 所示。可以看出,同一台打印机不同字符之间的距离已经小于不同打印机同样字符之间的距离。即文本因子对字符特征的影响显著降低,打印机因子的影响更加显著。
图2 不同字符的同机距离和相同字符的非同机距离比较
下面进行识别实验。采用矩特征(MF)、方向指数直方图(DIH)和Wigner 特征(WF)这三种方法进行特征提取,对提取出来的特征矩阵分别用本文方法和欧式距离方法进行一对一的鉴别实验,其中本文方法是将EM 算法后所得的后验概率与阈值比较,欧式距离方法是将特征距离与阈值比较,若大于阈值则判断为同机打印,统计正确鉴别数,实验结果如表2 所示。另外实验结果也与文献[18]所用方法(记为方法1)比较,其中方法1 的训练库和测试库中每两份文档之间平均有50 个左右的相同字符,而本文实验的训练库和测试库完全无相同字符。3种方法列出的均为最优阈值的实验数据。
可以看出,特征矩阵经过因子分析模型分离打印机因子和文本因子以后,文本因素的影响显著降低,获得近似文本独立的特征,在检材与样本之间没有任何相同字的情况下识别率显著提高。但是相比有50 个相同字情况下的识别率仍然有一定差距,说明文本因子的挖掘并不彻底,分离以后的特征仍然残留有部分的文本因子的影响,这可能是特征矩阵与双线性模型之间不完全契合所导致的。下一步工作中,考虑将特征矩阵先进行变换处理,使之更符合双线性模型,然后再进行变换。另外,会考虑采用新的模型进行因子估计与因子分离,比如非线性模型。
人的一生,有1/3的时间是在睡眠当中度过的,睡觉可以说是人的最基本的需求之一。好的睡眠能让人精力充沛,糟糕的睡眠则会让人无精打采。
图3 因子分离后不同字符的同机距离和相同字符的非同机距离比较
表2 欧氏距离方法、本文方法与方法1的识别结果
4 结语
计算机打印机文档鉴定是一个新的研究课题,在样本和检材文件中没有相同字或相同字符极少的情况下,打印文档鉴定相当困难。本文针对这个问题,提出了一种基于因子分析模型的打印机因子与文本因子分解方法,对特征矩阵采用双线性模型进行因子分离,提取近似文本无关的特征,然后采用EM 算法迭代求得最大后验概率进行分类,使得样本与检材文件中没有相同字时的打印机鉴定正确率有了显著的提高。
参考文献
[1]陈春涛,裴雷. 施乐DocuColor 彩色激光打印机隐含信息的获取[J]. 江苏警官学院学报,2006,21(6):145-148.CHEN Chuntao,PEI Lei. The hiden information acquisition of Shile DocuColor laser printer[J]. Journal of Jiangsu Police Officer College,2006,21(6):145-148.
[2]Huang S,Wu J K. Optical watermarking for printed document authentication[J]. IEEE Transactions on Information Forensics and Security,2007,2(2):164-173.
[3]Steenblik R A,Hurt M J,Knotts M E. Advantages of micro-optics over holograms for document authentication[C]//Processing of Optical Security and Counterfeit Deterrence Techniques IV,San Jose,CA,United states:SPIE,2002,pp.215-226.
[4]Gebhardt J.Document Authentication using Printing Technique Features[D]. Germany:University of Kaiserslautern,2012.
[5]Oliver J,Chen J. Use of Signature Analysis to Discriminate Digital Printing Technologies[C]//Processing of International Conference On Digital Printing Technologies,San Diego,CA,2002:218-222.
[6]Mikkilineni A K,Khanna N,Delp E J. Forensic Printer Detection Using Intrinsic Signatures[J]. Proceedings of SPIE- The International Society for Optical Engineering,2011,7880:24-35.
[7]Mikkilineni A K,Ali G N,Chiu G T C,et al.Printer identification based on graylevel co-occurrence features for security and forensic applications[C]//Proceedings of SPIE-IS and T Electronic Imaging-Security,Steganography,and Watermarking of Multimedia Contents VII.,San Jose,California,USA,2005:430-440.
[8]Mikkilineni A K,Khanna N,Delp E J.Texture Based Attacks on Intrinsic Signature Based Printer Identification[C]//Proceedings of the SPIE International Conference on Media Forensic and Security,San Jose,CA,USA,2010:175-178.
[9]Pei-Ju C,Allebach J P,Chiu G T. Extrinsic Signature Embedding and Detection in Electrophotographic Halftoned Images Through Exposure Modulation[J]. IEEE Transactions on Information Forensics and Security,2011,6(3):946-959.
[10]Chiang P,et al.,Printer and Scanner Forensics:Models and Methods[M].Intelligent Multimedia Analysis for Security Applications,Springer Berlin Heidelberg,2010.282:145-187.
[11]Tsai M J,Liu J,Wang C S,et al. Source Color Laser Printer Identification Using Discrete Wavelet Transform and Feature Selection Algorithms[C]//Processing of IEEE International Symposium on Circuits and Systems,IEEE,USA,2011,19(5):2633-2636.
[12]Akao Y,Yamamoto A,Higashikawa. Improvement of Inkjet Printer Spur Gear Teeth Number Estimation by Fixing the Order in Maximum Entropy Spectral Analysis[J]. Lecture Notes in Computer Science,2011,6540:101-113.
[13]王宁,韩国强,顾国生.打印文件鉴别打印机型的文字图像模糊识别[J]. 计算机应用研究,2008,7(3):953-956.WANG Ning,HAN Guoqiang,GU Guosheng. Printer identification based on computer fuzzy recognition of character image[J]. Application Research of Compters,2008,7(3):953-956.
[14]邓伟,罗小巧,鄢煜尘,等.基于打印字符分析的打印文件检验研究[J]. 计算机应用研究,2011,28(12):4763-4765.DENG Wei,LUO Xiaoqiao,YAN Yuchen,et al. Printed character analysis based printed document examination[J]. Application Research of Compters,2011,28(12):4763-4765.
[15]涂岩恺,陈庆虎,邓伟.计算机激光打印文档鉴别与检索[J].电子与信息学报,2011.33(02):499-503.TU Yankai,CHEN Qinghu,DENG Wei. Computer Laser Print Document Identification and Retrieval[J].Journal of Electronics & Information Technology,2011,33(2):499-503.
[16]陈庆虎,邓伟,涂岩恺. 图像整体高倍放大扫描系统[P].实用新型专利,专利号:ZL2009 20084691.2.CHEN Qinghu,DENG Wei,TU Yankai. The high-magnification scanning system of the whole image[P]. utility-model patent,patent number:ZL2009 20084691.2/
[17]Zhou Q,Yan Y,Fang T,et al. Text-independent printer identification based on texture synthesis[J]. Multimedia Tools&Applications,2016,75(10):5557-5580.
[18]Tenenbaum J B,Freeman W T. Separating Style and Content with Bilinear Models[J]. Neural Computation,2014,12(6):1247-1283.
[19]鄢煜尘,陈庆虎,袁凤,等.基于特征融合的脱机中文笔迹鉴别[J]. 模式识别与人工智能,2010,32(2):203-209.YAN Yuchen,CHEN Qinghu,YUAN Feng,et al. Writer Identification of Offline Chinese Handwriting Documents Based on Feature Fusion[J]. Pattern Recognition and Artificial Intelligence,2010,32(2):203-209.
[20]Ningbo Hao,Jie Yang,Haibin Liao,et al. A Unified Factors Analysis Framework for Discriminative Feature Extraction and Object Recognition[J]. Mathematical Problems in Engineering,2016,26(4):1-12.
Factor Analysis based Print Document Identification by computer
ZHAO Kejian1 LIAO Haibin2
(1.Computer Center,Xianning Central Hospita(lThe First Affiliated Hospital of Hubei University of Science and Technology),Xianning 437100)
(2.School of Computer Science and Technology,Hubei University of Science and Technology,Xianning 437100)
Abstract In order to solve the problem of print document identification when the characters in samples and test material are completely different,a new method is proposed based on factor analysis. Firstly the feature matrix is analyzed using bilinear model and the printer factor is separated from the text factor. Then the new printer feature nearly independent on text is extracted. The Bayesian decision and Expectation-Maximization algorithm are used to classify the new feature matrix. The experimental results demonstrate that this method promotes the identification accuracy significantly.
Key Words print document identification,factor analysis,bilinear model,EM algorithm
中图分类号 TP391.41
DOI: 10.3969/j.issn.1672-9722.2019.06.054
∗收稿日期: 2018年12月23日,
修回日期: 2019年1月28日
基金项目: 无锡市科技局项目“计算机智能技术的打印文件检验系统”(编号:CSE00802);湖北省教育厅科学技术研究项目“面向视频监控的人脸多模态识别与3D 建模研究”(编号:Q20172805);湖北省教育科学规划项目“基于智能教室与大数据分析的新型教学质量评估体系研究”(编号:2016GB086)资助。
作者简介: 赵克坚,男,硕士,工程师,研究方向:医院信息化,医学图像处理与智能识别。廖海斌,男,博士,副教授,研究方向:图像处理与模式识别。
Class Number TP391.41
标签:打印文件鉴定论文; 因子分析论文; 双线性模型论文; EM算法论文; 咸宁市中心医院(湖北科技学院附属第一医院)计算机中心论文; 湖北科技学院计算机科学与技术学院论文;