开源软件对电子文件格式选用的影响,本文主要内容关键词为:文件格式论文,开源论文,电子论文,软件论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1.引言
本文所述的电子文件,指在文件管理体系中起到传送、鉴定和保存作用的以页面形式显示的数字文件。电子文件广泛应用于图书出版、档案管理、电子商务、电子政务等领域。目前,普遍接受的两种的电子文件格式是PDF和DiVu。PDF(Portable Document Format,便携式文档格式)是由Adobe公司开发的格式。DjVu格式是由AT&T实验室开发的格式。从实现上来说,PDF和DjVu分别是有代表性的基于图形的格式和基于图像的格式。常见的电子文件格式还有微软的CHM和LIT、华康WDL、方正CEB、超星PDG、书生SEP等。
字处理文件格式有时也起到电子文件的作用,如RTF、微软DOC、金山WPS等;扩展标记语言XML经常用于信息的共享和交换,在附加样式单或经过转换后也能够以页面形式显示。因为使用它们的主要方式有所不同,本文的讨论将不涉及这些格式。
开源软件的历史不长,但是已经形成了一种潮流。开源软件对电子文件管理产生了显著的影响。向大众开放文件格式的源代码(包括读写、转换、加密等),有利于这种格式增强适用性和可靠性,有利于这种文件格式获得广泛接收。选用开源的文件格式有助于文件的长期保存,减少信息丢失的风险。
本文以PDF和DjVu为研究对象,对照国外的其他一些格式,从文件流通和文件保存两个方面比较它们各自的特点和在开源软件运动中所处的地位。本文指出支持开源的程度,将成为今后用户选用电子文件格式时的考虑的主要因素。
第2节分析文件格式的开源情况。第3节和第4节分别讨论开源软件对文件流通和文件保存环节的影响。第5节是对其他国外格式的一个简单调查。第6节是结论。
2.开源情况
开源软件(Open Source Software),也称为自由软件(Free Software),其中的“Free”指自由地使用、学习、修改和分享软件。分享开源软件的自由意味着人们可以使用和翻译这些软件而不用支付任何费用。有些可以免费使用的软件,如共享软件(shareware)和免费软件(freeware),不能被用来研究、修改和分享,所以不是开源软件。
开源软件由一些志愿者发起,已经开发出了OS、GUI以及大量的应用程序。Linux是开源软件的典型代表,在质量、外观和健壮性上都能与私有软件(如Windows)媲美。著名的开源软件社区有SourceForge(http://www.sourceforge.org)等。像IBM和Sun这样的大型计算机公司也支持和开发开源软件。
越来越多的欧美地区的管理部门已经制定或正在制定提倡使用开源软件代替私有系统的政策。这不仅使它们不再依赖于商业软件供应商,而且也帮助扶持了自己的软件开发产业。由于开源软件成为潮流,而且质量上乘,许多政府选择开源软件进行本地化,为政府信息化服务。
PDF是商业公司开发的一种文件格式,已经有很长的历史。PDF的规范是公开的,如最新的PDF1.5规范可以网上免费获取。Adobe公司的电子文档阅读器Acrobat Reader是免费的。但是,处理PDF文件的主要应用软件Acrobat、Distiller、Designer等是商业软件,价格比较昂贵。
由于PDF格式非常复杂,特别是使用了对象技术,开发PDF应用是一项复杂的工作。KPDF是Unix/Linux的第三方阅读器。一些免费的PDF库,如PDFlib和xpdf,是二进制的,而且功能不够完整。这就形成了一个技术壁垒。国内只有很少的商业公司有能力开发PDF应用软件。
近年来,随着开源运动的发展,出现了很多开源的PDF项目。其中,规模较大的是iText,它是一个由Java编写的开源的PDF库,带有简单的GUI。同时,这个项目组用C#编写了iTextSharp,供Windows.NET平台上的用户使用。iText对PDF的读写提供了全面的支持。
比较而言,DjVu最初是由实验室开发的,设计的出发点就支持开源。DjVu的主要资源网站有http://djvu.org等。DjVu的参考库包含了由C++编写的解码程序和部分编码程序,其中解码程序具有基于Qt技术的GUI以及NS浏览器插件,编码程序是一些命令行子程序。另外,Windows平台上开源项目WinDjView是一个小巧的DjVu阅读器,功能较完善,并提供Visual C++的源代码。
AT&T实验室把DjVu的商业开发权利转让给了 LizardTech公司(http://www.lizardtech.com)。LizardTech的主要DjVu产品有免费DjVuSolo,收费的Document Express Editor和Document Express Enterprise。DjVuSolo支持由图像制作单个DjVu文件。Document Express Enterprise是一个工作流式的制作工具,目前最新的版本是5.1。它能够从图像文件或PDF/PS文件批量制作DjVu文件。另外,它支持中英文的OCR,以及添加数字水印。
3.文件流通
电子文件的流通,是指电子文件在机构业务活动中的发文、文件流转和收文等过程。在电子文件的生命周期中,文件的流通是很重要的环节。在现实中,各机构使用的平台和软件多种对样。如果发送方与接收方的软件不兼容,那么即使文件传送成功,接收方也未必能读取信息,为此,需要选择一种通用的文档格式,使电子文件能实现无障碍流通。
PDF文档由一系列的页面组成,每幅页面都包括正文、字形、边缘、版面、图形和背景等数据。PDF文件能够在各种软件中生成,并保留原有文件的内容和外观。PDF文档显示风格一致,能够满足政府、法律、财经和IT等行业对于文档或表单的严格规范要求。
PDF支持动态表单系统,提供加注释标记或数字签章的功能,为文件收发双方针对电子文件的交互流动提供了可能,适用于机构内部公文呈转或在线交易。PDF提供不同级别的安全控制,有利于文件的安全管理。PDF提供比较、鉴定工具,有利于确认文件的真实性、完整性。不过,这些功能只有Adobe的软件才能很好地支持。
DjVu格式将图像分为背景层(纹理和图片)、前景层(文本和线条)和掩码层(形状库)。DjVu用高分辨率来还原文字,从而最大限度地提高可辨性;同时用较低的分辨率来压缩背景图片,从而使整个图像的质量得到了保证。DjVu采用分层显示,而不是等到整幅图片都被解码之后才显示,使得图片显示的速度有很大提高。
DjVu具有与PDF类似的超链接、注释、元数据功能。DjVu的前景层能够被OCR识别,识别的结果被插入到可搜索的隐藏文本层中。目前,OCR引擎没有包含在DjVu的开源代码中。由于尚缺乏中文OCR的开源代码,这将成为DjVu进入中文市场的一个不利因素。
DjVu格式能够与数字水印系统相结合,保证数字文件的真实性和在网络上被合法使用。可以将一个标识图像与宿主图像数据进行叠加,形成带可见水印的图像,或者将一个特定的序列号经过加密算法嵌入宿主图像数据得到不可见水印。
开源对文件的流通和使用有下面两个方面的影响:
(1)适用性。开源软件能够按照具体的业务需求进行定制或进行有效的二次开发。Adobe公司并没有提供PDF的开源代码,因此相当长时期内PDF的定制就显得非常困难。需要指出的是,DjVu的开源代码数学性很强,修改起来并不容易。DjVu代码的可读性和可修改性都有提高的必要。
(2)可靠性。源代码对于理解文件格式的工作原理和修补文件格式的错误是很重要的。PDF是一种复杂的结构化文件格式,有理由对它的安全漏洞和“后门”问题给予更多的关注,特别是在敏感的应用场合。国内用户有时更愿意选择类似PDF的国产格式,如方正CEB等。
4.文件保存
电子文件格式的选择对保证数字信息的可读性起到关键的作用。产生电子文件的部门处于不同的领域、有不同的事务处理需求,在工作中产生了各种各样格式的文件。软件开发商有针对性,很少考虑到文件格式的长期保存能力。为了使各种数字文件信息能够在将来继续被利用,必须在繁多的文件格式中进行选择,选取有利于长期保存的电子文件格式。
PDF在世界上拥有众多用户,有许多第三方公司支持。PDF有可能成为电子出版物的国际标准。广泛的支持者和众多的合作者,成为PDF格式长期发展的基础。PDF可以从任何支持标准印刷语言PostScript的应用系统中产生。Acrobat Writer支持把常见的字处理文件如.txt、rtf和.doc等转换为PDF文件。PDF还可以从扫描文档中产生,使传统文件数字化后得到外观非常接近于原件的电子文档。
迄今为止,已公布的PDF规范的版本都是向下兼容的。不过,由于数据迁移的窗口时间较短暂,对PDF文件仍需要合理规划以减少数据丢失。PDF采用CCITT Group 4无损压缩算法。由扫描文件制作的PDF文件体积较大,有时需要进一步压缩。
如今DjVu的用户数量远不如PDF。但是,AT&T开放参考库的做法为DjVu在开源社区争取到了很多支持。已经开发的项目有不同平台上的浏览器、图像转换器、JavaScript搜索引擎、在线格式转换服务器(http://any2djvu.djvuzone.org)等。在美国,DjVu已经拥有很多政府、企业以及档案部门等的客户。
DjVu对背景层采用小波压缩算法IW44,压缩后文件大小非常理想,能够显著地节省存储空间。对包括文字和图像的彩色文件来说,DjVu文件在同等质量下其大小通常只有JPEG文件的1/5-1/10。对由扫描文件制作的黑白PDF文件来说,DiVu文件只相当于它们的1/2-1/4。
文件保存方面与开源有关的两个关键问题是:
(1)保存成本。拥有源代码使用户可以自主控制应用中与文件格式有关的模块,而不必受制于格式的开发者。PDF本身很复杂,而且功能扩充很快,对第三方开源项目的升级来说是一个挑战。大多数PDF用户仍依赖于Adobe的技术支持。DjVu的发展时间还不长,已经转入了商业开发。未来DiVu能够继续保持完全开源的地位,存在一些不易预测的变数。
(2)信息耗损。作为一种长期保存的文件格式,要尽量降低格式转换或数据压缩造成的信息损耗。PDF的矢量图形元素不会耗损,图像采用无损压缩也不会耗损。DjVu技术同时支持无损压缩和有损压缩,采用无损压缩时压缩性能有较大的下降。需要注意的是,DjVu的开发者对开源代码有一定保留,公开的算法并不一定是最优的。
5.其他格式
与微软公司的字处理文件DOC不同,它的电子文件格式并不普及。CHM格式是微软的基于HTML的帮助文件。CHM支持与HTML相关的各种技术,并可以通过URL与Internet联系在一起。CHM可以直接在Windows系统上打开,制作工具有WinCHM和PowerCHM等。LIT格式是软件Microsoft Reader的专有格式。Microsoft Reader是一个易用的电子文件阅读器,但是目前还不支持中文。
此外,国外的电子文件格式还有SWB、EBX、EBK等。SWB格式是软件WinEbook Compiler的专有格式;EBX格式是软件Glassbook Reader的专有格式;EBK格式是Voyager公司制定的格式。这几种格式主要用于电子图书,而且市场份额不大。
6.结论
开源软件对电子文件格式及其支持软件产生了深刻影响。PDF和DjVu是国外的两种主流电子文件格式。一方面,完整的第三方开源软件的出现,对Adobe的垄断地位提出了挑战。另一方面,PDF原先的技术壁垒降低了,这有利于PDF的进一步普及。DjVu作为一种技术先进的开源软件出现,近些年得到快速发展,已经转入大规模的商业开发。
从技术上看,基于图形的格式和基于图像的格式有互补性,分别侧重不同的应用场合。同时,文件格式的开发机构之间存在一定的协作关系,主流文件格式之间通常有可转换性。用户在选用格式时有很大的余地。可以预见,在国内市场上这两种格式以及其他格式将形成长期竞争的局面。