论我国学位论文数字化工程,本文主要内容关键词为:学位论文,论我国论文,工程论文,论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
学位论文是高等学校和研究机构的毕业生为取得学位资格提交的学术性研究论文。i一般分为三种:学士论文、硕士论文和博士论文。学位论文选题新颖、引用资料广泛、阐述系统、论证详细,具有较高的学术参考价值,是一种重要的信息源。长期以来,由于种种原因,学位论文没有固定的搜集渠道,始终处于无序传播状态,因而不易查找,被长期闲置,得不到充分利用,造成信息资源的巨大浪费。ii近年来,随着现代信息技术的飞速发展,图书情报机构积极研究分析如何利用网络技术、数字技术,以提高信息服务的效能和拓展信息服务的范围,越来越多的信息资源被数字化网络化,学位论文也不例外,并逐渐成为热门话题。学位论文数字化是学位论文发展的必由之路,这是由计算机网络传播信息的特有魅力所决定的,数字化学位论文具有形式多样化、存储无纸化、检索自动化和传递网络化等特点,受到广大用户的欢迎。
1 国外案例分析
1.1 PQDD
PQDD(ProQuest Digital Dissertations)是美国UMI(University Microfilms International,现改名为Bell & Howell)公司开发研制的博硕士论文数据库。它收录欧美等国1000余所大学1861年以来理、工、农、医和社会科学等领域160多万篇学位论文,并且每年约有4.7万篇博士学位论文和1.2万篇硕士学位论文增加到该数据库中。iiiPQDD是目前世界上最大和使用最广泛的学位论文数据库,吸引着世界各地的用户,我国也有许多大学购买了该数据库的使用权。该数据库检索界面友好,检索方式多样,论文原件获取方便。它提供题名、摘要、作者、学校等14个字段的检索,每篇论文都可以检索到文摘索引信息,且1997年以来的部分论文还可以看到前24页的论文原文。同时提供网上全文定购服务,美国本土的用户可以直接在网上用信用卡付款并得到PDF文件,其他地区用户通过银行帐户付款,UMI公司通过邮政快件提供原文复印件。信息每周更新。
1.2 NDLTD
NDLTD(Networked Digital Library of Theses and Dissertations)是1996年由美国教育部经费支持的一个全美非赢利性“网络博硕士论文数字化图书馆”。127家大学和18个研究所按照统一的规范、协议和标准建立本单位的学位论文数据库,由Virginia大学对这些数据库进行整合,通过一个基于OAI(Open Archive Initiative)的跨文档检索系统向用户提供高层次的服务,就像传统图书馆中的馆际互借,通过联合编目达到资源共享,非常适合图书馆的发展思路,深受图书馆界的欢迎,从而在国际上树立了博硕士论文数字化信息化服务的新典范。iv
2 我国学位论文数字化现状
目前我国共有三个较大型学位论文数据库项目和部分高校自建学位论文数据库。
2.1 CALIS“高校学位论文(文摘)数据库”v
这是CALIS的自建数据库项目之一,由全国工程文献中心(清华大学)负责组织,收录83个CALIS成员馆自1998年以来的硕士、博士论文共9.7万篇。该数据库采用统一规范、分散加工、集中建库的运作模式,由中心制定数据规范,参建单位使用统一的录入软件,分散加工数据,并定期以FTP方式提交数据,再由中心汇总、质量控制和检测后采用IP地址控制使用权限,通过CERNET提供服务。
由于经费缘故,该库只收录题录和文摘,没有全文。全文服务通过CALIS的馆际互借系统提供。所以目前这个库只是文献传递的一个工具。
2.2 万方“中国学位论文数据库”vi
这是万方数据资源系统的子数据库,论文数据由国家法定的学位论文收藏机构——中国科技信息所提供,并委托万方数据公司加工建库,收录自1977年以来我国自然科学领域博士、博士后及硕士研究生论文,其中文摘已达38万余篇,首次推出最近3年的论文全文10万多篇,年增全文3万篇,逐步形成中国学位论文全文数据库。作为我国最早建设的全国性学位论文数据库,它是目前收录学位信息最多、最全的数据库。该数据库属商业性质,集中标引、著录,统一性较好。论文原件都有收藏,索取方便。信息实行年更新。
2.3 CNKI“中国优秀博硕士学位论文全文数据库”vii
这是中国知识基础工程(CNKI)的一项大规模开发利用我国知识信息资源的重大信息化工程。收录300多家博士授予单位2000年以来的博硕士学位论文5万多篇,并按学科体系进行重新编辑。2002年6月2日的《光明日报》称之为目前世界上唯一最科学、最全面的中文博硕士学位论文全文数据库。该数据库实行全国规划、统一标准、规模建库、资源共享,提供论文全文的在线浏览、全文下载保存、打印、摘录等功能,通过网上包库、镜像站点和光盘三种方式提供服务。服务中心数据每日更新。
3 我国学位论文数据库存在的问题
通过与国外数据库的使用对比,笔者认为,我国的学位论文数据库主要存在以下问题:viiiix
3.1 参加学位论文数据库建设的单位少,学科覆盖面小,地域分布范围窄。尽管教育部对学位论文有呈交制度,但由于无隶属关系,收集渠道不畅,导致所建论文数据库均不完整。
3.2 所建数据库大多为书目数据库,全文数据库所占比重偏小,用户通过数据库检索到的只是二次文献,若想获取全文还需要文献传递等服务的支持。
3.3 数据库质量不高,在收录的学科范围、记录字段、数据量、报道年限和数据完整性等方面与外国数据库相比,仍有不小的差距。
3.4 数据库界面在友好性和易用性方面不如外国数据库,主要体现在提供的检索字段、检索手段和检索方法少,在线帮助功能差,未能综合使用目前有效的各种检索技术。
3.5 数据库功能单一,除了能提供用户同时使用和随时更新功能外,没有开发相应的数据库传输、互联和电子商务功能。
4 我国学位论文数字化工程
4.1 工程建设目标
以学位论文资源的组织与开发为基点,利用先进的网络技术和知识信息组织管理手段,将学位论文内容根据学科、专业的知识结构,对其进行二进制编码、数字化集成,最大限度地分类集成整合,使海量信息有序化、知识化,从而构建学位论文知识仓库,发掘和增值学位论文知识资本,达到最大限度地利用学位论文信息资源,服务于知识创新的目标。
4.2 工程建设原则
4.2.1 整体性原则。学位论文数字化是一项系统工程,国家职能部门应制定相应的政策法规,加强宏观领导与协调,避免重复投资和重复建设。
4.2.2 规范性原则。只有要求数字化学位论文既有规范的全文编排,又有标准的著录格式,才能为读者查询提供方便,发挥资源的整体效率,真正实现资源的完全共享。
4.2.3 专业化原则。面临知识经济时代到来的挑战,国际社会已经开始实施从信息管理向知识管理的转变。简单的数字化信息处理,已经不能满足以知识为核心要素的知识经济时代人们获取知识的需要,尤其是系统地获取专业有效知识的需要。因此,必须有专门的机构来对各行业、各学科、各专业的新旧知识进行专业化的分析、整理和编辑加工,以形成满足社会普遍需求的专业知识库群,体现知识间相互关联的知识网络,才能为社会提供广、快、精、准、全的服务。
4.2.4 产业化原则。学位论文的数字化建设具有高投入、高产出、高风险的特征,可以通过各种融资渠道来筹措资金,来促进数字化学位论文的开发。同时应面向市场,加速实现资源商品化、社会化与国际化和服务产业化,打造几个名牌学位论文信息服务企业。
4.3 工程建设步骤
实施我国学位论文数字化工程,发展知识管理设施,是一项复杂的系统工程,需要有强有力的政策保障系统、强大的组织系统、高水平的技术支撑系统、高质量的生产制作系统和高效率的服务系统,需要分轻重缓急,按步骤进行。
4.3.1 进行项目论证和市场调查,选定上网技术路线和网络平台,确立相应的开发工具和系统方案,确立宣传切入点和相应的合作机制,组织培训生产制作队伍,建立相应的质量保障体系。
4.3.2 当年学位论文全文上网。对具有研究生培养任务的高校和科研院所,要求其图书馆和信息所实行论文的远程提交,负责收集电子版全文,规定统一的文件格式,建立文摘和全文数据库,定期进行数据传递,提高数据制作转换的效率和时限,将信息交流时滞降到最低程度。
4.3.3 过期学位论文逐步数字化。以“211工程”高校为基础,逐年对过期学位论文进行扫描,采用OCR技术和人机辅助校对技术,使之形成文字编码信息,实现过期学位论文的彻底数字化,同时建立文摘、关键词、刊名、主题、全文等字段的数据查询系统,健全其检索功能。
4.3.4 经过相应的技术开发,确立科学的标准规范,对论文的文献计量字段自动进行抽词、相关标引和自动统计分析,发布论文引用统计分析和评价报告。
4.3.5 建立网络服务站点体系和销售服务体系以及相应的局域网和光盘服务体系,进行专题文献加工服务,实现知识信息资源的全面市场化服务。
4.4 工程建设关键
4.4.1 确立工程模式。目前有自建数据库、与企业联合建库和互相联合建库三种工程模式。笔者以为自建数据库可以保证高校和科研机构的自主版权和利益,但这种做法需要投入大量人力、物力,对软硬件水平和技术力量要求都较高,对读者来说也犹如大海捞针,不利于读者进行相关课题检索,容易导致资源浪费和重复建设。后两种模式将许多论文集中在一起,按论文重新分类建库,有利于标准化、规范化建设。由于采用集团化运作,也有利于发挥规模效应和品牌效应,有利于知识的传播和开发利用,提高信息的利用率。
4.4.2 找准服务方式。数字化学位论文的服务方式问题包括数据库的建库方式与检索服务方式。应按照“题录+摘要+全文”方式建立数据库,用户先检索题录,浏览摘要后,才选定全文。提供网上包库、镜像站点和光盘等多种方式,方便图书情报单位灵活选择适合本单位用户特点的服务方式
4.4.3 统一文件格式。x将Word、LaTex、Adobe Pagemaker、HTML、纯文本等多种格式文件,通过各种工具和手段转换为HTML和PDF两种文件格式。HTML可以充分利用WWW的优势,既方便于读者直接浏览运用,又便于数字化学位论文功能的扩展。PDF文件格式可以解决公式图表的显示问题,能保留论文本身的排版风格。
4.4.4 完善服务功能。数字化学位论文项目应具有适时网上浏览、免费提供目录和题录、内容推送、全文检索、超级链接、读者统计、读者论坛、全方位查找、书签和个性化服务等功能。重视超级链接的作用,增加论文之间、主题词之间、论文与相关媒体资料或相关网站之间的多方面链接,有利于读者阅读有关文献。
4.4.5 增加数量。数量越多,范围越广,服务越周到,就越能提高数字化学位论文的利用率,越能扩大规模效应。除了收录所有博硕士论文外,条件允许时,可考虑收录部分高校的优秀学士论文。
4.4.6 合理定价。采用免费和收费相结合的收费模式,对于题录和摘要数据库提供免费检索。而对于全文数据库则采用有偿收费服务,即根据用户所使用的专题数据库,参照一定的收费标准和用户使用人数,以年为单位收取费用,在规定的时间和用户数量之内不限定检索次数。这种方式有利于用户根据自身的需求特点,有选择的订购数据库,节省经费,实现投入效益最佳化。
4.4.7 明确保存责任。尽快制定相关法律,要求数字化学位论文的生产者、拥有者或提供者必须以当前可供公共存取的标准系统去生产与维护数字信息,承担长期存取责任,并尽可能地减少软硬件不断升级带来的影响。建立全国性数字化学位论文保存机构,形成类似印刷型文献的呈缴本制度。
4.4.8 加强知识产权保护。要建立良好的运行机制,尊重合作单位和作者的利益,制定信息与利益同步共享的合作原则,有效地理顺信息合作中的利益关系。在学位论文数字化前,要与合作单位和作者签订协议,取得他们对作品数字化的授权,并一次给付稿酬,以避免对数字化作品权归属的争议。同时要求各使用单位未经授权不得引用其出版的数据库制作其他任何数据库或出版物,不得非法复制、解密、扩散、转让和传播该数据库及各类软件。
4.4.9 强化品牌和安全意识。学位论文数字化以后,面临国际信息市场的竞争,应树立“读者是上帝”的服务意识,引入CIS战略,争创名牌。重视信息安全,积极将信息安全方面的研究成果加以应用。
总之,学位论文数字化工程的实施,将全面集成和完善我国知识信息资源体系,形成海量信息资源,大大提高网上中文信息资源的拥有量,提高知识资源的利用和服务水平。