网络引文不可追溯性研究及解决方案_追溯系统论文

网络引文不可追溯性及其解决方案研究，本文主要内容关键词为：引文论文,性及论文,解决方案论文,网络论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

CLASS NUMBER G252.34

分类号 G252.34

1 引言

互联网的日益普及和在线出版的进一步发展，使得网络学术资源的获取变得更加方便快捷，国内外的期刊和图书的引文中，已经有不少以互联网网址出现的网络引文，并且比重呈现逐年增长的态势。Robert P.Dellavalle等[1]通过对Science等影响因子较高的三种杂志的文献加以分析，发现30％的文献中至少含有1篇网络引文，所有引文中有将近2.6％的网络文献。也许我们曾经遇到过这样的困惑：几天前访问的网页，再次打开的时候竟然提示“找不到网页”、“禁止访问”等，本来十分重要的信息一夜之间就可能不复存在。据Alexa的调查数据，网页平均75天后就会消失[2]。此外，网页内容的频繁变动也导致了读者无法回溯到文献作者引用时的网页状态。由于网络引文缺乏持久性和稳定性，正式的学术交流中对它的引用仍然存在争议[3]。基于此，网络信息资源的可追溯性问题被提上日程，对网络引文的认可程度及其对传统的引文分析方法产生的影响[4－6]等已成为国内外研究的热点。如何解决期刊网络引文不可追溯问题，也显得尤为重要。

2 国内外研究综述

2.1 不可追溯现象的研究

国外关于“网络引文不可追溯”现象的研究，用Google Scholar[7]检索到被引次数最多的3篇文章是JASIST上的An Analysis of Web Page and Web Site Constancy and Permanence和Web Page Change and Persistence—A Four-Year Longitudinal Study，以及在Computing Practice上的Persistence of Web References in Scientific Research。这3篇文章基本上概括了国外目前研究的现状。前两篇文章对随机选取的361条URL进行了跟踪，对网页和网站的持久性和恒定性加以分析，通过前后3次（以6个月为间隔）的数据分析发现：6个月之后，12.2％的网站及20.5％的网页不稳定，97％的网站和98.3％的网页内容会加以变化；1年之后，数值分别增加到17.7％、31.8％以及99％、99.1％[8－9]。第3篇文献从CiteSeer数据库抽取了67577条URL，分析了网络引文增长规律和不可追溯性的基本现状，进一步从链接和内容的可靠性两个角度，提出了网络引文链接长期保存的解决方案[10]。此外，文献[11－15]也分别研究了各自相关领域期刊的不可追溯现象。

国内关于网络引文不可追溯现象的研究集中在学术期刊上的网络引文方面。文献[16]通过对《软件学报》和《中国图书馆学报》1999－2003年间所刊载的1589篇含网络引文的文章进行分析，研究了可追溯率和网站类型、时间等因素的关系，探讨了不可追溯性的各种情况，建立了可追溯性的回归模型。文献[17]以中国学术期刊网上的情报学、情报工作专题中各个期刊的网络引文为研究对象，检测了1997－2003年的网络引文，说明了其可获取的百分比随时间变化的情况。研究表明，引用时间越远，网络引文可获取的百分比越低。

2.2 网络引文不可追溯原因分析

网络引文不可追溯的原因很多，主要分为如下两类”[10,18]：

（1）链接的变动。链接的变动往往会导致读者根据提供的链接，无法获取作者引用的相关资源。这种情况产生的主要原因有：硬件的问题，如服务器关闭、网络故障等；原有链接的更新，如链接被删除、修改等；访问网络环境的限制，不同IP地址的计算机访问某个网络信息资源时，有可能得到不同的结果；此外，作者的网址链接拼写错误也会导致网页的无法访问。

（2）内容的变动。网页内容的变动主要表现在网络信息资源内容的动态更新，以及网页排版结构的变化等。此外，网络引文的不规范使用，如引而不用、用而不引等也往往会导致网页内容的不可追溯。

2.3 网络引文不可追溯的解决方案

为了提高网络信息资源的可追溯性，已有一些国外学者和机构做了相关研究。网络引文通常利用URL进行标识，而URL所代表的仅仅是资源和位置的映射关联，当位置发生移动时，这样的映射也自然消失了。因此，IETF于1993年提出了一项统一资源命名计划——统一资源名称法[18]（Uniform Resource Names，简称URNs），对每一个数字化信息赋予一个永久的、唯一的且独立于信息资源的存储位置名称，通过这个名称就可以映射到该电子资源上。典型的URNs项目有IDF（The International DOI Foundation）开展的数字式对象标识符DOI[19]、OCLC的PURL[20]（Persistent URL）项目等。此外，M.L.Creech[21]提出了一种面向作者的链接管理（CLT／WW）技术，通过记录某站点的操作日志，自动识别和修复该站点下的死链接。

上述方案对于解决网络资源位置的改变有一定的帮助，但对于网络资源内容的变动（修改和删除）却力不从心。Joachim Feise[22]提出了利用配置管理系统（Configuration Management System），收集、存储和组织历史网页资源，用户可以通过代理服务器向系统发送获取特定时间下的网页资源的请求，系统将返回请求的内容并呈现给用户。美国的Internet档案馆[23]，通过自动抓取或接受Alexa公司和其他机构捐赠的数据，存储了将近850亿个网页存档，当遇到“找不到网页”的错误时，还可以检索到历史网页。类似的还有北京大学天网实验室开发的关于中文历史网页信息的存储与展示系统Web Infomall[24]。此外，国外的WebCite系统[25]专门就解决网络引文的保存问题提出了解决方案。在该系统中，每一个WebCite引文都是一个存储在WebCite上存档的网络引文，它不是直接链接到作者访问的网页，而是在作者访问的时候将文档存储起来（相当于备份），当读者需要查看作者的引文时，其实际访问的是WebCite上的备份内容。实际上，该网站在一定程度上充当了可靠的第三方机构的角色。

从国内外的研究论文中可以发现，原生数字信息资源的不可追溯现象已经十分普遍，即使有的网址能重现网络引文，但其版面布局和内容的频繁变化亦会导致原有网址下获取的网络引文并非作者真正想要的引文信息，这势必就失去了引证文献标注的意义，严重影响着人们使用和引证网络信息资源的积极性。此外，网络引文可追溯性研究也大部分集中在可追溯性现象及规律的研究上，对不可追溯问题解决方案的研究偏少，与此相关的实际应用系统更少。Internet Archive、Web Infomall等项目在对良莠不齐的网络信息资源进行采集和存储时未加以过滤，这种全采集模式缺乏针对性，导致采集过程的大部分时间花费在重复或无价值的信息上。WebCite通过和各期刊杂志社的合作，存储了期刊文献中的所有网络引文，但是其对于未在系统中存储的网络引文的追溯性支持不够，同时限于其规模及易用性，WebCite实际上并未得到广泛的使用。

3 解决方案及系统构建

通过上文的分析，笔者认为网络引文追溯平台的构建应该着重解决网络信息资源位置和内容的“变动性”，最有效的解决方案是采用类似于WebCite的功能，在作者引用行为产生时及时将网络引文的内容存储下来，构建网络引文库和网络引文检索平台，使得读者能够准确追溯并原貌呈现出网络引文的“引用版本”。需要注意的是，该平台存储的网络资源通常是即将审核和出版的论文文献中包含的网络引文（“现刊”引文），而对于另外的未能及时存储的网络引文（一般为“过刊”引文）的追溯问题，网络引文追溯平台也应该加以解决。基于此，笔者提出了新的网络引文追溯平台解决方案，下文将就该平台的功能需求、模块划分和实现做详细介绍。

3.1 解决方案与思路

为解决现有系统的问题，本文构建的网络引文追溯平台将网络引文划分为“现刊”引文和“过刊”引文两部分。对于“现刊”引文，系统将为在线期刊编辑出版系统提供接口，对网络引文数据进行获取、识别和存储，彻底解决网络引文的不可追溯性问题。对于“过刊”引文，通常的研究认为网址无法访问是不可追溯的标志，但国内外开展的一系列项目（Internet Archive、Google Cache等）采集和保存了大量的历史网页，在一定程度上能够重新定位无法访问的网络信息资源。据相关研究[1]，在60个不可直接访问的网络引文中有31个能在Internet Archive中找到，另有2个可在Google Cache中找到。因此，本系统将提供Internet Archive、Web Infomall和Google等的接口，并通过整合得到的数据，实现最大限度的网络引文追溯。

值得注意的是，网络资源内容的变动往往会导致实际获取的网络信息资源并非同作者引用时的内容完全相同，即使追溯获取网络资源以前的版本，也无法确认是否为引用行为产生时的版本，因此对于某网络引文的追溯应考虑到URL和访问时间的结合。但另一方面，尽管网络引文在不同时间的内容可能不同，为了避免冗余存储同一个网址下不同时刻的网络资源，系统还需要自动检测冗余的内容，及时剔除和规整相关引文信息。

考虑到浏览器的设置不同，IP地址的限定、访问权限的差异等，不同用户在访问同一个页面时也可能产生不同的结果，系统将以服务器所在的网络环境为准存储网络引文。网络引文主要有两类，即普通的网页文件（包括html、htm等为后缀名的静态页面和.asp、.jsp等为后缀名的动态页面）和以HTTP协议传输的文档文件（包括以.pdf、.doc等后缀名结尾的文件）。鉴于PDF文档在数字资源长期保存以及可信度确认等方面的强大支持力度[26]，系统自动将以上两类网络引文转换生成PDF文档，并加以存储和标引。

3.2 系统的模块划分

基于上述分析，笔者认为，网络引文追溯平台主要可划分为两大模块，即网络引文库构建模块（图1）和网络引文集成检索模块（图2）。

3.2.1 网络引文库构建模块

网络引文库构建模块将结合在线编辑出版系统（如各期刊杂志社的在线投稿平台），构建“网络引文引用”功能的插件，规范作者和审稿编辑的引文引用行为，在论文作者引用行为产生时，通过调用该插件，就可以及时将网络引文保存下来，并加以序化规整，形成网络引文库，期刊编辑和出版商在论文审核的过程中，通过调用该插件亦可发现网络引文库中未及时存储的引文数据，并及时反馈给用户，存储和更新网络引文的获取链接。网络引文库构建模块将分为两部分，即作者参与下的网络引文存储模块以及编辑、出版商参与下的网络引文检测模块（见图1）。

图1 网络引文库构建模块流程图

网络引文存储模块通过构建用户接口，获取论文作者提交的网络引文数据，并使用网页采集器依次遍历采集每条网络链接地址映射的相关资源，存储、规整网络引文数据，并以服务器时间为准，为存储的网络资源加盖时间戳，对无法直接访问的网络资源，将反馈给作者。规整和存储子模块需要检测内容的重复性，为了防止冗余存储，对于已存储的内容相同的网络资源，只需要生成新的映射关联，此模块将返回存储后的永久性网络引文获取路径等相关信息。

网络引文检测模块将通过用户接口获取在线投稿系统中论文的引文信息，使用事先定义的特定引文著录规范，自动识别引文数据中的网络引文信息，发现其中的网络引文获取链接地址，通过调用网页检测器，检测用户提交的网络引文是否可以追溯。不可追溯的网络引文将及时通知论文作者，以确保网络引文的可追溯性。

3.2.2 网络引文集成检索模块

网络引文检索平台是读者追溯网络引文的主要途径，它将构建获取网络引文地址和引文访问时间的用户接口，并顺序实现网络引文库、Internet Archive、Google等的检索接口，试图返回读者需要的特定时间和特定网址下的网络引文。系统的基本流程如图2所示。

图2 网络引文集成检索模块流程图

系统通过用户接口模块获取读者请求的网址和时间，在网络引文库中进行检索，若未找到匹配的引文信息，则调用Internet Archive等网页保存系统的接口；若还未找到，则通过对网络引文的分析，调用Google检索接口，寻找获取该网络引文的线索；若能匹配到网络引文，则将检索结果返回用户接口模块，并对未存储的网络引文加以存储，以实现最大限度的网络引文追溯。

3.3 系统实现和评价

3.3.1 网络引文库构建模块的实现

网络引文存储模块：该模块一方面通过构建用户接口获取网络引文数据，另一方面负责采集、读取和存储网络引文的内容。为了避免在编码之间相互转换的过程中遇到的乱码问题，系统将以Java字节流的形式读取文件，并调用开源项目HttpClient[27]。在文件存储的过程中，系统将调用HtmlToPdf[28]和IECapt[29]开源软件将文件转换为PDF文档和网页图片快照文件（JPEG格式）。

网络引文在下载存储之后，还需要按照特定序化的格式将引文内容加以标引、规整和内容冗余检测，将网络引文的标题、关键词、存储时间（服务器当前时间）、URL、网页源码等相关信息存入数据库，进而方便读者的追溯行为。本系统使用了Mysql数据库。

网络引文检测模块：网络引文库构建模块的实现需要在线编辑出版系统（编辑或出版商）提供引文数据，并根据定义的引文著录标准，对网络引文加以分析和检测，判断作者提交的数据是否已经存储和可获取。由于不同标准的参考文献标引的格式不尽相同，网络引文自动分析方法也有所差异，本系统目前实现的处理网络引文标准是GB／T 7714－2005，该标准的基本形式如下：

主要责任者．题名：其他题名信息［文献类型标志／文献载体标志］．出版地：出版者，出版年（更新或修改日期）［引用日期］．获取和访问路径。

在该标准下，系统需要析出引文获取方式中含有［OL］的引文作为网络引文，调用HttpClient等开源软件，自动分析和判别网络引文的可获取性，并将结果返回给作者，杜绝不可获取的网络引文。

3.3.2 网络引文检索平台的实现

网络引文检索平台为读者提供了追溯特定时间和特定网址下网络引文的途径：系统将首先通过动态构建SQL语句，实现在网络引文库中的数据库检索，若未匹配到合适的网络引文，则调用Internet Archive和Google的检索接口，寻找合适的网络引文信息。关于Google、Internet Archive和Web Infomall等检索接口的实现，可以参见文献[30]。该平台的界面如图3所示，用户可以通过提交URL和URL存储的时间来追溯网络引文，亦可以通过提交网页相关的描述信息，匹配数据库和各个接口的网页信息。通过点击各个选项卡，就可以切换到不同的接口下查看相关信息，用户还可以点击时间下拉菜单查看存储的不同版本的网络引文。

图3 网络引文检索平台的Internet Archive接口实现

3.3.3 网络引文检索平台的评价

由于“现刊”引文存储了所有使用“网络引文引用”插件的期刊杂志的网络引文，对于该类引文将彻底解决不可追溯的问题，因此评价的过程主要针对“过刊”网络引文的追溯性。此外，由于网络引文著录的不规范性。很多网络引文并未给出作者访问时间，因此本次数据的采集和检测也尚未考虑到同样URL在不同存储时间上内容的差异。

笔者选择万方数据库作为链接获取的数据源，自动抓取了2001－2006年发表在《情报学报》、《软件学报》和《系统工程理论与实践》上的3987篇文献（剔除万方数据库没有收录的刊期论文）的4395条链接，使用Xenu[31]链接检测软件进行检测，对各条网络引文进行循环检索，处理结果见表1。

从表1数据看出，Internet Archive、Web Infomall等接口在一定程度上提高了网络引文的不可追溯性，平均提高15％（R／T），但仍有20％左右的网页不可追溯。

3.4 系统的不足之处

由于网络环境的不同，许多网络引文信息在不同的IP地址下的访问权限也有所不同，尤其是对于有些收费的数据库资源而言。网络信息在保存的过程中，还需要考虑到权限屏蔽和知识产权保护的问题，而在本系统中尚未考虑。

Web2.0的进一步发展使得用户的参与性愈来愈强，同传统的纸质和电子期刊的发文流程大相径庭，由于blog等Web2.0网站上的发文情况并没有固定的审核流程，使得互联网上充斥着大量表现“个人观点”的文章，这样的文献能否成为网络引文也是值得思考的问题。笔者2008年9月28日在中国期刊网上进行检索发现，“参考文献”域中含有“blog.sina.com.cn”的文献记录已经有1217条，而2005年仅有1条，2006年有82条，2007年骤增到847条，如何面对新类型的网络引文也是系统需要考虑的问题。

此外，网络资源的引用行为不仅表现在期刊杂志的论文上，互联网上的“转载”（或者直接的复制、粘贴）行为也十分普遍。目前，blog、网站后台管理系统等大量使用了网络在线编辑器，本系统网络引文库的构建过程还需要逐步深化以实现“网络引文引用”插件的构建，以更好地移植到在线编辑器平台上，从更广泛的范围上解决网络资源的不可追溯现象。

4 结论

互联网的发展使得信息资源的存取更加便捷，引文的不可追溯，尤其是网络引文的不可追溯性便凸显出来并被赋予了新的特征。针对网络引文信息的不可追溯问题，本文设计并实现了网络引文的追溯平台，论文作者能够通过该平台存储网络引文引用行为产生时刻的引文内容，构建网络引文库；论文的编审和出版商可以通过该平台检测网络引文的有效性，并及时反馈给作者；论文读者亦可以通过该平台100％检索已存储的网络引文。对于未能及时存储的网络引文（如已发表的论文文献中的网络引文），本系统构建了Internet Archive等的接口，实现了最大限度追溯呈现网络引文的需求。当然，网络引文追溯平台尚存在着诸多不足，笔者将正视这些不足，积极寻找补充的解决方案。

收稿日期：2009-01-05

标签：追溯系统论文; 信息存储论文; 中国追溯论文; 数据检索论文; 文献检索论文;

网络引文不可追溯性研究及解决方案_追溯系统论文

猜你喜欢