电子图书图书馆(电子印刷档案)内容建设研究_元数据论文

电子图书图书馆(电子印刷档案)内容建设研究_元数据论文

e印本文库(e-print archive)内容建设研究,本文主要内容关键词为:印本论文,文库论文,内容论文,print论文,archive论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

“e-print archive”是科学交流开放存取运动推荐的一种非正式科学交流形式,“e印本文库”是本文对“e-print archive”的中文翻译。近年来,这种交流形式在国外得到迅速发展,国内也创建了多个e印本文库网站,但是,国内对其内容建设的经验介绍和相关研究文献却并不多。本文尝试对e印本文库信息资源建设、质量控制等内容建设问题进行初步探讨。

1 e印本文库基本问题

1.1 “e-print archive”的中文翻译方法及其内涵

“e-print”是“e-print archive”收录的对象,最初主要是待发表的论文预印本(preprint),后来逐步扩大到包括期刊论文、图书的部分章节等在内的已发表论文(postprint)。因为“e-print”指代对象有一个发展过程,并且无论是内容还是形式都很多样,如果将“e-print”直译为“电子文献”不能反映它的学术特性,而译为“学术文献”又无法反映其电子化、网络化的特点,若译为“电子学术文献”或“网络学术文献”则不能反映它的突出特色“论文预印”,而且由于收录相当广泛,仅仅说是“论文”的“预印本”似乎也不科学,所以很难用一个准确的中文词汇对应这个有点谐语意味、且经过长期发展具有了约定俗成涵义的“e-print”。鉴于此,我们把“e-print”放在“e-print archive”的特殊语境中,直接从字面将其直译为“e印本”;并根据对英文“archive”的理解和“e-print archive”的形式特点,将“archive”译为“文库”,综合起来,将“e-print archive”翻译为“e印本文库”。

本文对“e印本(e-print)”的定义是:“作者以自存档方式提交给e印本文库的各种形式的学术论文的电子版本,可以是纯文本文件,也可以是超媒体文件,但不包括未经组织和创作的原始数据、想法等”。对“e印本文库(e-print archive)”的定义是“一种促进研究成果及时发布的网络学术交流平台,它通过作者自存档方式收集各种形式的学术论文的电子版本,经由互联网提供全球用户开放存取,并利用《开放文库计划》(OAI)实现系统互操作,向信息增值服务者提供收录e印本的元数据记录,使其能够基于元数据开发各类信息增值服务项目。”

1.2 e印本文库工作原理及其基本类型

e印本文库的工作原理是:机构、组织或个人利用相关软件,按照既定学术交流目标,创建以数据库方式管理的e印本文库网站,供作者自存档作品,已经提交的作品可以被读者自由取阅和下载利用。作者在自存档之前要首先以实名注册为e印本文库用户,然后可以将自己创作的学术论文及其元数据,通过互联网按e印本文库规定的程序亲自提交给该文库,是谓“自存档(self-archiving)”。自存档的e印本及其元数据要受到e印本文库的简单审核,然后在较短时间内放入数据库中供读者分类浏览和按关键词检索利用。遵从《开放文库计划》(the Open Archives Initiative,简称OAI)[1]的e印本文库,可以在OAI网站上注册,为基于OAI的增值服务提供者提供所收录e印本的元数据记录,使它们能被采集、集中、再开发出新的信息服务项目,从而扩大e印本的传播范围,并便于读者集中利用。

根据e印本文库实现的学术交流目标,将其划分为:(1)学科e印本文库(disciplinary e-print archive),面向学科、问题、领域从全世界收录e印本,并供全球范围内相同或相关学科、领域的研究者检索利用,如:Cogprints[2]。(2)机构e印本文库(institutional e-print archive),由特定研究机构创建,并且只收录本机构所属成员生产之e印本,或该机构资助学术活动所产之e印本的多学科性e印本文库,目的在于传播本机构研究成果,扩大学术影响,如:eScholarship Repository。[3](3)期刊e印本文库,由期刊创建,并面向全世界收集特定学科、领域的e印本,其创建既是为方便作者投稿,也是为使稿件得到更公开的审核和评判,如:BBSPrints[4]。(4)专类e印本文库,面向全球单收录某些文献类型的e印本,一般关注利用价值较高的学位论文、技术报告、试验数据等,如:NDLTD[5]。(5)个人e印本文库,由个人创建,只收录创建者本人或其他被邀请者提交的e印本,一般较能体现个性特点,但内容不固定。

2 e印本文库信息资源收集与管理

e印本文库网站创建之后,接下来最主要的工作是e印本资源的收集与管理,这将直接影响到该e印本文库的有用性和对作者群体的吸引能力,是决定e印本文库成功与否的关键因素,目前常见的e印本文库信息资源建设策略有:

2.1 样品库的选择与利用

样品库在e印本文库建设中的作用主要包括:在调试阶段,尝试、检验系统和网站性能;在投入使用之初,可以丰富初始资源,增加e印本文库的利用价值,从而吸引更多作者和读者利用;在应用过程中,作为模板为用户示范如何正确利用本e印本文库;此外,由于采取了开放存取的交流方式[6],通过e印本文库平台发布的样品库,其内容的利用效率也会得到实质性提高。

e印本文库选择样品库时要遵循的原则是:①样品库的知识产权必须归属创建者,或者是经过了权利所有人的授权;②是支持e印本文库学术交流目标的信息资源,在一定程度上能为利用者充当示范作用,而不是随机拼凑的材料;③要有一定规模和特色,具有实际学术利用价值,例如:本研究机构创建的学位论文、技术报告、研究成果目录等的数据库;④具有标准格式,便于数据成批导入和导出,特别是要符合现有的元数据标准;⑤无论与e印本文库的内容和格式兼容与否,都能与e印本文库在同一个界面上检索和浏览;⑥最好能够不断更新,而不是一堆死数据,最好是带有全文的信息资源。

e印本文库录入样品库的方式有两种,一种是单独作为e印本文库的一个数据集合,另一种是将所有样品e印本分散到各个数据集合中,采取哪种方式,完全取决于样品库的利用价值和e印本文库内容建设的需要。

2.2 机构间的合作

在e印本文库领域,除了利用基于《开放文库计划》(OAI)的元数据采集机制实现系统互操作外,还有如下合作形式:

(1)链接合作。一种方式是对e印本文库网站的链接,如:常见的友情链接,起到相互推荐的作用;另一种是内容链接,如:为e印本添加引文链接,使用户能从一个e印本的引文链接到保存在其他数据源中的被引用文献。e印本文库为每个提交e印本自动赋予唯一识别号,并根据e印本文库的根URL自动生成该e印本的URL,因此能使引文链接可以直接到达目标文献的全文,而不是数据库;与引文链接同样道理,还可以为e印本添加参考链接、说明或证明链接、相关性链接等。

(2)数据资源合作。e印本文库除在OAI注册为数据提供者并向增值服务者提供元数据记录以实现数据资源合作外,还可以向搜索引擎、检索工具、大型数据库、信息资源联盟等提供所收录的e印本资源及其元数据记录,以使用户可以从主流信息工具和信息源了解并进入该e印本文库;或者可以通过与有关科研活动和会议组织建立合作,向其中的成员、课题、项目等提供成果发布服务;还可以与有关期刊建立合作,向其推荐、提供有关主题和作者的研究论文。

(3)服务合作。即e印本文库可以利用已有的信息服务项目来提高信息资源的检索与利用效率,例如:NDLTD利用OCLC和Virginia Tech基于元数据采集开发的检索服务进行查询;CoRR使用户可以通过arXiv.org用户界面向其提交e印本;在Citebase Search上有通过Google的检索服务。除此之外,还可以在最新通报、推送服务、科技报道、学术论坛等方面与其他服务项目和技术力量建立合作关系。

(4)资金与管理合作。其合作的原因主要有两种:一种是为了集中同类e印本资源,从而利于用户的集中利用,例如:RePEc是WoPEc等12项信息资源及服务的集合,分工合作地收集经济学方面的e印本资源;NDLTD组织了154个研究机构、3个联盟、17个联盟成员参与,成为国际性的学位论文门户。另一种是为了在管理中互通有无,相互促进发展,例如:一般来说学科e印本文库缺乏持续的资金投入,但符合基于学科主题的信息需求特点,而机构e印本文库有稳定的资金支持,但不利于从学科、主题角度进行集中采集和利用,两者的结合则能达到既有稳定的经济支持,又有基于学科主题的数据采集与利用方法的效果。机构间的合作将是帮助e印本文库融入信息资源共享事业的有效措施。

2.3 e印本收集策略

Stephen Pinfield认为e印本文库建成后,面临的最大挑战是内容获取[7],因此,e印本文库需要采取适当措施促进研究人员接受e印本文库这种学术交流方式,顺利提交自己的研究成果,具体如下:

(1)在政策制订阶段。需要根据本学科的专业研究特点和本机构的科研能力,以及相关科研人员在利用计算机、网络、电子出版物技术方面的能力与对e印本的偏好等,来规定收录e印本的内容创新特点和e印本的类型、文件格式、编辑方法等。例如:arXiv.org收录以Tex格式提交的论文预印本,是适应物理学领域已经存在的预印本交流传统和物理学家普遍采用TeX编辑电子文本的特点,这种收录要求减少了物理学家提交和利用arXiv.org的困难。

(2)在提交程序设计上。程序设计一定不能过于复杂,否则e印本文库用户在第一次提交文件时,若遇到困难,不能坚持尝试而就此放弃[8];e印本文库的性能一定要稳定,不至于在提交过程中,因非正常终止而使所填数据全部丢失;特别是在元数据提交表单上,要将元数据元素的名称以标准的容易理解的词汇表示,必要时还要有适当解释或实例示范,不至于使用户对需要填写的内容产生误解;对于不正确的提交,应向用户指明错误的地方、可能的原因和如何进行修改,对于两次以上出现错误的,不应就此拒绝接受,而是打上标记,由管理员来帮助处理,或建议其采用其他提交方法或途径;对于不符合要求的e印本类型和文件格式,应通过电子邮件向用户重申本库的收录政策,并向用户推荐更适合的提交位置。

(3)e印本组织与管理。主要是说服人们相信并利用e印本文库,组织研究机构和作者群提交和利用e印本文库,帮助用户解决在提交和利用过程中遇到的各种问题,采取措施鼓励作者提交研究成果(例如:中国科技论文在线给作者颁发论文证书),或说服一些研究项目、大型会议,采用e印本文库作为其成员交流项目报告和会议论文的电子场地,向作者解答有关e印本文库的问题,并负责与期刊、图书等的出版社就e印本的发表和版权问题进行交涉;对e印本的引用率和点击率进行统计分析等。

3 e印本文库质量控制措施

e印本文库质量控制的涵义与传统期刊、图书的质量控制涵义略有不同,除包含e印本资源的内容质量控制外,还要重视e印本元数据质量控制和e印本文库数据访问质量控制,前者是因为多数e印本文库和《开放文库计划》(OAI)都是基于元数据进行检索利用,后者则因为e印本文库是只有网络版的在线数据库,且要保证作者能够随时顺利在线自存档e印本。

3.1 e印本内容质量控制

e印本文库的内容质量控制分三种途径来实现:(1)在收录和编辑过程中对e印本的内容质量提出要求和进行筛选;(2)在e印本发布之后,e印本文库允许读者和专业评论人继续对该e印本提出意见和建议,他们可以与作者单独直接交流,也可以将有关意见和建议公布在该e印本元数据记录的评论项中,而作者可以根据这些建议进行修改、更新和替换;(3)对e印本的点击率和引用率定期进行统计分析,向读者公布该e印本文库中点击率和引用率最高的e印本的作者和标题。

收录和编辑过程中的内容质量控制,与期刊和图书的质量控制标准相比,e印本文库采取了较低的评价标准,例如:Cryptology ePrint Achive只要求所有提交e印本必须是密码学研究领域内的研究成果,要清晰可读,内容新颖且有意义,对所申明的观点要有证据或令人信服的论证[9]。这是因为:(1)e印本文库定位在灰色文献交流;(2)不希望与期刊发生冲突,以免提交e印本遭期刊拒绝,因而损害提交者利益;(3)加快e印本发布速度,实现科学家之间快速、直接交流的目的;(4)认为以质量评价为筛选手段的期刊,人为造成科学家及其作品的等级序列,妨害了民主、自由科学交流活动的开展[10],e印本文库放松评价标准,是要使更多想法和成果都能被子等地传播和利用。但是,e印本文库并非完全没有质量要求,为了不使冗杂信息、错误信息无控制地蔓延,影响科学交流效果,不同类型e印本文库都有自己的质量控制标准,学科e印本文库主要要求提交e印本符合收录学科、主题、领域要求,机构e印本文库会对提交e印本有较高的质量要求,因为它要体现本机构的总体科研实力,并籍此扩大学术影响,期刊和专类e印本文库则专门收录有较高利用价值的科技论文形式。

e印本内容质量控制策略主要有:

(1)对有权自存档e印本者进行控制,通过对作者学历、专业背景、所属研究机构等的限制来保证提交e印本的质量,例如:arXiv.org采用“提交者批准系统”,让现有作者群体筛选和批准新进入的e印本提交者。

(2)利用e印本政策进行规范,即在e印本文库的建设政策中申明本文库的质量要求,例如:机构e印本文库QUT ePrints在政策中明确规定注册用户只能是QUT的教职员工和研究生;绝大多数e印本都必须是评审过的学术论文,只有已经通过同行评审并决定出版的论文预印本才能提交,没有经过评审的论文会被打上未评审标记。

(3)在提交程序上进行控制,例如:Eprints.org[11]将用户分为三类,提交者、编辑和管理员,其中,编辑的作用就是对自存档的e印本及其元数据进行审核,符合要求的就放入到e印本文库中,不符合要求的有权不予发布。

(4)对代理提交者的要求,作者授权代理提交e印本的人、机构和组织对e印本内容起到了专家评审的作用,例如:由研究机构集中收集本机构的论文预印本、技术报告、工作论文等e印本并向相关e印本文库提交的,实际上要先经过机构专家或科技管理人员的评审;一些学术会议提交的论文集也经过了会议专家组的评审,有的还有标准编辑格式。

(5)利用信息检索功能帮助用户筛选不同内容质量的e印本,例如:QUT ePrints在高级检索界面上使用户可以限定e印本类型、会议、出版状态、出版社、出版时间等任一或全部字段限定检索结果,从而使读者可以从创办者的学术声誉、数据库的声誉、评审志愿者、被评审和参考频次判断和选择质量较高的资料[12]。

3.2 e印本元数据质量控制

e印本文库采取作者自存档方式收集e印本资源,作者在提交e印本的同时要将该e印本的元数据按e印本文库设计的表单填写并提交,这使e印本文库的元数据质量控制存在一定难度:e印本元数据要描述的信息内容和类型并不比文献数据库少或简单,但标引人员(作者)的标引技能却不高,因而使e印本的元数据标引质量难以控制。但是,另一方面e印本文库又主要是基于元数据进行信息查询的,元数据的标引质量直接会影响到读者的检索效果。这种矛盾对e印本元数据质量控制提出了严峻挑战。

e印本元数据质量控制中的常见问题有:①数值内容与属性冲突,如:将中英文摘要位置颠倒,或重复填写;②出现越界数值;③数据唯一性冲突,如:修改后的e印本被作者作为新版本再次提交,因而得到系统赋予的两个唯一识别号;④出现空缺值,如:提交表单中要求必须填写的内容被漏掉;⑤数据填写过程出现拼写错误,如:标题中的公式、特殊符号等无法正确显示;⑥姓名、单位名称、研究项目名称等填写了缩写形式,使用户在离开语义环境后无法识别和理解;⑦非专业化的标引词汇,如:不符合标准的分类号和主题词;⑧标引不一致,各个提交者根据主观判断任意填写关键词,致使同类e印本在标引用词、标引专指度和标引深度上有较大差异;⑨用户需求变化后,需要增加新元素,或需要使数据合并与聚类的方式随之变化,如:e印本按实践进行的各种统计。

对上述问题,本文提出如下对策:

(1)在设置元数据元素表之前,先进行用户调查,或征求有关专家的意见,确定一个较为完善的、符合某些通用元数据标准的字段集合。在此基础上再设计完整的e印本元数据库结构,有时需要为e印本添加必要的管理元数据字段,如:e印本唯一标识号,提交、修改、更新时间及其标识,e印本版本号,附件数量、e印本存储的数据集合名称及其在整个数据库中的位置等。所有字段可以分组创建,再按类别分别创建索引库,并在相关字段之间建立关联。

(2)在用户注册时向其说明与e印本元数据填写相关的基本要求。例如:如果没有彻底的改动,不允许作者将该e印本作为新文件提交;不准许将必填项目空缺不填;除标题外,不准许在有关字段中填写机构名称等的缩写;对容易越界的字段,详细陈述应该填写的内容和不应该填写的内容及对越界数据的处理方法。此外,还需要对关键词的标引技巧和摘要编写技巧进行说明,培养用户的编写技能。

(3)通过元数据提交表单设计和自动化检测系统在线帮助用户完成e印本元数据提交。提交表单设计方面,要用准确的、不会产生歧义的通用词语说明每个字段需填写的内容;对越界、禁止、希望填写的内容进行提醒,如:不能使用的符号、不能缩写的专有名词、摘要的文种和字数限制等;对用户不容易理解的词汇或专业术语进行解释。自动检测程序方面,主要是根据系统预先设置的标准,扫描和检验是否有越界数据、不符合要求的数据、没有填写的必填项目或前后矛盾的数值等。

(4)在主题、分类项目旁边,提供分类表和主题词表链接,使用户点击进入分类表或主题词表后,直接选择合适的类目和主题词。

3.3 e印本文库数据访问质量控制

e印本文库数据访问质量的影响因素包括:①e印本数据完整性,如:公式、方程、图表等无法嵌入e印本主文档,或e印本文库没有设置粘贴附件的功能,因而破坏e印本的完整性。②e印本下载和打开。e印本中包含了占据空间较多的图像,或文本本身规模很大,使读者不容易在短时间内下载或打开,从而妨碍利用。③语言障碍。e印本文库总是以本国研究者熟悉的语种设计界面和收集e印本,但是,这些界面和资料却是通过互联网要提供给全世界用户利用,单一语种的界面和e印本摘要会影响持其他语言的科学家的利用。④检索词选择。标引不一致,错误的或不适当的检索词等是造成漏检和误检的重要原因,但e印本文库对此几乎无法进行严格控制。⑤数据访问质量。e印本文库因数据检索和处理速度低而使响应速度慢,在用户需要数据时无法快速获得。⑥网络性能稳定性。在用户访问e印本文库网站的过程中会影响网络应答效率。

针对上述问题,本文提出的质量控制策略是:

(1)硬件方面。e印本文库可采用分布式数据库、选择性能更好的计算机硬件设备和通讯设备,或更换数据处理软件的措施;为避免用户方面的硬件影响数据访问质量,应向用户在元数据的相关项目中说明打开该e印本所需用的低软硬件要求,或为其提供其他途径的请求/应答服务,如:电子邮件查询方式,或以FTP方式传输等。

(2)检索词选择。可以为不同类型用户创建个性化检索门户,根据每类用户的具体特点,提供检索词汇表、主题词表和分类表等;也可以建立用户互助型社会导航机制,使读者能从专业用户那里得到有效帮助;还可以提供专业词典的简略版,供用户从中挑选标准专业词汇。

(3)语言障碍的解决。需要预先设计多语种的界面和帮助文件供用户选择,并利用Cookie的记忆功能为用户提供其熟悉的用户界面和帮助文件。

(4)通过提交过程的自动监测软件检验和监督作者提交e印本的完整性。

标签:;  ;  ;  ;  

电子图书图书馆(电子印刷档案)内容建设研究_元数据论文
下载Doc文档

猜你喜欢