论学科库的建设,本文主要内容关键词为:学科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.7 [文献标识码]A [文章编号]1002—1167(2007)06—0131—06
网络技术的发展和成熟使科研人员的学术交流活动日益频繁且形式多样化,为全球的知识共享创造了良好的条件。但是,传统的学术交流模式已难以适应科研活动的新要求,在一定程度阻碍了知识的交流和共享。开放存取(Open Access,简称OA)作为一种新的学术信息共享的理念和出版机制应运而生,它旨在促进学术交流,实现科学研究成果的广泛共享。作为开放存取实现的重要形式之一的学科库,于1990年初期正式出现于物理学领域,开始取代该学科学者传统的一对一的交流模式,提供对物理学电子印本文献(e-print)的开放式浏览与检索。
学科库,也被称为“学科知识库”、“学科开放存取仓储”或“学科仓储”,在国外通常被称为“disciplinary archives”、“subject(discipline)based repositories”、“subject specific repositories”、“discipline-oriented repositories”和“domain specific data archives”等。笔者认为,由于学科库中存储的还有作者的论文预印本、软件、工作论文等,有的还达不到知识层次,用“学科知识库”范围太窄;用“学科开放存取仓储”又不够简洁;而且,另一种重要的自存档形式的开放存取实现途径——institutional repositories,目前在国内多译为“机构库”而非“机构仓储”,因此笔者更倾向于用“学科库”。
学科库是专门收集某一特定学科研究资源的各种类型的电子文档。其最普遍的类型是电子印本文库(e-print archive),e-print是一种以电子方式复制的文献,一般是学术研究文献。它通常包括两种形式:未经审核的预印本(preprint)和已经审核过的后印本(postprint)[1]。
1 建设学科库的必要性
1.1 学科库是开放存取的实现途径之一
关于开放存取的实现途径,被广泛认同的是2002年发起的《布达佩斯开放存取倡议》(Budapest Open Access Initiative,简称BOAI)[2] 建议的两个策略。
(1)绿色之路(Green Route):自行典藏(self-archiving)。通常被称为BOAI-1。学者需要工具及协助,才能把他们的论文置于开放存取电子仓储;这些仓储符合开放档案倡议(OAI)的标准,搜索引擎等工具才可以将分散的仓储视为一个。可细分为三种方式:作者自己将论文资料的预印本(preprint)或后印本(postprint)存储在机构库、学科(主题)库或个人网站上,供读者免费取用。
(2)金色之路(Golden Route):开放存取期刊(open access journals)。通常被称为BOAI-2。学者需要工具才能创办开放存取期刊,或转换收费存取期刊为开放存取期刊。期刊论文本身希望尽量被传播出去,创办的开放存取期刊不再以著作权限制存取的范围,以著作权保护期刊的永久开放存取。
持类似观点的还有:Bo-Christer Bjrk和吴建中[3] 等,但Bo-Christer Bjrk对OA期刊还使用了“同行评审期刊”(peer-reviewed journals)[4]。
1.2 学科库以外的开放存取实现途径存在不足
1.2.1 开放存取期刊的不足
开放存取期刊采用作者付费的经济运行模式,使人对学术出版的公平性产生怀疑。Elsevier的总裁Crispin Davis认为,这种模式会影响文章的质量和客观性,他严厉批评作者付费模式是无稽之谈,会导致大量垃圾论文的产生。另外,也会给一些没有支付能力的作者制造出版障碍[5]。
1.2.2 机构库的不足
自行典藏中的机构库一般由学校或研究机构建立,但这些机构库一般有权限限制,其开放范围和程度有限(一般只对本单位研究者开放存档,其它人只能阅读)。
1.2.3 个人存档的不足
自行典藏中的个人存档以前是在FTP或(Gopher站点张贴论文,但是20世纪90年代中期以后,万维网上的个人主页作为存放论文的空间变得更加普遍,作者的个人主页(Author Web Sites)可以说是最常见的方式[6]。但个人主页与作者个人是紧密相关的,作者的任何变动,如工作调动、退休、死亡等都会导致个人存档的中断、变动,个人网站的维护与稳定性也没有保障。而且,由于个人存档广泛分散在互联网上,较难被搜索引擎发现,获取完整的信息也比从机构库和学科库中获取难得多,所以影响不大。因此,自行典藏的形式实际上主要是学科库与机构库。也正因如此,有的学者认为自行典藏的形式只有学科库与机构库,如Keith G Jeffery认为开放存取实现的途径有“金色之路”和“绿色之路”,而绿色之路只包括学科库和机构库[7]。在国内,李武[8] 和方晨[9] 把开放存取的形式归结为开放存取期刊和开放存取仓储两种,并在此基础上进一步将开放存取仓储细分为学科开放存取仓储和机构开放存取仓储。
2 建立学科库的可行性
2.1 符合研究人员查找资料的习惯
研究人员习惯于从学科或主题角度查找资料,更愿意访问所在学科的开放存取资源站点。2007年10月7日,arXiv主站点(不包括镜像站点)用户点计数为118936次。当然,不同学科的研究人员使用学科库的差别很大。加拿大研究图书馆协会(CARL)于2002年在加拿大和美国进行了一项关于e-print使用的调查,随意调查了来自两个国家的私利、公立学院和大学9个学科的473位学者,这些学科包括物理、天文、化学、数学、计算机科学、设计、认知科学、心理学和生物科学。结果发现,18%的学者使用至少一种e-print,而82%不使用任何一种,其中使用最多的物理学领域的学者,而最少的是化学领域的学者[10]。
美国科学家建立了开放存取论坛(American Scientist Open Access Forum),全世界(不只是美国科学家)科学家们在此讨论对信息资源开放存取的看法,发布开放存取有关的最新动态。这说明研究人员对包括学科库在内的开放存取的关注。
2.2 得到作者的支持
与别的存档途径相比较,作者们更愿意将其成果放在学科库中。康奈尔大学图书馆的调查显示,大多数法学院员工自愿将自己的出版物提交到新英格兰法律图书馆联盟(NELLCO)中,张贴在它的服务器上供公众共享,这证明了将文献存入学科库的行为是很受欢迎的[11]。布雷西亚大学的调查也显示,有61%的被访问者愿意将自己的研究成果放入学科库[12]。2007年1月,最有影响的学科库arXiv的论文提交量已超过5000。
为了了解作者对开放存取的态度,英国联合信息系统委员会(JISC)专门对国际范围的作者进行的系列调查表明,如果研究资助机构或所在单位要求将成果自我存档,95%的作者会这么做[13]。
若想得到作者更多的支持,要注意保护作者的利益,指导或帮助作者将其论文在学科库中存档。CARL和学术出版与学术资源共享联盟(SPARC)发布了手册《使用SPARC加拿大作者备忘录来确保你作为期刊论文作者的权利》(Using the SPARC Canadian Author Addendum to secure your rights as the author of a journal article)。
2.3 已经颁布了有关的文件
尽管目前已颁布的支持学科库建设的国家政策为数不多,但在相当于国家层面上或由几大高等教育机构联合颁布的报告、宣言与政策正在日益增多。
澳大利亚研究咨询委员会(ARC)发现项目2008年资助要求(Australian Research Council.Discovery Projects Funding Rules for Funding Commencing in 2008)明确规定:鼓励研究人员考虑将其研究项目的资料和任何出版物存放到一个合适的学科库或机构库中的好处,无论研究人员身处何处,应该可以存取该学科库或机构库。如果研究人员并不打算在6个月内将其项目研究资料典藏,他(她)应该在项目的最终报告中说明理由。对于已经或即将典藏在合适的仓储中的任何成果,应该在项目的最终报告中说明。
《百事达开放存取出版声明》(Bethesda Statement on Open Access Publishing)于2003年6月20日正式发表,鼓励受赞助的研究人员在开放存取模式下出版其研究成果,扩大对科学家、学者及社会大众的存取。如前所述,学科库是开放存取的重要模式之一,也应该在该声明鼓励发展的对象之列。
2003年10发起的《关于自然科学与人文科学知识开放存取的柏林宣言》(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities,通常简称《柏林宣言》)明确指出开放存取必须满足两个条件,条件之二为:完整版本的作品及其附属资料以适当的标准电子格式,在原始论文发表后,立即储存在至少一个以恰当的技术标准(比如Open Archive定义的标准)建立的在线数据仓储中。这个仓储是由研究所、学术团体、政府机构或其他组织支持的。该宣言没有明确指出机构库或学科库,但指出,对于生物医学来说,PubMed Central就是一个典型的开放存取库。我国也签署了《柏林宣言》。
美国国家卫生研究院(NIH)2005年5月实施“关于加强开放获取NIH资助的研究成果形成的档案资料的最终政策”,要求研究人员在论文公开发表6个月后,将其提交给NIH的PubMed Central,免费提供公众使用。
英国研究理事会(RCUK)于2005年5月28日在其网站公布了关于科研成果开放存取的立场声明。要求所有接受资助的论文,自2005年10月1日始,必须在相应的仓储(机构库或学科库)中备份,备份时间应该与研究成果出版时间同步或略晚。
公共科学图书馆(Public Libraly of Science,简称PLoS)号召出版社在期刊出版后的6个月内,将期刊存入档案库,如PubMed Central,提供开放存取服务。
2.4 已逐渐获得出版者的支持
国内外著名的出版商开始通过网络出版平台发布科研成果,从而支持开放存取,如牛津大学出版社的OUP's Oxford Open、斯普林格的Springer Open Choice、我国高等教育出版社的期刊在线等。Elsevier允许作者将重要类型的后印本自行存档,已将其6种物理学期刊变为复合的开放存取期刊(hybrid OA journals,即若作者或其资助机构支付出版费,则允许对其任何论文提供开放存取)。复合的开放存取期刊被著名的开放存取专家Peter Suber称为出版商支持开放存取的趋势(Trends Favoring Open Access)之一。据统计,有93%的期刊出版者已官方签署声明,支持自行典藏[14]。
李武对中华医学会出版的系列杂志的调查表明,中华医学会系列杂志中大多数期刊都愿意尝试OA出版模式,并倾向于采纳过渡模式,即论文在正式发表一段时间后(尤其是半年后)公开全文,同时也支持作者的自我存储行为(尤其是半年后)[15]。
2.5 有支持学科库建立的免费软件
可用于学科库建设的重要免费软件如:DSpace、GNU eprints software、Fedora、绿宝石数字图书馆开源软件(Greenstone)和数字出版系统(Digital Publishing System,简称DPubs)等。
2.6 国内外已有成功的学科库案例
最有名也是建立时间最长的学科库当推美国洛斯·阿拉莫斯国家实验室(Los Alamos)的Paul Ginsparg于1991年建立的物理学学科库arXiv.org,其初衷是为了快速传递高能物理领域的研究成果,现提供物理、数学、非线性科学、计算机科学、量子生物学和统计学等学科的电子印本,所有文章均可完全免费获取。有学者自2005年12月31日对arXiv进行季度跟踪调查,发现它稳步增长,大约每年增长20%[16]。
学科库发展的趋势之一是从单一学科发展到多个学科,由个人或单个机构管理发展到国家层面管理,后者如英国的知识库网(Repository Net)、荷兰国家数字存档系统(eDepot)、我国的中国预印本服务系统和中国科技论文在线,从另一个侧面说明学科库具有很大潜力。
3 国内外学科库建设中存在的问题
3.1 未引起足够重视
虽然学科库的建设正在逐步展开,也已经取得了一定的成绩,但是与机构库相比,其研究与建设的重视和支持力度还有很大差距。根据OpenDOAR的统计,截至2007年10月2日,全世界建立了122个学科库,占所有开放存取库的13%,而机构库占了80%,学科库的建设实践远远落后于机构库。OpenDOAR对开放存取库的国别统计表明,世界上开放存取库分布最多的8个国家依次是:美国、德国、英国、澳大利亚、荷兰、法国、日本和加拿大。笔者调查了这8个国家后发现,它们主要侧重于对机构库的研究和建设。
2006年7月,美国研究图书馆协会(ARL)对美国机构库建设的实践与计划开展调查后发布了调查报告(SPEC Kit292.Institutional Repositories);ARL长达129页的《开放存取书目》列举的学科库也只有arXiv、NASA Astrophysics Data System和RePEc等。美国图书馆与信息资源委员会(CLIR)于2007年2月发布了《美国机构库调查报告》(Census of Institutional Repositories in the United States)。美国健康学术图书馆协会(The Association of Academic Health Sciences Libraries,简称AAHSL)对其成员图书馆的机构库进行调查,提交了调查总结与分析报告(AAHSL Institutional Repositories(IR)Survey Summary and Analysis 2005—2006 Comparison),该报告比较了2005年和2006年机构库的发展情况。《开放存取网络书目》列举的学科库只有arXiv、Cogprints、DLIST、ELIS、NASA Astrophysics Data System和RePEc。
德国政府资助的全国性研究机构——马普学会在最高管理层设立专门委员会,组织对开放存取中的法律、组织和技术等问题的研究,建立了马普学会机构知识库(Max Planck Society eDoc Server)。Bielefeld大学已在机构OA自行典藏政策注册(Registry of Institutional OA Self-Archiving Policies)中注册。
世界上两家最大的私营慈善基金会之一的英国惠康基金会(Wellcome Trust)发表声明支持OA出版,为其科研人员提供全额OA出版费。2008年将于英国召开的“开放仓储2008会议”(Open Repositories 2008)也只是在子主题“用户使用案例”中讨论用户对交叉学科库、跨学科库和跨部门库的使用。
澳大利亚规定,每所教育部科学与培训部(DEST)资助的大学必须在2007年底前建立机构库(也可以联盟方式建立),否则,将被“研究品质框架”(The Research Quality Framework,简称:RQF)的排名除名,且不被资助。该规定被誉为第一个关于自行存档的命令,在“美国科学家开放存取论坛”引起了热烈的讨论。澳大利亚教育部给4所地区性大学和4个创新研究大学(IRUA)的成员提供390万美元的资助,用于在每个机构合作开发“数字仓储”(digital repositories)。出版专著《通过数字仓储发展开放存取指南》[17] 的主要目的在于指导大学与研究机构建立机构库。2006年6月,澳大利亚对34所大学的开放存取仓储与研究管理系统的整合情况进行了调查(Integration of Open Access Repositories with Research Management Systems),该调查也主要是基于大学机构的层面。
荷兰高等教育网络服务与信息交流技术合作组织(SURF)资助了高等学校机构知识库(DARE)项目。法国科学研究中心(CNRS)正式公布了机构开放存取政策,并积极开展机构知识库的建立工作,已在机构开放存取自行典藏政策注册中注册,承诺在其机构库建设中遵守《柏林宣言》。2008年1月将于日本召开“开放存取与亚太地区机构库国际会议”(Open Access and Institutional Repository in Asia-Pacific)。2003年以来,加拿大研究图书馆协会(CARL)就通过机构库项目(Canadian Institutional Repositories)促进机构库在加拿大的使用。
此外,新西兰也十分重视机构库建设,分别于2006年和2007年召开了首届和第二届全国机构库专题讨论会(National Seminar on Institutional Repositories in New Zealand)。
我国国家社科基金资助了开放存取期刊和机构库有关的项目,但没有学科库项目。我国目前建设的开放存取资源库多为机构库,如“香港科技大学科研成果全文仓储”和“厦门大学学术典藏库(机构仓储)”等;或者综合性的仓储,如中国科技论文在线、中国预印本服务系统和奇迹文库等,只有国家图书馆的“图书情报学开放文库”可算学科库,但记录数太少,且界面英文居多,对英文不够熟练的用户使用不便,说明其汉化尚有待推进。
3.2 学科库的学科分布不平衡
根据OpenDOAR的统计,截至2007年10月2日,全世界已有知识库(没有用“学科库”,因为其中还涵盖了部分机构库)950个,它们的学科分布极不平衡(见图1)。
图1 世界范围内知识库学科分布情况
由于绝大多数机构库收录所有学科的资源,故OpenDOAR将其归入多学科(Multidisciplinary)类,也收录多个学科资源的学科库,因此,多学科的学科库数量很大。上图表明,目前的学科库以收集多个学科的资源为主,单独学科性质的学科库较少,且分布很不平衡,总体而言,自然科学的学科库比社会科学多。
3.3 已有学科库使用不便
现在,虽然已经建成了一定数量的学科库,但是想要了解某学科究竟有哪些学科库十分不便。因为目前尚没有专门的学科库注册站点,且有的开放存取项目注册网站均不提供按学科浏览的功能。如著名的“开放存取项目注册”(Registry of Open Access Repositories,简称ROAR)站点不提供按学科浏览,笔者输入“library”或“information”等关键词检索得到的不是图书情报学的学科库,而主要是由图书馆建立的机构库。E-print Network提供按学科浏览,但它主要是收录基础科学领域的学科库。最便于从学科角度查找的当推“开放存取仓储名录”(Directory of Open Access Repositories,简称OpenDOAR)。它提供机构库、学科库等的目录列表。用户可通过仓储的地点、类型、收藏资料类型等方式检索和使用。既适合那些在专门的知识库中查找原始研究论文的用户使用,也适合诸如搜索引擎等第三方服务使用。OpenDOAR从学科角度查找结果的相关度比较高,还提供机构库的学科分布情况。
4 学科库建设中要考虑的主要问题
在建设学科库之前,除了要从整体上了解学科库目前的研究和建设现状外,还要做一些准备工作。
4.1 开展前期调研
4.1.1 需求调研
要分析对学科库的需求状况,从而了解人们对学科库的态度、需求和期望。应该对该学科的学者、研究机构、学生以及其相关学科的研究人员展开调研(包括问卷调查和深度访谈),开展需求评估,分析调研结果,从而确定学科库建立的必要性和建设方向。另外,还要对潜在的学科库经费赞助者进行调研,明确他们赞助学科库的可能性。
4.1.2 成本预算
要对学科库的建设进行成本预算。经费问题是关系到学科库能否可持续发展的关键问题,包括人力资源成本、技术设备成本以及为保证提供免费访问服务、免费存储服务和长期保存服务所需的一大笔稳定的、可靠的资金。如最有影响的学科库arXiv之所以能长期提供服务,源于其同时得到康奈尔大学和美国国家自科基金委的资助。学科库基本上是由相关大学院(系)和研究所进行管理的。就目前的情况而言,大学院(系)和研究所在硬件基础设施上都已经比较成熟,已经为学科库的建设节省了一大笔资金。另外,免去了传统出版模式的编辑、评审、印刷、发行等步骤,也可省下一笔费用。而且学科库以网络交流为平台的出版和传播也使其成本大大降低。但是,学科库的成本仍然存在,需要对其成本进行严格的预算,包括对可见成本和不可见成本的预算,也包括对近期成本和长期成本的预算。
4.1.3 建设参与者的确定
确定学科库的参与者也是必不可少的准备工作之一。必须确定学科库内容提供者、经费提供者和学科库的相关工作人员,向他们作书面或口头介绍,传达学科库建设的思想和计划,组成完整的工作团队。
4.2 选择合适的系统
软件的应用和学科库的运行息息相关,它不仅关系到学科库的成本预算,更对学科库的易用性产生极大影响,因此,必须在建设学科库之前选择和安装一款合适的软件。学科库建设者可以自己设计开发一套软件,也可以利用如前文所述的开放源码软件。使用率高低是选择学科库软件的主要依据。根据openDOAR的统计,截至2007年9月29日,全世界范围开放存取知识库的软件使用情况为:没有明确指明使用软件的占27%,使用Dspace和Eprint的分别占22%和21%。有的软件提供了详细的使用指南,如《EPrints手册》(EPrints Handbook)。至于不同软件之间性能与功能的横向比较,则可以参照开放社会研究所(OSI)发布的《机构知识库软件指南(第3版)》(A Guide to Institutional Repository Software v3.0.)。若经费充足,还可以租用商业资料库软件,如ProQuest公司的Digital Commons,或者Ex Libris DigiTool等。
4.3 确定收录资源的范围
学科库建设者应该根据学科的性质和学科库的建设目的,对其收录的资源进行相应限定。如在收入资源的学科和主题范围方面,要明确收入一个学科还是多个学科的资源,或者是跨学科的资源,要明确是否收入本学科的相关学科资源,是否同时收录基础研究、应用研究和开发研究3个方面的成果等。而在收入资源的类型和格式方面,要明确收录哪些格式、哪些出版形态的资源,明确是否收录多媒体类型的文件,是否收录预印本和后印本等。
4.4 开展数字存档
元数据的创建实现了对提交和采集而来的数字对象的内容、结构以及保藏等方面的元数据描述信息的集中存储和管理功能,它是保证存档的数字对象可以被正确可靠地引用和参考的重要依据。因此,至关重要。在对学科库资源进行数字存档的过程中必须要保证存档信息的透明性,要制定数据保存、迁移以及其它策略。要提供与指定内容提供者相符的描述型元数据,并保证元数据的易用性和质量,并利用相关技术保证元数据的安全性[18]。另外,还要考虑管理元数据的组织架构和人员问题,必须通过制定政策框架和提供程序说明来明确组织人员的责任和义务,保证管理在经济方面的可持续性。
4.5 规范内容提交程序
学科库应该根据需要制定内容提交程序。内容提交程序主要包括自助提交服务、批次导入服务以及自动搜索与聚集服务这3种不同的内容提交或采集途径。自助提交服务是为学科研究人员或学科库的信息提交代理提供将其研究产出自主地提交到系统中来的机制和接口,是目前绝大多数研究性数字知识库进行信息采集和积累的基本模式。批次导入服务提供按照系统可接受的格式批量导入相关信息或数据的功能。自动搜索与聚集服务则主要通过基于OAI-PMH协议的元数据及数据的自动搜寻和获取工具的支持,从国内外相关的开放型数字知识库中发现和本学科有关的内容,形成本地化的收藏。
4.6 重视内容建设
4.6.1 控制内容的质量
保证学科库的内容质量对于吸引专家学者将他们的论文自愿放入学科库、提高学科库的声誉等方面具有重要的作用。否则,学科库这种开放获取模式所具有‘的快速与免费的优势难以体现。可以说,论文的质量控制是学科库发展的瓶颈。
出版形态不同,论文的质量也不同。后印本论文已经经过严格的评审过程,被专业领域内的专家所认可,其质量自然有所保证。而对于学科库的主要组成部分的预印本论文(包括学生论文)来说,由于学科知识库的开放性,免去了传统的专家评审或同行评议制度,学科库本着文责自负的原则,只是要求作者基于某一特定标准格式提交论文,并符合一定的学术规范,仅审核论文是否遵守国家相关法律,是否是学术范围内的讨论,是否有一定的学术水平,而在内容上是没经过任何审核或只是粗略的审核,所以预印本论文难免存在着质量问题。
4.6.2 解决内容的版权问题
就法律属性而言,学科库收录的涉及的版权问题的论文主要是后印本。预印本是投稿前的版本,版权没有发生转移,完全属于作者。作者存储预印本不需要经过任何人的同意,可任意以其认为适宜的方式、格式出版和发布其作品。即使该作品正式出版了,预印本的版权还是完全归作者所有的,多数出版社对作品出版后学科库依协议继续保留和使用该作品原稿通常不加限制。但是,后印本是正式出版的版本,如果作者将版权转让给出版商,在未经出版社同意的情况下,作者通常不得将已经出版机构编辑加工过的作品提交学科库。因为已提交学科库的原稿有可能对出版后作品的销售市场构成潜在威胁。因此学科库建设必须尽量争取得到出版商的支持,妥善处理好后印本的版权问题。
4.7 确定运营模式
分布式比集中式自行典藏(central self-archiving)更有优势,尽管建立时间晚,采用分布式自存档(distributed self-archiving)的计算机学科库Citeseer的规模已达到集中存档的arxiv的2倍。为解决集中式自行典藏的问题,arxiv除了其主站点外,还在全世界建立了16个镜像站点。NIH,PLoS以及英国的惠康基金会和医学研究咨询委员会(Medical Research Council,简称MRC)都不赞成公共医学中心(PMC)集中存档的做法[19]。
4.8 遵守相关标准
只有遵守有关的标准与协议,才能实现学科库之间的互操作。成立于2007年的英国科技促进咨询委员会(The Science and Technology Facilities Council,简称STFC)创建的“电子出版物仓储”(The ePublications archive)利用Oracle数据库、Cocoon和可扩展编辑语言(XML)创建,它符合用于元数据采集的开放档案创始计划(Open Archive Initiative Protocol for Metadata Harvesting,简称OAI-PMH),因而可以实现与其他遵守OAI-PMH协议的仓储之间的跨库检索。
标签:开放存取论文;