长尾数据及其在科研中的监测_科学论文

科学研究中的长尾数据及其监护，本文主要内容关键词为：尾数论文,科学研究论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

调查表明[1]，美国国家科学基金会（National Science Foundation）2007年的资助总额中，80%的资金用于资助100万美元以下的项目。国内也是如此，小投资项目在科研总投资中占有很大的比重。同时，对CSSCI（2004～2013年）近十年的数据进行调研显示，71.5%的科研文献来自省市级基金、其他基金和无基金资助的研究成果，而这些投入小、在研人数众多、产量巨大的科学研究由于缺乏关注与技术支持，其利用价值长期被忽视，国内几乎没有专门涉足这方面的研究。

2 科学研究中的长尾现象

长尾（The Long Tail）理论最早由Anderson C于2004年提出，用以描述商业领域中小交易群体表现出来的巨大市场份额[2]。2006年，Dempsey L[3]利用长尾理论研究图书馆的长尾资源对读者的利用价值，并指出符合幂律分布的长尾现象无处不在。在此基础上，Heidorn P B[4]于2008年首次将长尾理论的概念用于理解科学研究中的灰色数据（Dark Data），描述了科学研究的长尾现象，Heidorn P B[4]经过调查指出，近80%的科研活动都处于科学研究的长尾上。这些长尾科研项目虽然经费较低、规模较小，却有众多科研人员参与。例如，一个项目团队往往由一个教授或研究员任组长，组员可能包括多位助理研究员或一些研究生等，这类项目在项目申报、项目进行之中直至项目完成的整个过程的日常科研活动中会产生大量的科学数据。以科研项目的成果数据为例，根据ESI对物理学科的统计，将所有的科研机构/项目团队/研究人员排列在一条轴线上，沿着轴线按发文量由大至小的顺序排列，那么产出文献量非常大的科研机构/项目团队/研究人员排在轴线的左侧，一些产量较小的科研机构/项目团队/研究人员将按照规模递减排到右侧，整个曲线右侧的主要部分就是科研的长尾（如图1）。近80%的科研机构/项目团队/研究人员都是处在科研的长尾上面，除成果数据之外，科研过程中还会产生大量的研究数据（假设数据、调查数据、实验数据等），这些数据一般不会被出版，其数据量的科研机构/项目团队/研究人员等分布也呈现出明显的长尾现象。

3 长尾数据及其价值

3.1 长尾数据的概念

综合国内外相关研究，“长尾数据”[5]、“小科学”[6]、“灰色数据”[4]和“丢失的数据”[7]这四个概念被广泛使用。长尾数据与小科学数据一样，指那些投资小或非基金资助的科研团队或个人的科学研究中产生的数据。而丢失的数据和灰色数据一样，泛指那些在“大科学”项目、“小科学”项目研究中产生的未发表甚至未保存而导致不能利用和共享的被忽视的数据，“小科学”项目中的灰色数据或丢失的数据量更普遍一些。长尾数据、小科学数据、灰色数据和丢失的数据都是科学数据的一部分，这里统称为“长尾数据”，泛指科学研究过程中产生的未被使用或被忽视的数据。相对于“头部数据”而言，长尾数据往往都在研究人员个人手中，很少被监护，也很难被重用。究其原因，主要来自两个方面：一方面，处于科研长尾上的科学研究众多，所以其研究人员的数量非常多，这些研究横跨多个学科领域，科研数据不能按学科系列化地保存、出版以达到共享的目的；另一方面，由于“马态效应”的影响，研究人员习惯性地集中获取那些大型科研项目、知名学者、知名科研团队的科研成果，这种“热驱动”效应更加促进了对“头部数据”的收集、保存和出版等，而对于长尾数据的关注度就远远不够，致使长尾数据的流失情况较为严重。

3.2 长尾数据的属性

大型科研项目一般都有专门的数据管理计划，有事先设定好的科研过程中产生的数据的保存格式、仓储方式及存取权限等，因此研究过程中产生的数据更加趋向于同质，有严格的仓储和检索平台，这类数据更容易被维护、检索和利用[8]。相反，小规模科研项目由于经费小甚至没有经费，往往没有相关的数据管理人员和组织，也不可能开发专门的数据管理工具，所以产生的数据往往都在研究人员个人手中，没有客观要求的规范管理，很少被共享，很难被重用。文献[4]和文献[9]探讨了长尾数据的异质性、私有性、难获取性等特点。关于头部数据和长尾数据的特点对比如表1所示。

3.3 长尾数据的价值

科研数据的学术价值是指科研数据对学术发展所做出的贡献，主要表现为科学创新。Carlson S[7]认为相对那些倾向于核心学科、关键领域且投资巨大有较大社会影响力的大项目而言，“小科学”投资小、数据量多，倾向于更前沿、更创新的研究。也就是说，处于科研长尾上的“小科学”项目往往更容易成为科学创新的源头，这种情况在文献计量学中可以得到很好的验证：ESI统计的近十年最具影响力的文章中就不乏影响因子不是很高的期刊，例如，物理学影响力排名第六的Alivov Yi等的论文A Comprehensive Review of ZnO Materials and Devices？所发表的期刊影响因子在学科排名第109位，即那些具有很高影响力的论文不一定出现在高影响因子的期刊中。科学研究中，由于“头部数据“的“热驱动”效应，其研究的内容很快会成为学界的研究热点，会有越来越多的研究人员进行相关研究进而使相关课题呈现出泛化的现象，给科研创新增加难度。相对而言，长尾数据往往会给研究人员提供新的学科增长点，为科研创新提供良好的思路。

4 长尾数据的监护

4.1 国内外数据监护（Data Curation）实践

国外数据监护实践活动比较成熟，具有代表性的有：英国的DCC（Digital Curation Center）（专门从事科学数据管理的研究与实践活动）、美国数据保护项目（主要从事收集整理科学家的科学研究实践数据）及一些知名大学，如哈佛大学、耶鲁大学、斯坦福大学、杜克大学等成立的专业数据监护中心（承担本校科研数据的监护工作）。其数据监护活动往往围绕着科学数据的生命周期展开，针对研究数据的产生、保存、利用等一系列管理活动。国内学者及研究机构对数据监护的研究主要涵盖以下两个方面：一是对科学数据的选择、组织和存储的研究；二是对科学数据的附加价值和知识的数据挖掘技术等研究[10]。国内相关理论研究比较多，但实践还处于起步阶段，中国科学院在国内率先提出建设科学数据库的思想，负责重大项目的科研数据的管理工作。综上，国内外关于数据监护的理论和实践主要集中在对重大科研项目、知名科研人员等的科研数据的管理。而关于长尾数据监护的研究，除文献[9]的综述性研究之外，国内尚未开展。国外的相关研究可以归纳为以下四个方面：一是对长尾数据共享障碍与对策的研究，如文献[4]的研究；二是针对特定学科长尾数据共享模式的研究[5]；三是长尾数据的用户共享行为的研究[11]；四是图书馆、图书馆员在长尾数据共享中职责的研究[12]。未见关于长尾科研数据的生命周期及其监管的研究。

4.2 长尾数据的生命周期

数据监护的对象是科学研究数据，是由科研人员通过调查研究、分析推导等创造出来的，无论是“头部数据”还是“长尾数据”，其产生和流动过程贯穿在整个科研活动之中。一个完整的科研生命周期包括科研假想、科学实验、科学分析、研究结论和研究成果的发表等，每一个阶段都会产生大量的科研数据。而研究者往往只关注科学数据生命周期的下游（项目结束后、论文出版后）数据，而忽视对中游（项目进行中、论文撰写中）和上游（项目进行前）数据的管理和利用，造成大量科研数据的流失。因此，数据监护工作应该从项目申报时就展开，随着项目的进行，源源不断地从科研人员和相关资料中捕获数据，对数据进行鉴定、选择、加工、储存、发布，发布的数据又可以提供给科研人员，促进科学研究，在这个过程中，科学数据循环流动，可以发挥更大价值（见图2）。

4.3 贯穿长尾数据生命周期的监护活动

4.3.1 成立专门的数据监护团队

国外有很多针对大项目的科研管理实践，一些用于管理“头部”数据的解决方案也适用于长尾数据，现有的数据监护机构在长尾数据的管理中也将扮演至关重要的角色。综述国内外相关研究，目前从事数据监护工作的机构或组织主要有科研人员、科学中心、博物馆/图书馆/档案馆、项目资助机构、出版机构等，这些机构人员从事科学数据监护工作有自己的优势，也有劣势，笔者将其归纳如表2。

基于各类数据监护团队的特点，根据科研项目的性质来进行选择。小型科学项目由于其投资小、学科边缘化而常被资助机构、出版机构及科研管理中心忽视，更多的是被锁在文件柜中，直至项目结题后都很少有人问津。这类数据是长尾数据的主要来源，对于这类数据的监护，无论在人员技术和相应设备上，图书馆都是最佳的选择[13]。在对科研长尾数据进行监护活动之前，图书馆需要组织人员进行需求调查。通过对科研人员进行访谈，获取他们对元数据标准、规模、保存政策、获取限制、互操作方式等的需求，然后开展有针对性的数据监护服务。根据需求调查结果，成立各个项目的监护小组，制定数据监护的目标、策略与实施步骤等。

4.3.2 数据收集

（1）数据动态采集。数据采集是数据监护活动的起点，长尾数据来源项目广泛存在于各个小的学科和机构，数据收集工作相对头部数据更为复杂，监护小组可以在项目审批时就要求项目组提交一份事先制定好的数据管理计划，对可能产出数据的类型、数量、保存期限、访问权限等做出相关规定。项目开始之后，监护小组要与科研人员保持密切联系，定期记录研究过程中产生的各类数据（包括上游、中游、下游各个阶段的数据），并对项目数据库进行动态更新。采集方法有实验记录、会议记录、问卷量表、仪器观测、现场及电话访谈等。

（2）因数据类型而异的元数据标准。元数据工作包括元数据标准的制定、元数据的捕获和元数据的管理。现有的国际上常用的元数据标准有DC（适用于网络资源）、CDWA（适用于艺术品及数字图像资源）、VRA（适用于三维实体的可视化资源）、FGDC（适用于地理空间数据）、GILS（适用于政府的公用资源）、TEI（适用于电子文本）、EAD（适用于档案和手稿资源）等，长尾数据由于其数据类型、学科分布比较广泛，应根据项目数据集的性质和状况、文档的数量和复杂度、使用状况等选择或制定一个合适的处理标准。元数据的捕获工作要从实验阶段就开始由研究人员定期将数据放入目录中，由数据监护人员按元数据格式进行标准化处理，并确定元数据的级别，然后提供互操作支持，以支持跨学科的数据共享。

（3）鉴定与选择。这项工作需要研究人员或领域专家配合，最好由研究人员将有保存价值的数据甄别出来，确定数据的保管期限，管护人员再进行归档工作。数据监护小组也可以根据项目的性质开发一些数据选择工具，实现数据鉴定和选择的智能化。

4.3.3 数据处理

（1）数据可视化表示。长尾数据很多来自交叉学科、边缘学科等一些特殊学科，如生物地理、民俗地理、电子生物医学等。这些领域可能会产生复杂的数据或图像，为了使复杂的数据或图像更直观，需要对它们进行可视化表示，并映射到相关的项目数据库条目中。

（2）数据关联与集成。长尾数据最大的特点是“多”而“散”，其数据的关联一般发生在同一个项目不同研究者的数据之间，同一个科研团队的不同项目数据之间，及原始数据与元数据之间。在这些相互影响的数据之间建立关联，不仅可以弥补格式不统一的问题，而且有助于对实验推理和科研进程跟进和系统管理。

4.3.4 数据保存

要对有价值的数据进行归档保存，保存的质量很大程度上取决于数据格式。为了将长尾数据准确转换为数据库要求的结构化格式，可以事先设计管护手册、数据字段以及相应的技术工具，然后对数据进行相关处理，包括语法检查、去重、格式转换、交叉注释等，最后按照要求将需要长期保存的原始数据及其元数据传送到数据库中。

4.3.5 数据发布与利用

数据监护的目的在于共享与利用，为保证目标用户的方便获取、共享，需要采取适当的数据发布方式。监护小组应根据科研人员的要求对数据管理平台进行访问、存取和使用控制，并能够提供完整的数据检索和获取服务。目前，最常使用的数据发布与共享平台有集成网站系统、数据库检索系统等。通过对已有数据进行挖掘与分析可以充分发挥数据的价值，实现数据增值。

5 结语

在长尾数据的监护过程中还面临着诸多障碍，例如缺乏统一的数据管理规范、缺乏稳定的资金保障、缺乏专业的数据监护人员等，因此关于长尾数据的监护还有很长的路要走。对于今后的研究，笔者有以下几点建议：（1）长尾数据的界定，即“尾有多长？”的问题；（2）“头部”数据中的灰色数据的界定；（3）长尾数据与“头部”数据内容的对比；（4）如何确定长尾数据的价值等问题。

标签：科学论文; 大数据论文; 长尾效应论文; 长尾论文; 元数据论文;

长尾数据及其在科研中的监测_科学论文

猜你喜欢