DOI:10.16353/j.cnki.1000.7490.2016.05.026 ● 屈宝强,王凯(中国科学技术信息研究所,北京 100038) 科学数据引用现状和研究进展* 摘 要:科研人员在发表科研成果时对科学数据有意识、正确、有效地引用是保证数据创建者知识产权的重要途径之一。科学数据引用可以帮助追踪数据使用状况、建立数据定位或参考机制、开展数据计量和评价。本研究对科学数据引用的内涵与功能、数据引用实践、已有引用格式进行分析,并通过文献调研总结科学数据引用各利益相关者对其的态度,分析当前基于引用的数据发现和评价研究状况,最后建议今后就科学数据利用中的权益分配、数据引用标准研制、数据引用实现方式、数据计量等几方面进行深入研究。 关键词:科学数据;数据引用;数据评价;研究进展 Abstract: Data citation is one of the important ways to protect the intellectual property of scientific data creators when the researcher spublishing the research resultsScientific data citation can help track the use of data, establish a data positioning or reference system, carry out data measurement and evaluation.This paper focuses on the content and function of scientific data citation, the practice of data citation, and the existing data citation format.The paper also sums up the attitude of the stakeholders of scientific data citation, and analyzes the research progress of data discovery and evaluation research based on the data citation system.Finally, the paper points out some key research areas such as scientific data rights distribution, the development of data citation standards, and data scientometrics. Keywords:scientific data; data citation; data evaluation;research progress *本文为国家社会科学基金项目“科学数据引用的实现机制”(项目编号:15BTQ053)和中央级公益性科研院所基本科研业务专项“科学数据出版模式研究”(项目编号:YY2015-09)的成果之一。 1 科学数据及其引用 科学数据是人类社会科技活动所产生的基本数据、资料以及按照不同需求而系统加工的数据产品和相关信息。科学数据包括观测数据、考查数据、实验数据、统计数据等。科学数据不仅是科研活动过程中的资源,也是科研活动的重要成果之一。在科学研究的过程中,相同专业/领域的科研工作者,或者初始研究者需要参考前人科技活动的研究成果、过程数据、实验方法、笔记等,同时也需要对其引用或者参考前人研究成果的行为进行规范。 客观上,科研活动中存在着对科学数据的引用情况,科学界长期以来希望在发表相关科研成果时对科学数据进行引用,同时根据科学数据被引用次数来衡量和评价科学数据价值。早在1979年,S.A.Dodd 发表文章提出引用数值数据文件的指导方针方面的建议,提出应通过提供充分和适当的参考书目,从而可以很容易地确定特定数据文件的可用性”[1]。随后,1982年H.D.White指出:“社会科学学者们应该在他们的著作中,引用他们所使用的那些数据文件,并以区别于正文的规范化参考格式列出,正如他们引用书籍、论文与报告一样”[2]。近年来,随着科研模式逐渐趋向于数据密集型,在传统的出版物例如期刊文章、书籍以及会议记录中增加引用所使用的数据集也变得更为重要[3]。 科学数据引用是指类似于研究人员通常为印本资源提供书目参考的方式提供数据参考的做法。也有学者指出数据引用就是在出版的论文的参考文献列表中包含了导致给定研究结果的数据资源的正式引用[4]。 科学数据引用的好处包括:①正式的引用是对科学家收集和整理数据工作的认可。②允许学术文章直接链接到他们的基础数据,数据中心管理员可以追踪数据的使用,获得服务收益,并且为设计更好服务提供基础。③帮助加速科学进程,通过紧密联系数据和文献,使得二者发现和利用的方法相通[4-7]。 数据引用的突出优势表现在以下3个方面:①数据引用通常作为一个数据定位或参考机制,可以通过其直接而明确地链接到所使用的精确数据。②能够增加数据生产者和数据中心的认可度。与期刊引文率类似,数据引用情况亦可以作为评价数据提供者和数据中心认可度的依据,为数据之后的使用提供一定的参考,并追踪数据的影响,减小数据被剽窃的风险。③提高科学再现性及数据透明性,利于科学研究过程的验证。通过数据引用获取研究过程的原始数据集,按照研究过程进行实施,可以重现研究过程,验证科学研究的结果[8-9]。 目前有许多致力于数据引用的相关国际组织,包括Datacite,DCC(The Digital Curation Centre),ESIP(The Federation For Earth Science Information Partners),BRDI(The National Academy’s Board of Research Data and Information),CODATA(The International Council for Science’s Committee on Data for Science and Technology)以及RDA(Research data alliance)等。近年来,这些组织纷纷开展以“数据引用”为主题的研讨会与相关活动,例如2011年5月16—17日IQSS(Institute for Quantitative Social Sciences)组织的“数据引用的原则”研讨会,CODATA 2011年8月22—23日CODATA.ICSTI组织的“发展数据属性及引用行为规范”研讨会,ASIS&T于2012年3月在“科学数据访问与保存”峰会上组建“数据引用”专家组,JISC,DCC和Datacite于2012年5月25日举办“数据应用与Datacite的介绍”研讨会等。 2 科学数据引用实践 早期在数据共享的相关研究中就将数据引用作为重要问题。例如,Fienberg, Martin,Straf 建议期刊在对数据进行二次分析时,需要充分认可和适当引用原始数据集以促进研究数据的共享。然而许多研究人员没有意识到必须引用已经出版的数据[10-11],从而导致数据引用不规范,目前在文献中数据引用最常出现的位置有:脚注(Footnotes)、参考文献(Reference)、正文中标出数据作者、数据生成时间和标题(Works identified by author, year, title)、图表下方(Chart,Figure)、致谢(Acknowledge)、其他方式等。 1)在对某个/类科学数据的引用方面,R.R.Downs在2013年对1997—2011年期刊论文中引用SEDAC(NASA Socioeconomic Data and Applications Center)数据的情况进行了分析,并进一步对非同行评议论文及其他传播媒介中的数据使用进行了分析,发现在生态和生物领域特别是生物多样性方面,数据引用的最多。大约1/4的引用来自于社会科学,10%的引用来源于地理科学,这些SEDAC数据的跨学科使用并不局限在现有的学科目录中,在工程、计算机和医学领域也有一些限制性的使用[12]。 2)在对某个数据机构科学数据的引用方面,J.Redman对剑桥晶体结构数据中心(Cambridge Crystallographic Data Centre,CCDC)相关高被引论文进行引文分析,包括引文随时间的变化、引用发生的期刊和组织类型、使用剑桥结构数据库的地理区域等。10个最高被引论文包括4个数据库描述(CSD),两个几何表格(TAB)和4个基本的研究论文(RES),1981—1998年期间共收到8494次引用,有超过一半的引用出现在1995年之后。如此高引用率(3573/8494)表明了晶体结构数据的价值[13]。H.Mooney基于ICPSR数据存档中心的数据集进行二次分析,检查是否有数据引用的情况。结果表明,许多作者在进行数据二次分析时不标明数据引用[14]。Parsons对使用从美国国家冰雪数据中心的中光谱仪分辨率成像积雪资料的论文分析中,发现只有一小部分作者在期刊文章中引用数据集,很少引用数据,缺乏数据应该如何引用的指南[15]。 3)在对某个领域学术期刊科学数据的引用方面,S.C.Williams对农作物领域一些期刊论文利用数据情况的统计,发现作物科学家在他们的研究中大量使用研究数据,包括发表文章中的数据、数据补充文件、气象站、数据仓储和组织的网站[16]。 4)在对期刊论文标注科学数据引用分析方面,Valerie对发表于2000—2010年间、覆盖6种期刊的500篇文献作为样本的研究显示,数据引用行为严重缺乏[17]。198篇涉及数据再利用的文献中,只有14%的文献在使用数据集时标出了数据集的唯一标识;只有12%的文献(当中存在部分重叠)提到了数据集作者和数据存储地的名称;很少有文章将对数据集的引用纳入正文后的参考文献部分。与此同时,也鲜有政策涉及推荐或要求采纳正确和规范化的数据引用方式,大约只有三分之一的数据存储机构(n=26),6%的期刊(n=307),1/53的科研资助方(n=53)给出了对数据使用行为的要求或建议。 5)在一些论文致谢部分提到了对数据的使用,但是Major (2011)研究表明这些致谢能够用来推断发表文章时数据使用的情况,致谢表达方式自由且不完整,不能直接作为提供查找和访问的数据集的一种手段[15,18]。 6)目前主流的参考文献管理工具,除了EndNote X5引用格式逐渐包括数据引用,Papers包括数据库和图表引用格式,Sente包括数据文件的引用格式外,其他参考文献管理工具如Biblioscape,Bibus,Bookends,Citavi,Docear,JabRef,Mendeley,Pybiographer,Qiqqa,Refbase,Reference Manager,RefWorks,Scholar’s Aid,WizFolio,Zotero都没有明确将科学数据作为一种科研成果进行引用标注[19]。 3 各个利益相关者的态度 20世纪70年代已经有数据文件编目的标准,然而,一直以来,很少有期刊编辑要求数据引用,学术界没有数据引用的良好研究习惯,机构没有给予数据引用奖励,年度绩效评估中不承认数据引用,研究者没有引用数据源的责任。直到1979年,Dodd发表文章提出引用数值数据文件指导方针方面的建议,提出数据引用标准的必要性[1]。而大学间政治和社会研究协会(ICPSR)数据档案中心关于对计算机文件的书目参考文献著录,又唤起对这个话题讨论。最近几年ICPSR和IASSIST对这件事的关注增加,产生再次讨论[20-21]。这些讨论最终形成Dataverse网络工程项目采用的标准[22]。国家信息标准组织(NISO)也资助了一个NISO研究数据思想领袖会议[23],来促进数据引用指南的推广。经济合作与发展组织(OECD)最近对当前引用实践总结,提出自己的数据引用标准和统计方法[24]。2009年Datacite成立,主要是通过为数据注册数字对象标识符方便数据引用[25]。这种形势下,各个利益相关者开始推动数据引用的发展: 1)数据中心。数据中心开始要求研究人员在使用数据时提供适当的数据引用,例如ICPSR和罗珀舆论研究中心(Roper Center for Public Opinion Research),都提供如何引用他们中心的数据集的指南[26-27]。美国国家海洋和大气管理局(NOAA)国家数据中心,不要求正式引用数据,只是请求在文本中得到承认或致谢。美国地质调查中心要求对数字地图进行正式引用,对于表格数据只需致谢,有时数据发布者可能要求数据用户引用期刊文章或其他描述数据的文档。 2)学会协会组织。一些领域的学会开始提供引用数据集方面的指南,例如美国社会学协会(American Sociological Association Style Guide)对社会科学数据引用的指南[28],美国心理协会出版手册(Publication Manual of the American Psychological Association)提供引用发表和未发表的数据集的格式[29]。提供学术引用的三大指南APA(第六版)、 MLA (第七版)、Chicago(第十六版)都开始提供数据集引用的实例[30]。 3)图书情报机构。图书情报机构在数据引用方面做了许多有益的尝试,例如剑桥大学图书馆、密歇根州立大学图书馆、麻省理工学院图书馆、普渡大学图书馆、美国弗吉尼亚大学图书馆、俄勒冈大学图书馆等。特别是德国国家科技图书馆(TIB)在“科学基础数据引用与出版”项目中将数字对象标识(DOI)引入到数据标识中,基于DOI给出了数据引用的基础格式,并在文献中对其引用的科学数据进行标识[25]。 4)学术期刊。许多学术期刊开始重视论文的数据引用,要求将数据以参考文献的方式列出。例如发表在“Journal of Remote Sensing”2011年第15卷第4期的论文“Validation and sensitivity analysis of the snow thermal model (SNTHERM) at Binggou basin”参考文献中,列出了引用的数据情况:Wang J, Che T, Li H Y, Hao X H.2008.WATER: Dataset of automatic meteorological observations at the Da dong shu mountain pass snow observation station.[DOI: 10.3972/water973.0295.db]。Storm博士在他的 《汉诺威与迈阿密气候对比》一文中列出所引用的Weather博士注册的汉诺威地区气象基础数据,并使用DOI作为数据的唯一标识。 5)数据服务机构。数据服务机构开始重视数据引用,例如国内专业的科研数据共享服务平台数据堂在提供数据使用时设置了数据引用模块。基础科学数据共享网的门户网站(www.nsdc.cn)上嵌入了对科学数据引用规范实现的支持模块,主要包括:①所有数据集根据规则自动生成引用文字,用户拷贝后置于参考文献位置即可;②在网站上增加对给定URI实现资源定位的解析。 6)科学家。科学家对数据引用的态度积极,根据欧盟PARSE.Insight研究显示 ,超过84%的科学家认为将科学数据与论文进行关联是有用的。在科学家推动下,有不少数据库开始提供这方面的服务,如从PubMed的文章连接到GenBank,Dryad的数据,从Elsevier,Nature,Springer,Wiley,AGU等的论文连接PANGAEA中的数据集。DataCite和CrossRef也正在探索通过DOI标识系统,使出版商可以识别数据集和文章之间的关系[31]。 4 科学数据引用格式 2007年,M.Altman和G.King发表论文,对数据引用所应包含的最小元素集、可选元素等进行了透彻的分析和建议。该文是最早探索数据引用标准的论文之一[22]。2009年,T.Green发表论文分析了当前数据引用出版的实践、现状和需求,提供了详细的数据集元数据和出版元数据列表[24]。 随后,许多重要研究机构、大学图书馆、数据中心在将科学数据作为一种重要的参考文献实施引用,在著录标准方面,DataCite,PANGAEA,Dataverse,NERC,ICPSR,IPY,PDS,AGU等重要学术组织、数据仓储和研究机构都提出了相应的科学数据引用和著录标准,中国西部环境与生态科学数据中心、世界数据中心冰川(雪冰)冻土学科中心、基础科学数据共享网等也制定了数据的引用和著录标准[32]。 在标准规范内容方面,许多引用规范不仅包括与传统文献著录类似的条目,还采用了DOI作为唯一标识,帮助快速发现和定位该科学数据。同时,许多研究人员也提出了数据引用的标准格式,例如Lawrence提出了推荐的引用格式:Author(s).Title [Content Designator Medium Designator].Edition.Place of Publication: Publisher.Date of Publication [Date of Update/Revision; Date of Citation].Extent.(Series).Availability.(Language).Notes[33]。 GigaScience给出了数据引用的金标准:Zheng, L.Y; Guo, X.S; He, B(2011): Genome data from sweet and grain sorghum (Sorghum bicolor).GigaScience.http://dx./10.5524/100012[34]。2014年,中国科学院网络中心、中国科学技术信息研究所等机构共同申请《科学数据引用》国家标准研制并获得批准,希望未来通过国家标准的推行来进一步规范科学数据的引用行为与著录。 5 基于引用的数据发现与评价 1)数据发现工具与指标。目前的数据发现和评价工具还比较少,典型的有DCI,DUI等。2012年底,汤森路透正式推出数据引文索引(Data Citation IndexSM,DCI,访问地址为:http://webofknowledge/DCI)数据库。DCI提供用户工具来搜索和发现与研究有关的研究数据,使数据集与科学文献引文网络链接,可以创建学术研究过程中一个更全面的视角[35]。丁楠等基于DCI数据库对科学数据的发布及存储机构的影响力进行评估[36]。生物多样性数据库(GBIF)的Ingwersen 和 Chavan开发了The Data Usage Index,针对整个数据生命周期没有对数据利用的评价的现状,提出使用DUI(Data Usage Index)指标来评价生物多样性领域的相关数据被研究者浏览、查找、获取和下载等行为,并通过对GBIF data portal日志记录开展了实证研究[37]。另外还可以通过一些网站的日志包进行数据分析与评价,例如Google Analytics和Jacobs and Worley就可以提供关于NCAR计算与信息系统实验室研究数据档案(CISL RDA, http://rda./)的用户在2006年和2007年之间下载数据的记录,并在此基础上进行分析[38]。 2)数据评价与发现实证。目前开展的数据评价包括对数据服务的评价,例如朱艳华等借鉴国际上科技项目管理后评估模式以及国内科技数据资源建设和服务后评估实践,提出科技数据应用服务效果评价指标选择的基本原则和内容框架。通过测度数据量、访问量、下载量与服务项数量以及同行评议等对中国科学院科技数据共享服务开展了评价[39]。 在对数据共享平台的评价方面,廖顺宝以中国知网的全文检索结果为依据,对国家科技基础条件平台中11个科学数据共享平台被各类科技文献引用标注的情况进行分析,并对这些平台被引用标注的总体情况进行了分析[40]。在数据机构评价方面,哥伦比亚大学研究人员分析了2007—2011年各个领域的期刊论文对社会经济数据和应用中心(Socioeconomic Data and Applications Center,SEDAC)的数据引用情况,包括学科分布、期刊分布等,发现在生态和生物领域的数据引用情况最多[12]。 6 思考 通过上述分析发现,目前数据引用已经引起学术界的重视,但是还存在有许多问题,例如:缺乏对科学数据引用的氛围和意识、没有通用的数据引用格式和位置指南、缺乏对数据引用信息的标识机制等。因此今后数据引用方面应加强以下几方面的研究: 1)科学数据利用中的权益分配。梳理不同利益相关者对科学数据引用的利益诉求,特别是数据重用过程中如何体现数据制作者的各种权利。分析大数据环境下数据价值大且增值方式多样的前提下,如何满足科学数据自身价值实现的要求。分析数据密集型科研环境、开放数据运动、数据出版模式变革等对科学数据引用的影响。 2)科学数据引用标准研制。对现有各个科学数据引用规范和指南的发展里程、涉及要素、著录方法等进行总结,研制和推广科学数据引用著录标准,对各个学科、不同数据形态被引时的著录项目、著录顺序、符号、著录方法等作出详细的规定,作为科研人员数据引用著录的参考。 3)科学数据引用实现方式研究。研究科学数据引用实现的依据、原则、方式、技术和关键问题等。特别是科学数据在不同空间(Spatial)和时间(Temporal)粒度下如何引用,建立科学数据引用粒度的选择依据;解决数据集内容修正和数据集扩充等数据动态变化状况下的引用问题等;研究科学数据的唯一标识识别技术与工具。 4)基于科学数据引用的数据计量研究。分析不同学科领域科学数据类型、结构、性质、特点、存在方式,规划和建设科学数据引用数据库,从而实现科学数据的定位、发现和评价,进一步利用科学计量学方法,开展科学数据利用效率评估、数据中心评价、国家数据能力评价、区域数据能力评价、学科数据利用评价等。 参考文献 [1]DODD S A.Bibliographic references for numeric social science data files: Suggested guidelines[J].Journal of the American Society for Information Science,1979,30(2):77-82. [2]WHITE H D.Citation analysis of data files use[J].Library Trends,1982,31(3):467-477. [3]BALL A, DUKE M.Data citation and linking.Edinburgh.[EB/OL].[2014-07-24].http://www./resources/briefing.papers/introduction.curation/data.citation.and.linking. [4]MAYERNIK M S.Data citations: initiatives, issues, and first steps[J].Bulletin of American Society for Information Science and Technology,2012,8(5): 23-28. [5]ARZBERGER P, et al.Promoting access to public research data for scientific,economic, and social development[J].Data Science Journal,2004(3):135-152. [6]COSTELLO M J.Motivating online publication of data[J].BioScience,2009,59(5):418-427. [7]HEFFERNAN O.Saluting scrutiny[J].Nature Reports Climate Change, 2010(4):1. [8]彭洁,涂勇.科学数据引用的探讨[J].数字图书馆论坛,2008(10):14-18,45. [9]李丹丹,吴振新.研究数据引用研究[J].图书馆杂志,2013,32(5):65-71. [10]FIENBERG S E, MARTIN M E, STRAF M L.Sharing research data[M].Washington, DC: National Academies Press,1985:31. [11]FREESE J.Replication standards for quantitative social science: why not sociology? [J]Sociological Methods Research,2007,36(2): 153-172. [12]CHEN R S, DOWNS R R, SCHUMACHER J A.Analyzing data citations to assess the scientific and societal value of scientific data[EB/OL].[2014-09-26].http://academiccommons./catalog/ac:157135 [13]REDMAN J, WILLETT P, ALLEN F H, et al.A citation analysis of the cambridge crystallographic data centre[J].Journal of Applied Crystallography,2001,34(3):375-380. [14]HAILEY M.Citing data sources in the social sciences:do authors do it? [EB/OL].[2015-04-24].http://staff.lib./mooneyh/myresearch/HMooney_Citingdatasources_preprint.pdf. [15]PARSONS M A,DUERR R,MINSTER J B.Data citation and peer review[J].Eos Transactions, AGU,2010,91(34):297-298. [16]WILLIAMS S C.Data practices in the crop sciences:a review of selected faculty publications[J].Journal of Agricultural & Food Information, 2012,13(4):308-325. [17]VALERIE E, SARAH W, NICHOLAS M.Data citation in the wild[EB/OL].[2014-12-18].http:///wiki/DataONE:noetbook/Summer_2010. [18]MAJOR G R.Impact of NASA EOS instrument data on the scientific literature:10 years of published research results from terra,aqua,and aura.Issues in science and technology librarianship[EB/OL].[2015-03-18].http://www./11.fall/article1.html. [19]KOTARSKI R, REILLY S, SCHRIMPF S, et al.Report on best practices for citability of data and on evolving roles in scholarly communication-Retrieved from [EB/OL].[2015-01-08].http://citeseerx.ist./viewdoc/summary?doi=10.1.1.463.7555. [20]DROLET G.Citing statistics and data: where are we today? Presented at the 2005 IASSIST annual conference,edinburgh,scotland[EB/OL].[2014-04-10].http://www./downloads/2005/h1drolet.pdf. [21]SCHNEIDER J.Why we need a data citation standard: lessons learned from compiling ICPSR′s bibliography of data-related Literature[J].ICPSR Bulletin XXVI,2006(2):9-12. [22]ALTMAN M, KING G.A proposed standard for the scholarly citation of quantitative data[J].D.Lib Magazine,2007,13(3/4). [23]KELLY M C.NISO Thought leader meeting on research data[EB/OL].[2014-05-16]. http://www./topics/tl/NISOTLDataReportDraft.pdf. [24]GREEN T.We need publishing standards for datasets and data tables.OECD Publishing White Paper[EB/OL].[2014-08-06].http://www./content/alpsp/lp/2009/00000022/00000004/art00011. [25]BRASE J, et al.Approach for a joint global registration agency for research data[J].Information Services & Use,2009, 29(1): 13-27. [26]Inter.University Consortium for Political and Social Research.Why and how should I cite data?[EB/OL].[2013-11-26].http://www.icpsr./icpsrweb/ICPSR/support/faqs/0248. [27]Roper Center.How to cite Roper Center data[EB/OL].[2015-7-23]http://www.ropercenter./data_access/data/how_to_cite.html. [28]American Sociological Association.Style Guide (3rd edition) [S].Washington DC, 2007. [29]American Psychological Association.Publication manual of the American Psychological Association (6th edition) [S].Washington DC, 2010. [30]MOONEY H.A practical approach to data citation: the special interest group on data citation and development of the quick guide to data citation[J].IASSIST Quarterly, 2013(2):71-77. [31]KUIPERS T, Van der HOEVEN J.PARSE: insight into issues of permanent access to the records of science in Europe.Survey reportBrussels: European commission[EB/OL].[2013-08-09].http://www.parse./downloads/PARSE.Insight_D3.4_SurveyReport_final_hq.pdf. [32]王卫华, 胡良霖, 沈志宏.科学数据引用规范的研制[J].中国科技资源导刊, 2013(1):36-40. [33]LAWRENCE B.Citation and peer review of data:moving towards formal data publication[J].The International Journal of Digital Curation,2011,6(2):4-37. [34]GigaScience.[EB/OL].[2015-06-09].http://gigadborg/dataset/100012. [35]FORCE M M.Encouraging data citation and discovery with the data citation index[J].Journal of Computer.Aided Molecular Design,2014,28(10):1-6. [36]丁楠,黎娇,李文雨泽,等.基于引用的科学数据评价研究[J].图书与情报,2014(5):95-99. [37]INGWERSEN P, CHAVAN V.Indicators for data usage Index (DUI): an incentive for publishing primary biodiversity data through global information infrastructure[J].BMC Bioinformatics,2011,12(Suppl 15):228-233. [38]JACOBS C A,WORLEY S J.Data curation in climate and weather:transforming our ability to improve predictions through global knowledge sharing[J].International Journal of Digital Curation, 2009,4(2):68-79. [39]朱艳华,胡良霖.基于第三方引用标注的科学数据库影响力分析[J].中国科技资源导刊,2012(6):17-22. [40]廖顺宝.科学数据共享平台被文献引用的分析[J].中国科技资源导刊,2012,44(3):72-76. 作者简介:屈宝强,男,1980年生,博士,副研究员,发表论文50余篇。研究方向:数据共享。 |
|