欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    科学数据出版应用实践-中国科研信息化.pdf

    • 资源ID:3432718       资源大小:1.03MB        全文页数:18页
    • 资源格式: PDF        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    科学数据出版应用实践-中国科研信息化.pdf

    1、第1章 科学数据出版应用实践 胡良霖 黎建辉 高瑜蔚 姜璐璐(中国科学院计算机网络信息中心,北京,100190)摘摘 要要:文章在综述国内外科学数据出版研究现状的基础上,结合我国科学数据开放共享的进展及制约因素,重点介绍了我国科学数据出版的实践,明确出版流程、建立标准体系、构建出版系统、创立数据存储库,并主办国家网络连续型出版物的首批试点刊物 中国科学数据(China Scientific Data,国内统一连续出版物号 CN11-6035/N),建设数据出版平台和科学数据存储库,面向未来数据出版全面发展深度思考了数据出版生态系统的建设,力推我国科学数据出版的健康发展。关键词关键词:数据出版,

    2、数据论文,中国科学数据 Abstract:On the basis of domestic and foreign research for scientific data publication,combined with constraints in the progress of the open sharing of scientific data,this article focuses on some practices of scientific data publication,such as how to make the publication process clear,

    3、how to accomplish the establishment of standards and the creation of publication system and data repositories.Based on the above content,a national continuous network publication of the first pilot named China Scientific Data was created and operated in 2015(the national unified publication number i

    4、s CN11-6035/N).Ecological system of data publication is put more deep thoughts on in this article,for comprehensive development of data publication in the future,and pushing the healthy growth of scientific data publication in China.Keywords:data publication;data paper;China Scientific Data 1.1 综述综述

    5、 作为南极条约、百慕大协议等众多国际数据共享条约、协议、宣言等的缔约国,我国政府和科学家很早就积极参与了全球数据开放共享的探索和实践,中国科学院 1982 年率先启动了科学数据库工作 并持续建设和共享服务至今,科技部 2001 年起从更高层面、更广范围内牵头组织实施了科学数据共享工程,以这两个项目为代表的我国科学数据共享的探索取得了显著的社会效益和一定的经济效益,在科技创新、学科发展、国家经济建设、国防建设、规划决策、国际合作等诸多方面得到广泛应用,并在国内外产生了积极的影响。但不可否认的是,整体上来看我国在公共资助产2 生的数据的共享和获取方面仍处于较低水平,被纳入有关工程项目中提供开放共享

    6、的数据也只是公共资助产生的数据中的一小部分1,置身大数据时代的当前,数据共享资源总量及程度远远不能满足社会各界的期望或要求,由于国家管理体制机制等多方面原因,科学数据难以共享的问题十分突出2。张晋朝、何琳等各自对科研人员数据共享意愿研究发现科研人员的自我价值感知、互惠预期等都是影响共享数据资源的重要因素,并建议完善数据共享奖励政策、知识产权认定和科学数据引用评价机制等,通过一系列措施增加数据共享增值效益,提高科研人员数据共享积极性,可以有效地促进科学数据共享发展3,4。近年来被各界逐渐关注的数据出版,明确定义数据发表者及发表机构的权益和归属、贡献,提升各贡献方的知名度和影响力,同步公开共享有质

    7、量保障的数据资源,克服了诸多传统数据共享中存在的不足,被认为“有望从机制上改变目前数据共享所面临的根本问题”5。作为一种创新的科学共享数据方式,黎建辉等认为“科学数据出版是指科研人员与科研机构按照统一规范的质量管理和控制机制,利用互联网公开发布其通过观察、实验、计算分析等科研过程所产生的原始数据(raw data),或通过对已有数据进行系统化地收集、整理和再加工后形成的数据及数据产品(data product),帮助使用者便捷地发现、获取、理解和再分析利用数据,且可在科研论文及相关科研成果中引用数据的出版行为”6。当前,科学数据出版主要有独立数据出版(Standalone Data Publi

    8、cation)、学术论文辅助数据出版(Data Publication by Proxy)、附录数据出版(Appendix Data)、期刊数据档案出版(Journal Driven Data Archival)以及数据论文出版(Overlay publication)等五种模式。以数据论文(Data Paper)的方式出版科学数据,可规范数据引用并对其进行跟踪统计与分析,很好地解决了传统科学数据共享中存在的科研激励机制、知识产权模糊、数字资源标识等核心问题。所谓数据论文,是指“对特定在线数据集进行描述、按照一定学术规范出版并可被检索的元数据文件”7,目标是提供“数据内容、数据位置和数据来源信

    9、息”8,“主要描述相关数据集的数据收集方法、特征描述,获取方式和潜在重用性,而不强调数据的处理和分析过程”9。Nature 认为数据论文作为一种开放访问并经过同行评议的新型出版物,对具有科学价值的数据集进行描述,结合传统期刊论文内容和结构化描述模式,使数据更具发现性、引用性、解释性和重用性。10 本文将在综述科学数据出版国内外现状的基础上,重点介绍科学数据出版研究中对科学数据出版流程、标准体系、出版系统和长期存储等内容的系统探索,特别是创刊中国科学数据的实践,以及面向未来数据出版全面发展的生态系统构建的思考。1.2 国内国内外现状外现状 2013 年以来,国内诸多学者对 Ecological

    10、archives、Earth System Science Data、Biodiversity Data Journal、Nature Scientific Data 等的数据出版实践进行了多维度的研究,诸如吴立宗从学术出版界、科学数据共享界的角度分析国际科学数据出版现状5,刘凤红等从数据论文及其相关概念、数据论文的出版实践等方面探讨了国际上数据出版的种类和数据出版的关键问题:出版流程、质量控制和权3 益管理11,傅天珍等重点分析了我国现有期刊的数据出版及其政策的现状12,雷秋雨等在分析现有数据期刊出版模式等现状的基础上探讨了未来发展趋势13,欧阳峥峥等从学科属性、出版方式、收录内容要求、引用

    11、机制、版权协议、费用等方面深入分析了国际上 15 种重要数据期刊的现状14,张静蓓等详细探讨了现有数据出版模式及其引用策略15,高雅等以 Nature 出版集团的 ENCODE 项目为例探讨了基于数据挖掘和可视化等新技术的科学数据出版的模式创新16,张小强等采用定性方法厘清数据出版涉及的关键问题:伦理规范、用稿机制规范、数据引用规范和元数据标准等17,李小燕等通过分析数据出版相关环节、利益主体、发展现状与存在问题等明确了数据出版是未来科研成果出版的重要组成部分和发展趋势18。可见,我国学者对数据出版的研究已经相当的全面和深入。前述研究中部分文章提及应尽快将数据论文纳入科研成果评价体系的建议5,

    12、12,14-15,17-18,希望藉此根本上激发科研人员的数据共享和出版的积极性,促进科学数据出版的繁荣发展。鉴于数据出版在我国还是比较创新的工作,数据论文纳入科研成果评价体系可能还需要时间,但国外已发表的数据论文已经有了很好的使用情况,如 Ecological archives 刊发文章为例:PanTHERIA:a species-level database of life history,ecology,and geography of extant and recently extinct mammals,被引用次数:3441 BODY MASS OF LATE QUATERNARY

    13、MAMMALS,被引用次数:240 上述两篇数据论文被引用频次之高,充分说明了国外学术界同仁对数据论文的高度认可。而世界顶级学术期刊 Nature 于 2014 年正式发布 Scientific Data 专刊,也充分说明了学术出版界对数据论文的认可。2014 年底,中国科学院心理研究所左西年研究员在 Nature 旗下数据期刊 Scientific Data 发表数据论文“An open science resource for establishing reliability and reproducibility in functional connectomics”2,开启了我国科学家

    14、在顶级学术期刊数据专刊发表论文的先河,这也充分说明了我国科学家对数据出版工作的高度认同,以及未来能够纳入科研评价体系的乐观态度和高度信心。截止 2015 年 11 月,我国科学家作为第一作者已经在 Nature Scientific Data 发表数据论文5 篇。1.3 科学科学数据出版数据出版 国内外数据出版的研究表明,科学数据出版是一个复杂的系统工程,既有传统学术出版的特点,同时还有数据发布且与数据论文关联等带来的新需求。基于广泛而深入的研究,以及我国当前科学数据出版的认识及实施可行探索,中国科学院计算机网络信息中心科学数据出版团队提出了国内科学数据出版的体系框架,主要包括明确出版流程、建

    15、立标准体系、构建出版系统、创立数据存储库等四个方面的内容,示意图 1-1。1 2015 年 11 月 3 日,google scholar 查询得到。下同。2 http:/ 4 图 1-1 科学数据出版体系架构示意图 科学数据出版与传统学术文献出版具有明确的不同,所以其出版流程将在借鉴传统出版流程基础上,针对科学数据出版及数据论文的特点,确定科学数据出版过程中数据及其论文的出版流程,特别是其间相互关系的明确与呈现,以及数据加工、数据整理、数据发布、数据评价、数据引用等关键环节。作为创新的共享模式,科学数据出版需要面向未来科学数据出版生态环境的建设培育发展支撑标准体系,主要涉及数据论文模板、数据

    16、资源(特别是质量)、元数据、数据或其论文的开放获取等,籍此实现资源(数据实体、数据论文等)描述、展示、访问、应用等方面的标准化,支持科学数据出版的规模化发展和高效应用。构建数据出版系统和存储库,面向未来科学数据出版生态环境的建设确立数据论文发布和数据存储分离模式,分别建立支撑学术刊物/数据刊物等的发布与共享平台和支持科研数据开放共享的公共存储库,并探索公共存储中的数据和在线数据论文的联动方式,支撑未来科学数据生态环境的复杂性和多样性。1.3.1 出版流程 科学数据出版既不同于传统学术论文出版,也不是简单的数据发布5,而是具有自身典型特征的新出版模式,特别是融入了数据对象的提交以及相应的数据注释

    17、与整编等工作。科学数据出版的一般流程主要包括数据论文的提交与评审,数据资源的提交、评审与标注,数据论文与数据资源的关联,数据及其论文发表等等几个主要环节。科学数据出版的流程如图 1-2 所示。科学数据出版 出版流程 标准体系 出版系统 存储库 5 图 1-2 科学数据出版流程图 1.数据论文和数据集提交 作者按照论文模板等标准要求完成数据论文撰写和数据整理以后,在线提交必要的数据论文描述信息和数据集描述信息,按照既定的格式提交到期刊平台。提交论文及其数据之前,作者应对论文及数据的知识产权、隐私保护等进行必要的核定,以满足国家相关法律法规的要求。2.同行评议 期刊平台收到作者提交的论文及其数据后

    18、,组织编辑初审,通过初审者将进入同行评议过程,专家需要对数据论文和数据集进行全面的评估,并给予评审意见。在科学数据出版中,数据质量评议是难点。数据质量评审多数情况并不能通过专家的简单浏览查看就能确认其质量,还需要大量的应用和检验。因此,对于科学数据出版而言,数据审核主要包括:数据发布前的同行审议,重点从数据完整性角度审核与数据相关的各种信息是否完整,是否能够让用户正确使用数据;数据使用后的用户反馈,要有效收集数据的使用信息以及用户的评价信息,为其他用户使用该数据提供更多的信息。3.数据整理 数据论文接收之后,数据期刊应组织数据治理专家按照规范出版的方式对质量进行核定与把关,以及注释与整编数据,

    19、保证数据可读性和完整性,必要时需要多次与数据提交人乃至学科领域专家、审稿专家等进行多次的深入交流,最大程度保证数据的质量,以及可访问性、易用性和友好性等。完成数据整理后,应对数据集进行唯一标识,便于发现和使用数据。6 4.数据发布 数据发布是指作者(数据拥有者)将数据公布在其他用户可访问的公共数据平台的过程,这种公共平台要求有永久的数据保存能力。在科学数据出版过程中,数据论文和数据同时正式出版,并发布数据论文和数据的独立引用方式,可被公开获取并引用。数据发布可以通过出版商和科学数据中心等两种平台进行,与文章密切相关的数据可优先通过出版商发布,其他数据可通过科学数据中心发布。5.数据引用 数据引

    20、用是数据出版系统中的重要环节,理想的数据引用是指与传统文献引用方式一样,在文章参考文献部分对数据进行引用。科学数据出版利用引用数据论文的方式实现对数据的引用。数据引用的另一种方式是基于标识的数据对象直接引用,本团队承担的国家标准化管理委员会国家标准研制任务科学数据引用(国家标准制定计划项目编号依次为 20141194-T-469),该标准完成后将为数据引用提供标准化的格式。在推进和落实科学数据引用过程中需要多方的参与:出版商允许和鼓励对数据论文的引用,数据中心应提供规范化的数据引用格式,评审专家在审稿过程中应严格要求作者对相关数据进行引用和说明。1.3.2 标准体系 由于科学数据结构内容的复杂

    21、性以及出版模式、出版格式的多样性,构建标准体系对科学数据论文及数据的提交、组织、存储、检索尤为重要。科学数据出版标准化的对象包括数据论文模板、数据资源元数据、数据或其论文的开放获取方式等,籍此实现资源(数据实体、数据论文等)描述、展示、访问、应用等方面的标准化,支持科学数据出版的规模化发展和高效应用。基于实用性、前瞻性、一致性等原则,研制了包含数据论文注册元数据、数据论文细览元数据、数据集注册元数据、数据集细览元数据、数据论文模板信息等内容的科学数据出版标准体系,如图 1-3 所示。7 图 1-3 科学数据出版标准体系框架 数据论文注册元数据指作者在提交数据论文时需要明确的信息,便于在线获取论

    22、文概要内容,并且实现快速检索,包括标题摘要、作者信息、分类名称和文件信息等。详见表 1-1。表 1-1 数据论文注册元数据 序号 分类名称 要素名称 1 标题摘要 标题 2 摘要 3 作者信息 作者姓名 4 通讯作者 5 邮件 6 第一作者所属机构 7 资助情况 8 分类名称 学科分类 9 文件信息 文件类型(图、表、补充材料等)10 文件描述(根据类型,输入编号、图题、描述信息等)11 文件名称 数据论文细览元数据指在线出版的论文页面应当包括的要素信息,主要包括内容描述、出版信息、增值信息、下载内容、相关文章、评论信息等。见表 1-2。表 1-2 数据论文细览元数据 序号 分类名称 要素名称

    23、 1 内容描述 标题 2 摘要 3 作者姓名 4 单位 5 正文内容 6 出版信息 出版时间 8 7 出版信息(卷号)8 数据论文引用方式 9 数据集标示符 10 增值信息 论文下载次数 11 网页访问次数 12 最后更新时间 13 下载内容 数据论文下载链接 14 数据下载 15 相关文章 作者发表相关文章 16 参考文献 17 学科相关文章 18 评论信息 用户评论 数据集注册元数据指作者在线提交数据时需要明确的信息,便于编辑部获取数据概要内容,并且实现快速检索。表 1-3 数据集注册元数据 序号 分类名称 要素名称 1 数据文件 上传文件 2 数据文件描述 标题 3 作者 4 关键词 5

    24、 学科分类 数据集细览元数据指在线出版的数据需提供的信息,包括数据集内容和描述、增值信息、文件信息、引用信息、许可信息等内容。见表 1-4。表 1-4 数据集细览元数据 序号 名称 要素名称 1 数据集内容和描述 数据集标题 2 作者 3 摘要 4 关键词 5 发布日期 6 发表期刊 7 基金支持 8 增值信息 关联子数据 9 关联父数据 10 访问次数 11 下载次数 12 文件信息 文件大小 13 文件链接 14 引用信息 引用方式 9 15 许可信息 许可证 数据论文作为提升数据成果、增加数据可读性的一种规范性表达,是科学数据出版的核心要素,须制定数据论文模板,规范数据描述要素及其内容。

    25、与传统的学术论文不同,数据论文不包含新的科学假设,不强调新的科学发现,应当提供数据集的描述细节,包括数据收集和加工处理方法、数据质量评估和验证的方法、便于理解和使用数据的相关信息等。1.3.3 出版系统 科学数据出版系统作为承载科学数据出版的平台,遵循并落实前文所述的出版流程和标准体系架构,以保证数据论文的科学质量并推动科学数据的共享与重用。科学数据出版系统在继承传统出版系统优势的同时,也具有鲜明特点,主要包括出版内容与出版能力、数据论文的增值服务以及论文作者与读者的互动三个方面。科学数据出版系统主要服务的出版对象是数据论文,这与传统的出版系统有很大的不同。传统的科学出版系统面向科学论文,旨在

    26、发表创新的科学理论、科学假设或方法论;数据论文则更侧重于对数据采集和处理、质量控制和评估,以及数据使用方法等方面的描述,结合数据集本身的元数据信息,最大限度地消除数据集重用过程中的阻碍。同时,科学数据出版系统由相关的数据存储库提供数据出版支持,具有传统出版平台无法达到的出版能力。数据集可以是由数据仓库维护,或是同一个期刊的编辑部,或者是从事专门的数据存储工作的第三方组织来统一管理。同时,科学数据出版系统可为论文作者提供后续的增值服务,主要包括数据论文的浏览量、下载量、引用次数、相关作者论文、相关领域论文推荐、用户行为统计分析等,从而最大限度地实现数据重用和深度挖掘。此外,科学数据出版系统为论文

    27、作者与读者之间提供了开放的沟通平台。作者与读者的互动过程是公开透明的。这种公开的交流方式,可以有效提升发表数据的可用性,读者的评价反馈信息,也利于数据论文质量本身的客观评估。下面以中国科学数据为例,介绍科学数据出版系统的具体应用。由中国科学院计算机网络信息中心主办的中国科学数据(Chinese Scientific Data,CSData,http:/www.csdata.org)是基于上述理论模型搭建的科学数据出版平台。CSData 以数据论文为主要发表对象,包容传统出版系统的优势做法,存储和维护了数据论文的元数据信息。其中,数据论文本身作为描述数据集的实体,与传统期刊的论文是一致的,元数据

    28、信息则作为附加信息以便于实现对原始对象的管理。CSData将数据集的发表工作交由科学数据存储库(Scientific Data Bank,SciDB,http:/)进行,并支持数据论文对已发表在其他平台上数据集的引用和链接。同时,CSData 提供了包括论文的浏览、下载等统计信息的增值服务。通过及时回馈这些统计数据,为作者的科研贡献提供凭10 证。此外,CSData 在同行专家评议的过程中,提供了开放的讨论平台,使得同行专家的评审意见及作者的反馈信息公开透明,并允许读者对评审中的论文进行讨论和下载。1.3.4 数据存储库 数据存储库的主要承担数据集的长期保藏和在线发布等任务。作为科学数据出版的

    29、支撑,数据存储库通过数据论文实现与科学数据出版系统的无缝融合。因此,一个具有可信度的、高质量的数据存储库才会被数据出版系统认可。研究表明19,一个高质量的数据存储库需要具备以下一些特点:首先,数据存储库需要是国际或是机构认可的可行的存储库;其次,数据存储库必须保证数据集的长期可用性和永久的可获取性;同时数据存储库中的数据集必须具有唯一标识符,以供数据论文进行引用,比如 DOI;此外,数据存储库中的数据集必须是免费的,并且数据的获取过程不存在任何障碍。目前已有很多提供 24*7 小时服务的数据存储库,这里以中国科学院计算机网络信息中心开发运维的科学数据存储库(SciDB)为例进行介绍。科学数据存

    30、储库为 CSData 指定的数据出版平台,是非盈利性的在线数据存储库。SciDB 致力于科学数据长期保藏和在线发布工作,旨在推动高质量的基础科研数据能得到长期、稳定的汇集、管理、共享和应用。SciDB 面向科研人员、项目团队、以及期刊或出版商等,通过提供一系列网站服务,使科研数据归档、获取、认证和引用变得简单。SciDB 收录出版与期刊论文相关联的数据、重大项目(国家项目、部委项目、973 项目或 863项目等)、以及科研团队的数据文件,包括原始数据集、软件脚本等相关材料;提供明确的方案规范数据获取和引用,保护数据工作者的权益;通过自由设置关键字,使数据具备更好的可发现性;该存储库支持多格式、

    31、多领域数据集的出版;此外,SciDB 提供数据集元数据供第三方服务发现。在数据集的增值服务上,SciDB 也做了一些尝试和努力,如数据集的可视化服务、数据集的统计信息反馈等工作。1.4 中国中国科学数据科学数据 中国科学数据(China Scientific Data)是国家网络连续型出版物的首批试点刊物(国内统一连续出版物号 CN11-6035/N),由中国科学院主管、中国科学院计算机网络信息中心主办,于 2015年创刊。作为目前国内唯一的专门面向多学科领域科学数据出版的学术期刊,该刊致力于科学数据的开放、共享和引用,推进科学数据的长期保存与数据资产管理,探索科学数据工作的有效评价机制,推动

    32、数据科学的发展。中国科学数据在明确和保护贡献者权益的基础上致力于科学数据的快速出版与传播。采用11 国 际 通 用 的DOI对 数 据 论 文 和 数 据 集 进 行 标 识,建 议 遵 循 Creative Commons Attribution-Noncommercial 4.0 International License 发布数据及其论文。中国科学数据重点关注生命科学与医学、地球系统科学、空间科学与天文学、物理学、化学化工、材料科学与工程、信息科学、社会科学等领域的基础数据及数据产品。优先出版数据论文包括但不限于以下数据源:(1)重大科研项目产生和获取的原始数据、基础数据和再加工的数据产

    33、品(如国家科技基础性工作专项、国家重大科技计划、中国科学院战略性科技先导专项、国家自然科学基金项目等);(2)大科学装置和野外台站长期观测数据集以及系统整理的数据产品;(3)国家科技基础条件平台、中国科学院信息化建设以及相关部门信息化建设过程中系统收集、整编形成的数据集;(4)科研院所、高等院校等组织机构长期积累的优质科学数据资源;(5)针对现有数据集及其应用,利用程序方法、加工整编形成的繁衍数据集等。1.4.1 概述 1.出版流程 中国科学数据主要在线发表数据论文,兼录少量高质量的评述型论文以及数据观点论文,暂不收录科学发现研究成果、数据质量与数据应用等方面的论文。完整的数据论文出版应包括数据论文和对应数据集两部分,二者通过唯一标识符实现一致性关联,经同行专家评议保障数据的高质量与可读性。可以通过发布的元数据信息获取概要内容,通过明确的方式对数据论文和数据集进行引用。中国科学数据数据论文


    注意事项

    本文(科学数据出版应用实践-中国科研信息化.pdf)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开