ICS 01.120 A 00 团 体 标 准 T/CSTM 00120 -2019 材料基因工程数据通则 General rule for materials genome engineering data 2019-08-13 发布 2019-11-13 实施 中关村材料试验技术联盟 发布 全国团体标准信息平台 T/CSTM 00120— 2019 I 前 言 本标准按照GB/T1.1—2009给出的规则起草。 请注意本文件的某些内容有可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由中国材料与试验团体标准委员会 材料基因工程 领域委员会 (CSTM/FC97)通则委员会 提出。 本标准由中国材料与试验团体标准委员会 材料基因工程领域 委员(CSTM/FC97) 归口。 全国团体标准信息平台 T/CSTM 00120— 2019 1 引 言 材料基因工程是材 料科学的 新型研发理念。通过从“试错法”向以 “数据+人工智能”为标志的 数据驱动模式的 转变,实现新材料及工艺的理性设计。在此模式下,材料研究活动围绕数据产生与数据 处理展开,使掌握成分 -组织-工艺-性能间关联规律的速度更快、效率更高、成本更少。它代表了材料基 因工程的核心理念与发展方向。材料基因组( Materials Genome )这个名词的出现有感于人类基因组计 划的成功 ,但迄今为止并无特定的科学定义,目前的共识是将材料基因工程作为设计预测型材料研发模 式的代称。 材料基因工程数据库是实施数据驱动材料科学的基础条件 之一,需要收录符合 FAIR(Findable, Accessible, Intero perable, Reusable,可发现、可获取、可互操作、可再利用)原则的数据资源,供社会 共享。其中“可发现”指数据及其元数据被赋予全球性唯一并持久的标识,数据被丰富的元数据所描述 并在可检索的源中登记或建立索引,易于被第三方 (人员与机器 )方便地找到; “可获取”指数据及其 元 数据可使用标准通讯协议通过标识查询并获取; “可互操作”指数据及其元数据的表达使用正式、可获 得、共享和广泛使用的语言; “可再利用”指数据及其元数据由多种准 确并相关的特征所描述,与细致 的出处信息相关 联并符合相关 领域的标准,从而被不同用户( 人员与机器 )方便地使用 。 数据, 特别是源数据 (即由测量或计算获得的未经进一步分析的数据 )的可再利用性是材料基因工程 的重要特征。以某一合金的 X射线衍射图 为例,它可用于获得材料的晶体结构,也 可用于分析结晶程 度、晶粒大小、晶体取向等参数 ,还可用于分析合金的 相组成。因此一 组源数据在不同的使用者手中可 以根据各自关切产出不同的结果。传统材料数据库一般仅收集由源数据处理而得到的分析结果(如各种 材料性能参数等) ,而源数据本身通常分散在实验者手 中,不被收录。同时,与数据相关的元数据通常 也不在收录之列,难以满足 FAIR原则。因此,有必要建立一种适合材料基因工程需求的数据 标准,规 范数据的产生过程中必须收集的信息与遵循的格式,以确保数据满足 FAIR原则,从而得到充分有效的 利用。 本通则应对材料科学在数据驱动模式下对数据的需求,将数据分为样品 信息、源数据(未经处理的 数据)与衍生数据(经分析处理得到的数据)三类,以操作(样品制备 /表征/计算/数据处理)为条目单 位,对每次操作分别赋予独立资源标识( 根据国标 GB/T 32843 或DOI) 。每条数据收集与操作相关 的元 数据,为样品与数据重复利用提供必要条件。这里 ,样品可以是实验产生的实物,也可以是 经计算产生 的虚拟物。同理,原始数据可以来自于表征或是直接的测量,也可以通过模拟计算产生。 为了收录足够元数据与原始数据,本通则兼顾了材料数据专用性 与通用性。单个数据条目拥有独 立的科技资源标识,独立存在,保证 专用性。在使用中,每次分析使用的数据或数据集通过规范化的标 准词汇表进行检索,随时建立 ,保证通用性。同时,对于特定的制备、表征、计算流程也需要建立数据 与元数据的格式标准,简化数据存储、分析中的资源消耗,特别是繁琐的元数据录入 可以通过高通量制 备、表征、计算在操作过程中 由计算机自动生成,这对于收集与处理批量产生的数据是必不可少的。 全国团体标准信息平台 T/CSTM 00120— 2019 1 材料基因工程数据 通则 1 范围 本通则规定了材料基因工程数据库中收录的数据的 内容,即数据的构成及其中必须包含的信息 。 本通则适用于所有 材料基因工程 数据库及其中收录的 数据,包括 材料样品 、原始数据 及经过分析 处 理得出的 结果数据。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 32843 科技资源标识 3 术语和定义 下列术语 和定义适用于本文件。 3.1 实际样品 Actual Specimen 天然或实验产生的实物 材料。 3.2 虚拟样品 Virtual Specimen 由计算仿真产生的虚拟 材料。 3.3 元数据 Meta Data 与样品和数据的条件有关的数据。 3.4 源数据 Source Data 测量或计算产生的原始数据。 3.5 衍生数据 Derived Data 对源数据或者 衍生数据进行分析后产生的结果数据。 4 数据结构 4.1 数据结构基本框架 4.1.1 按材料科学在数 据驱动模式下对数据的需求,材料基因工程数据 库框架见图1。 全国团体标准信息平台 T/CSTM 00120— 2019 2 4.1.2 按GB/T 32843 规定或DOI识别码, 以操作为条目 单位,对每次操作分别赋予独立资源标识。每条 数据收集与操作相关的元数据,为样品与数据重复利用提供必要条件。 图 1 5 数据内容 5.1 样品信息 内容 5.1.1 样品信息内容结构 样品信息内容结构 见图2。 图 2 5.1.2 标准样品内容类型 5.1.2.1 实际样品 材料实际样品的信息包括: 1)规格和名称 ; 2)产生该实际 样品的制备方法 和制备条件 等元数据; 3)独特且持久标识 、如按根据GB/T 32843 生成的样品资源标识码或 DOI识别码等。 5.1.2.2 虚拟样品 材料虚拟样品的信息包括: 1)规格和名称 ; 全国团体标准信息平台 T/CSTM 00120— 2019 3 2)产生该虚拟样品的计算方法和条件等元数据 ; 3)独特且持久标识、如按GB/T 32843 生成的样品资源标识码或 DOI识别码等。 5.2 源数据内容 5.2.1 源数据结构 源数据结构 见图3。 图 3 5.2.2 源数据内容类型 5.2.2.1 实际样品 材料实际样品的源数据信息包括: 1)该次表征、测试实验的方法、条件 、样品标识码 ; 2)该次表征、测试实验的未经处理的数据 ; 3)该次表征、测试实验的独特且持久的标识 、如按GB/T 32843 生成的样品表征数据资源标识码或 DOI识别码等。 5.2.2.2. 虚拟样品 材料虚拟样品的源数据信息包括: 1)该次计算实验的元数据 ,如方法和条件 、虚拟样品的 标识码; 2)计算实验的未经 处理的数据 ; 3)该次计算实验的独特标识 、如按GB/T 32843 生成的样品表征数据资源标识码或 DOI识别码 等。 5.3 衍生数据内容 5.3.1 衍生数据结构 衍生数据结构见图 4。 全国团体标准信息平台 T/CSTM 00120— 2019 4 图 4 5.3.2 衍生数据内容来源 5.3.2.1 材料样品的衍生 数据内容来源: 1)对源数据 或已经分析处理的数据进行分析处理。 包括分析元数据,如该次分析涉及的源数据 (组)、该次分析处理使用的分析方法和条件等; 2)该次分析处理后得到 的分析结果数据 ; 3)还包括该 次分析处理的独特且持久的标识 、如按GB/T 32843 生成的样品表征数据资源标识码 或DOI识别码等。 全国团体标准信息平台 T/CSTM 00120— 2019 5 附 录 A (资料性附录) 本标准起草单位: 上海交通大学 、四川大学 、北京科技大学 、中国科学院 上海硅酸盐研究所 、南 方科技大学 、钢研纳克检测技术股份有限公司 、国标(北京)检验认证有限公司、 成都材智科技有限公 司、西北工业大学 、中国工程物理研究院材料研究所 、湖南大学 、国检集团、中国航发北京航空材料研 究院、烟台大学、 清华大学、北京航空航天大学

pdf文档 T-CSTM 00120—2019 材料基因工程数据通则

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
T-CSTM 00120—2019 材料基因工程数据通则 第 1 页 T-CSTM 00120—2019 材料基因工程数据通则 第 2 页 T-CSTM 00120—2019 材料基因工程数据通则 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2022-12-20 17:32:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。