ICS 35.240.70
CCS L 71
团 体 标 准
T/CSTM 00838—2022
材料基因工程 材料数据标识 (MID)
Materials genome engineering - Materials data identifier(MID )
2022-08-29发布 2022-11-29 实施
中关村材料试验技术联盟
发布
C S T MhQÆSÑ^Ou(
全国团体标准信息平台
T/CSTM 00838 —2022
I 前 言
本文件参照 GB/T 1.1—2020 《标准化工作导则 第1部分:标准化文件的结构和起草规则》给出的
规则起草。
请注意本文件的某些内容有可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本标准由中国材料与试验团体标准委员会材料基因工程领域委员会( CSTM/FC97 )提出。
本标准由中国材料与试验团体标准委员会材料基因工程领域委员会通则技术委员会
(CSTM/FC97 /TC01)归口。
C S T MhQÆSÑ^Ou(
全国团体标准信息平台
T/CSTM 00838 —2022
1 引 言
材料基因工程是材料科学的新型研发理念。通过从“试错法”向以“数据 +人工智能”为标志的数
据驱动模式转变,实 现新材料及新工艺的理性设计,提高研发效率。数据驱动模式的基础是数据。为了
满足材料研究在大数据时代的需求, T/CSTM 00120 -2019《材料基因工程数据通则》中定义了“样品信
息” 、 “源数据”和“衍生数据”三类数据, 后修订为 “样品信息” 、 “原始数据”和“衍生数据” 。以每
次操作(样品制备/测量/分析)为条目单位,为每条数据独立赋予唯一且永久的标识符。在数据驱动
模式下,基于数字对象标识符和元数据的数字资源注册与管理作为一种有效的技术手段被普遍采用,成
为科学数据管理领域成熟的方案。
标识符编码需要遵循唯一性、永 久性原则,也要考虑标识符的结构化。标识符的唯一性来自于对编
码方式的设计。最简单的唯一性编码是不包含特定结构的数字、字母随机字符串。在标识符中嵌入对应
数据的某些特性参数值作为固定字段,如时间、类别、机构代码等,外加顺序号、自定义部分等,可组
成具有统一基本结构的标识符。 使用者通过具有固定结构的标识符可以快速获取对应数据资源的重要信
息,提高使用便捷性。目前,国内外主流的数字标识技术包括数字对象唯一标识符( DOI) 、国际标准
书号(ISBN ) 、国际标准连续出版物号 (ISSN)、对象标识符( OID) 、国际标准关联标识符 (ISLI)和科
技资源标识( CSTR)等。虽然国内外已有的多种标识符方案均可实现唯一性标识目标,但组成字段的
选用往往聚焦于具体领域的具体需求。因此,制定材料基因工程领域的数据标识符是非常有必要的。
材料数据标识的英文表述 Materials Data Identifier ,简称 MID,其包含的字段有固定标志代号、产
权拥有单位的机构代码、作者在所属单位的个人代码、数据来源代码、注册时间、用户自定义码和系统
随机码。海量材料数据的巨大价值只有在材料领域充分实现数据的交换与共享后才能真正体现。 MID
中嵌入产权归属单位 和数据生产者信息,永久记录数据的知识产权和生产贡献归属,这有助于保障 数据
所有人的产权 利益,完善数据成果的评价激励机制,提高研究者对数据共享的积极性,利于构建良好的
数据驱动材料研发生态。另外,以“样品信息” 、 “原始数据”和“衍生数据”三类数据为参考,在 MID
中嵌入数据来源类别的代码,便于研究者对数据类型辨识,提高目标数据检索效率,更方便地建立用于
后续研究所需的数据集。总之, MID的应用会促进材料大数据的共享,加速数据驱动模式下的材料智
能化研发。
C S T MhQÆSÑ^Ou(
全国团体标准信息平台
T/CSTM 00838 —2022
1 材料基因工程 材料数据标识
1 范围
本文件规定了材料数据标识的命 名方法和规范。
本文件适用于材料基因工程数据通则框架下的“样品信息” 、 “原始 数据(源数据) ”和“衍生数据”
的科技资源标识命名规范化,其他类型材料数据的标识符命名规范化可参照执行。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 2659 -2000 世界各国和地区名称代码
T/CSTM 00120 材料基因工程数据通则
3 术语和定义
T/CSTM 00120界定的以及下列术语和定义适用于本文件。
3.1
材料数据标识 materials data identifier ;MID
用于唯一标识材料数据资源的一组字符。
3.2
材料数据标识系统 MID system
通过本文件描述的命名方法,以计算机理解的形式,实现对MID进行分配及管理的基础设施。
3.3
材料数据标识命名规则 MID naming convention
MID的构成及字符序列规则,特别是字段、分隔符的构成和字符规则。
3.4
机构代码 organization code
MID系统为全球研究人员所在的单位机构赋予的唯一代码,又称为产权拥有单位的机构代码。法人
单位是机构代码分配的最小组织单元。
3.5
个人代码 researcher code
MID系统为各个单位机构的研究人员赋予的唯一代码,又称为作者在所属单位的个人代码。
3.6
数据来源类别 data source categories
C S T MhQÆSÑ^Ou(
全国团体标准信息平台
T/CSTM 00838 —2022
2 材料数据产生的来源类别,分为制备、表征、分析、虚拟制备、虚拟表征五种。
3.7
数据来源代码 data source code
为不同的数据来源类别赋予相应代码,制备、表征、分析、虚拟制备、虚拟表征分别对应 S、T、D、
M、C。
4 原则
4.1 唯一性
在MID系统中,每个 MID仅标识一个数据对象。
4.2 永久性
在对MID进行命名以及在相关的服务或应用中,都不应为 MID的存在设定时间限制。当数据对象的所
有权、管理责任发生变化时, MID及其数据对象不受影响。
5 MID命名
5.1 规则
MID由前缀和后缀两部分组成,中间用半角符号“ /”分开。前缀包括 5个字段,后缀包括 2个字段,
不同字段之间以半角符号“ .”分隔。其他字符采用 UTF-8编码。MID命名规则如图 1所示。
图1 MID命名规则示意图
5.2 前缀
前缀包含 a,b,c,d,e共5个字段,具体说明如下:
—— a为标识符的 固定标志代号,采用“ MID”表示;
—— b为产权拥有单位的机构代码,是由字母和数字构成的 7位字符串。其中,前 2位字母是国家 /
地区编号,按 GB/T 2659 -2000中两字符拉丁字母代码选取。后5位是单位编号,单位类别主要有高等学
校、科研机构、企业和其他,单位编号规则见表 1。如果单位主体不变,仅变更名称,则编号不变;
C S T MhQÆSÑ^Ou(
全国团体标准信息平台
T/CSTM 00838 —2022
3 表1 单位类别与单位编号对照表
单位类别 单位编号
高等学校(中国大陆) 中国教育部公布的院校招生代码, 5位数字
科研机构(中国大陆) 中国教育部公布的院校招生代码, 5位数字
高等学校(国外和中国香港、
中国澳门、中国台湾) 单位名称参考中国教育部教育涉外监管信息网( http://jsj.moe.gov.cn )的公开信息(无编
号) ,单位编号为 5位数字编号“ 1xxxx” ,数字“ 1”作为起始字符,后四位编号参考托
福送分学校代码( 4位数字)
科研机构(国外和中国香港、
中国澳门、中国台湾) 数字“ 8”作为首位字符,从“ 80001”开始顺序排号
企业 字母“ B”作为首位字符,从“ B0001”开始顺序排号
其他 字母“ A”作为首位字符,从“ A0001”开始顺序排号
—— c为作者在所属单位的 个人代码,是由字母、数字构成的4 位字符串。这是数据作者在所属单
位的代码。同一位数据作者可同时在不同所属单位中拥有不同代码;
—— d为数据来源代码, 1位字母,五种数据来源类别分别用五个大写字母表示,具体对应关系见
表2;
表2 数据来源类别与代码对照表
数据来源类别 数据来源代码 意义
制备 S Sample,天然或实验制备的实物样品数据
表征 T Test,对实物样品实施各种测试产生的表征数据
分析 D Derived,对表征数据进行分析后产生的结果数据
虚拟制备 M Model,由计算仿真建模产生 的虚拟样品数据
虚拟表征 C Calculation ,对虚拟样品实施计算产生的数据
—— e为注册时间,该字
T-CSTM 00838—2022 材料基因工程 材料数据标识 MID
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-12-18 17:31:17上传分享