材料数据标准与协议

发布时间:2024-03-01 11:23   阅读数:1067   来源:

构建标准化、可发现的数据资源是材料创新发展的重要基础。数据和人工智能驱动的材料研发从根本上改变了新材料的研发模式,对材料数据积累、资源整合、高效应用提出了前所未有的迫切需求。国内新材料创新与应用发展迅猛,但支撑高效研发的材料数据独立、分散,数据资源孤岛化、碎片化已成为新材料智能发展的关键瓶颈,急需构建和推动面向材料数据规模存储和人工智能应用的材料数据库标准体系

随着计算机、云技术、人工智能的发展,材料数据基础设施由独立数据库发展成为整合计算与分析的材料数据中心和智能化平台,并逐步演化为分散建设与维护、集中访问与共享的新数据治理模式2011年以后美国材料基因组计划推动形成了数据驱动的材料创新发展模式材料数据库成为提供原始数据、计算模拟和数据分析服务的数据中心,并很快在数据挖掘和人工智能技术的推动下转变成为促进新型材料研发的材料发现平台。

材料数据的存储方式,由数据库管理系统(DBMS)决定。许多材料数据库开始采用NoSQL系统进行数据归档与存储,随着用户自定义数据描述方式的需求的不断增加,基于NoSQL系统的模板化数据存储系统逐渐成为多数据资源与应用开放互连和无缝共享的基础,通过提供可重用的数据类型进行数据模板的自定义,满足不同工程应用、团体、机构和个人的个性化数据表达需求,实现材料数据模式的事后定义和标准化存储我国十三五期间重点研发计划材料基因工程重点专项建设形成的材料数据库系统,自主研发了支持用户自定义数据存储结构的动态容器技术,满足多源异构材料数据描述和存储需要。

2000年以来,国际上开始尝试发起并推进材料数据的标准化协议。随着材料数据种类和基础设施服务功能的不断细化,从多个数据库中获取信息变得十分必要,但是不同的材料数据库涵盖的材料类别和性能等模式各不相同,具有自定义的数据访问接口,使得跨数据库进行材料数据交换难度很大。因此,在复杂工作流场景下的数据调度过程中,统一的应用程序接口(API)决定了材料数据可访问和可互操作。MARVEL联合31个国际主流材料数据平台机构,创建了OPTIMADE国际联盟,提出了材料数据库访问与交换的通用应用程序接口,推动全球材料数据的FAIR准则即可发现、可交换和可共享。

经过多年发展,我国材料科技和产业领域已积累沉淀了大量数据,数据生产、管理和赋值机制不健全,采集积累不完整、流通共享不畅通,分散重复、碎片化严重。国材料与试验团体标准委员会(CSTM)材料基因工程领域委员会(FC97)成立2017年。上海交通大学材料基因组联合研究中心主任汪洪教授当选为材料基因工程领域委员会主任委员,四川大学杨明理教授,北京科技大学宿彦京教授中科院硅酸盐研究所刘茜教授等担任副主任委员。

中国材料与试验团体标准委员会(CSTM)是为了促进中国材料与材料试验技术发展,提高中国与材料试验水平,建立健全材料与试验领域市场化标准制定模式,进一步加强中国材料与材料试验技术标准的时效性和先进性,加快科技创新成果规范性推广应用,提升中国制造国际竞争力,增强中国标准话语权而设立的。CSTM由王海舟院士等21位材料界院士牵头,在国家标准化管理委员会,工业和信息化部支持下创立的,目标是建成类似ISOASTM的中国标准体系和平台。材料基因工程作为一种新型材料科学研究模式,在大数据基础上,深度融合了人工智能、高通量实验、高通量计算,从而更快、更准、更高效开展材料研究和开发,作为一个新兴的领域,成立材料基因工程领域委员会,代码FC97

2019年,CSTM发布了《材料基因工程数据通则》General rule for materials genome engineering dataT/CSTM 00120-2019团体标准,对数据产生过程中必须收集的信息与遵循的格式进行了规范,将数据分为样品信息、源数据(未经处理的数据)与衍生数据(经分析处理得到的数据)三类,以操作(样品制备/表征/计算/数据处理)为条目单位,对每次操作分别赋予独立资源标识,以确保数据满足FAIR 原则和可再利用的要求。