首页   >   新闻中心   >   学术进展

北科大最新研究报告:自然语言处理(NLP)与大型语言模型(LLMs)在材料发现中的应用

发布时间:2025-04-18 15:40   阅读数:29   来源:


近日,北京科技大学、北京云智材料大数据研究院宿彦京教授、姜雪副教授团队在npj上发表论文,系统论证了自然语言处理(NLP)与大型语言模型(LLMs)在材料科学领域的创新价值与实践路径,揭示了人工智能技术通过知识抽取、跨模态推理与智能生成推动材料研发范式转型的颠覆性潜力。研究不仅构建了“知识-数据双驱动”的新型研究框架,更通过技术路径验证为材料科学智能化发展提供了可落地的解决方案。尽管领域知识嵌入、小样本学习等挑战仍需突破,但NLP与LLMs的深度应用已为加速材料创新周期、挖掘非常规材料体系开辟了新维度。未来,随着“AI Agent+机器人实验”闭环研发体系的完善,这一交叉领域将推动材料科学从经验探索迈向智能设计的新纪元,为工业界与学术界创造更大的协同价值,为材料科学智能化发展注入持续动力。

以下文章介绍转自“科文科技与工程”

17449627581934408.png

研究背景

材料科学领域长期面临实验试错成本高、计算模拟复杂度大等挑战,传统研究方法难以高效处理海量文献数据与多尺度材料信息。近年来,自然语言处理(NLP)与大型语言模型(LLMs)的快速发展为材料发现提供了新范式,其能够从非结构化文本(如科研论文、专利、数据库)中自动提取知识,建立材料属性、合成条件与性能之间的关联,从而加速新材料设计与筛选。这一技术趋势与材料信息学(Materials Informatics)的兴起相呼应,标志着数据驱动与人工智能深度融合的材料研究新时代。

前言

材料科学领域长期面临实验试错成本高、计算模拟复杂度大等挑战,传统研究方法难以高效处理海量文献数据与多尺度材料信息。近年来,自然语言处理(NLP)与大型语言模型(LLMs)的快速发展为材料发现提供了新范式,其能够从非结构化文本(如科研论文、专利、数据库)中自动提取知识,建立材料属性、合成条件与性能之间的关联,从而加速新材料设计与筛选。这一技术趋势与材料信息学(Materials Informatics)的兴起相呼应,标志着数据驱动与人工智能深度融合的材料研究新时代。

亮点总结

1.跨模态知识图谱构建与文本驱动材料设计:提出基于NLP的跨领域知识抽取方法,突破材料科学文献的结构化瓶颈,实现材料属性-合成-性能关联网络的自动化构建,为逆向设计提供语义推理基础。

2.LLMs的创新方法扩展:开发面向材料科学的领域自适应预训练策略(如MatBERT、MatGPT),通过嵌入晶体结构编码与物化规则,显著提升模型在成分预测、合成路径优化等复杂任务中的物理一致性。

3.多模态数据融合框架:建立文本-计算-实验数据的统一表征体系,利用LLMs的生成能力实现非结构化文本(如实验记录)与结构化数据(如相图、能带)的协同分析,支撑高通量虚拟筛选。

4.典型应用验证:通过锂离子电池电解质快速筛选、拓扑材料能带特征预测等案例,证实LLMs在减少实验试错次数(>50%)、发现非常规材料体系(如高熵合金)中的突破性效能。

5.挑战与范式革新:系统阐明小样本学习、领域知识注入等关键技术瓶颈,提出“AI Agent+机器人实验”的闭环研发范式,为材料发现从经验驱动向数据-知识双引擎驱动转型提供理论框架。

文章介绍

人工智能(AI)和机器学习(ML)一直在改变材料科学.许多示例已经证明了数据驱动材料方法在材料结构设计中的价值、成分和工艺优化、自主实验和智能计算以发现新的关系和见解。大规模和特征明确的数据为这种范式奠定了基础,以确定材料推断的准确性和可靠性。绝大多数材料知识都以科学文献的形式发表,这些文献经过了同行评审和可靠的数据.主要在科学和技术领域进行研究的普遍方式是从已发表的文献和/或实验室规模的实验中手动收集和组织数据。资料数据库的开发也为可访问数据提供了额外的来源.这个过程无疑是非常耗时的,严重限制了大规模数据积累的效率。自动化材料信息提取已日益成为一种必需品。

自然语言处理(NLP)的发展为大规模材料数据集的自动构建提供了机会,并为数据驱动的材料研究提供了利用NLP工具的补充重点。NLP诞生于1950年代,经过60年的孕育和发展,于2011年首次进入材料化学领域.它继续对材料信息学产生影响.最常用的任务是使用NLP解决文献中报道的材料信息的自动提取问题,包括化合物及其性质、合成过程和参数、合金成分和性能和进程路由.通过开发特定领域的命名实体识别、关系提取等算法,形成了一系列材料文献数据提取管道。

单词嵌入在NLP中的重要性怎么强调都不为过。这些单词的分布式表示使语言模型能够像人类一样轻松阅读句子以及书面单词背后的概念和上下文.除了信息提取之外,已发表文献中的材料科学知识可以有效地编码为信息密集的词嵌入。这些密集的低维向量表示已成功用于材料相似性计算,有助于发现新材料.最近,预训练模型的出现为 NLP 研发带来了一个新的时代。大型语言模型(LLM),例如 Generative Pre-trained Transformer (GPT)隼和Bidirectional Encoder Representations from Transformers(BERT)通过大规模数据、深度神经网络、自监督和半监督学习以及强大的硬件展示了他们的通用“智能”能力.以注意力机制为特征的 Transformer 架构是影响LLM的基本构建块,这已被用于解决信息提取、代码生成中的许多问题以及化学研究的自动化.

最近,GPT出现在材料科学领域,提供了一种通过快速工程提取材料信息的新方法,不同于传统的NLP管道。提示工程包括巧妙地制作提示来指导这些模型的文本生成。这些提示用作AI的输入指令或查询,在确定AI响应的质量、相关性和创造性方面发挥着关键作用。精心设计的提示对于最大限度地提高GPT的有效性至关重要,包括清晰度、结构、上下文、示例、约束和迭代优化等关键要素。尽管基于云的GPT可以有效地推断信息,但它们的训练需要大量时间,通常需要数周到数月才能完成。训练持续时间会影响模型的学习和收敛,较长的训练周期可能会产生卓越的性能。训练期间使用的GPU的选择和数量会影响模型的大小和训练速度。使用更强大的GPU或更多的GPU可以促进训练更大的模型并加快实验和迭代。然而,正如我们最近在DeepSeek-R1上看到的那样,算法效率和资源的最佳使用可以在不牺牲性能的情况下减小语言模型的大小。训练语料库的大小也会显著影响LLM的性能。较大的语料库提供更广泛、更多样化的知识,而语料库质量(例如,精心策划、低噪声)会影响模型掌握有意义表示的能力。语料库的域还可以影响模型在特定主题领域的熟练程度,例如,在科学文献上训练的模型在科学任务中表现出色,而不是在通用Web内容上训练的模型。除了信息提取外,GPT用于材料预测和设计的探索也正在进行中。通过微调策略,材料科学家渴望为大型模型提供超出其一般能力的专业材料知识,使它们能够在定制组件设计、工艺优化、性能预测和自主研究中提供定量推理结果。

然而,材料科学家的期望与现有模型的能力之间存在明显的差距。一个主要限制是模型需要在材料科学应用中提供更准确和可靠的预测。虽然GPT等模型在各个领域都显示出前景,但它们往往缺乏复杂材料科学任务所需的特异性和领域专业知识。材料科学家寻求能够对不同条件下的材料特性、行为和性能提供精确预测和见解的模型。他们还要求模型为其预测提供解释,使科学家能够了解潜在机制并根据模型的输出做出明智的决策。此外,还需要模型来有效地集成特定领域的知识。材料科学是一个复杂的领域,具有不同的子学科和专业术语。模型应该能够利用这些领域知识来增强其预测能力并提供上下文相关信息。此外,使用 LLM 开发本地化解决方案、计算资源的最佳利用率以及开源模型版本的可用性是需要考虑的关键方面。这些因素代表了LLM在材料科学中应用的重要门槛,为该领域的发展提供了广阔的机会。

在这里,我们概述了NLP的概念、方法和迄今为止在材料信息提取、材料语言模型及其后果方面取得的结果。虽然Olivetti等人回顾了该领域通过NLP和文本挖掘进行信息提取方法的进展,LLM的快速发展使我们能够利用接近人类理解的上下文顺序表示的优势。Pei等人最近评论了使用LLM对合金进行整体设计,强调了它们加速合金开发的潜力。他们建议为某些任务合并设计标准或解析出版物或专利中的信息,全面处理约束之间的关系,并使用工程提示根据目标有效地集成这些约束并确定其优先级。我们回顾了过去几年导致基于提示的系统的发展、微调的材料科学模型以及资源的充分整合,使自主科学研究成为可能.本综述由五个部分组成。我们从NLP的概念开始,包括它在材料科学中的演变。在第3节中,我们总结了用于自动材料数据提取的NLP管道以及材料组成、性能和合成路线的研究案例,包括传统的材料信息提取和使用 LLM 的最新发展。在第4节中,我们讨论了语言模型的结果和对材料科学的影响。我们展示了单词嵌入、微调的语言模型和AI代理如何用于材料发现、属性预测和自主研究。最后,第5节回顾了材料NLP和LLM的现状,并概述了未来的挑战和机遇。我们的目标不仅是突出该领域的最新进展和趋势,而且还提供实用指导、批判性分析和有价值的见解,以告知和激励材料科学界的研究人员、从业者和利益相关者。

图文速览

NLP的历史可以追溯到1950年代.目标是使计算机理解和生成文本,特别是在自然语言理解(NLU)和自然语言生成(NLG)两项主要任务中.NLU 专注于通过句法和语义分析进行机器阅读理解,以挖掘底层语义。与 NLU相反,NLG是在给定上下文中生成短语、句子和段落的过程。最初,开发的系统使用基于专业知识的手写规则,这些规则只能解决特定的、狭义的问题。ML时代始于1980年代后期,机器可读数据和计算资源的数量不断增长.ML算法不是手动创建规则,而是分析了大量带注释的文本语料库来学习关系。然而,ML需要科学家为单词设计特征。语言有数十万个单词,可能具有给定含义的单词组合的数量无法计算。因此,使用ML处理语言数据不可避免地面临具有维度诅咒的稀疏数据问题。深度学习(DL)的使用从训练数据中自动执行一定程度的特征工程,导致了神经网络架构,即双向长短期记忆网络(BiLSTM)和作为LLM核心的Transformer。

图1:NLP的发展和应用

17449627937281836.png

横轴代表 NLP 的不同发展阶段,从手工规则到大型语言模型,纵轴代表与信息提取、材料发现和自主设计相对应的具体 NLP 任务。

NLP 包含广泛的任务,例如信息检索 (IR)、命名实体识别 (NER)、关系提取、文本分类、主题建模、语义文本相似性、机器翻译、问答 (QA)。基于这些任务,已经开发了NLP管道,用于从与有机和无机化合物以及合金的化学成分、性质和合成程序相关的期刊文章中自动提取材料数据。从科学文献中提取材料信息涉及两种主要方法:传统的NLP和基于LLM的NLP方法。这两种方法共享几个共同的阶段,包括语料库获取、预处理、信息提取和相互依赖关系解决。传统的NLP包含信息提取的特定步骤,例如文本分类、表解析、命名实体识别 (NER) 和实体关系提取。相比之下,基于LLM的提取主要依赖于提示工程和微调,以促进通过对话提取信息。

图2

17449627931697810.png

用于从科学文献中提取材料信息的NLP管道的示意图工作流程,包括传统的 NLP和基于LLM的NLP方法。

NER和实体关系提取的一般方法包括字典查找和基于规则、半监督和机器学习的方法,如图1所示,方法根据注释语料库的规模而有所不同。更直接的、有监督的基于ML的方法需要开发更大的注释语料库,并通过计算表示相似性来量化相似性.给定大量的标记语料库,使用条件随机场(CRF)层训练BiLSTM网络可用于NER和实体关系提取任务。BiLSTM是一个带有LSTM单元的双向递归神经网络,用于解决文本数据中的长期依赖问题,捕获句子的更多语义上下文依赖性。BiLSTM的输入是单词嵌入层,用于生成一个转换函数,该函数接受纯文本单词并输出密集、实值、固定长度的向量。BiLSTM的输出是序列中每个单词的所有标签下的相应概率,然后输入到CRF层中,以考虑邻域中标签之间的相关性,并共同解码给定输入句子的最佳标签链。对于有限的注释语料库,半监督ML策略和基于规则的方法工作得更好。

图3:用于NER和实体关系提取的传统NLP管道

17449627932020328.png

三种材料命名实体识别的策略,包括 (a) 基于规则或字典,(b) 半监督和 (c) 基于 ML 的提取。

发现具有特定特性的材料不仅需要解决化学成分和结构复杂性问题,还需要考虑多种加工途径。综合和处理路由通常以连续事件的形式描述,作按顺序链接。这些作包含多种类型,表现出灵活的表达式,并受制于不同的条件和参数。此外,合成和加工事件的连续流程经常与对实验现象和中间产物的广泛讨论交织在一起,在提取作用和参数方面提出了重大挑战。

图4:材料合成和加工提取的案例

17449627933919717.png

a 2004 年至 2021 年报告的高温合金提取作用频率的热图(部分) b 不同类型合成的实验步骤之间过渡的机器学习流程图 c 将使用自然语言描述的合成程序转换为独立于硬件的化学代码的系统工作流程,该代码可以作为自然语言表示和可视化编辑,但内部存储为XML。

传统的NLP提供简单性和量身定制的解决方案,但在灵活性和复杂任务方面存在困难。最近,GPT模型使用由自我注意和前馈层组成的 Transformer 解码器架构来生成文本。GPT-4 等对话式LLM已经证明了它们从广泛的研究论文集中有效提取数据的非凡能力。LLM在独立模式下分析信息、提取相关细节和创建响应的应用在多个研究领域越来越受欢迎。这通过使用快速工程和微调以及它们与其他科学工具的集成来利用LLM。

图5:通过LLM提取信息

17449627931835374.png

a ChemPrompt 工程的三个核心原则,用于从研究文章的特定部分提取和总结合成条件,以将信息组织成结构良好的表格  b 通过在“人在环”注释过程中对 LLM 进行部分训练,对材料进行文档级联合命名实体识别和关系提取。

虽然NLP技术在材料领域仍处于早期阶段,但开发特定于材料的预训练语言模型已成为日益增长的趋势,以便为化学物质、元素和其他材料信息(如word2vec和BERT)提供高质量的单词嵌入。这些嵌入可以帮助捕获文献中单词之间的潜在句法和语义相似性,促进候选材料筛选并作为属性预测的输入向量。

图6:使用Word2vec构建的材料科学词嵌入

17449627931363367.png

a One-hot 编码向量用作神经网络的输入,该神经网络具有单个线性隐藏层,该隐藏层经过训练,可以从给定的目标词中预测上下文词。使用材料嵌入的余弦相似性产生的热电材料排名 嵌入“热电”的嵌入 b 为了设计具有词嵌入的多组分高熵合金,一种方法从一个必须包含的元素开始,然后根据余弦相似性选择其四个最相似的元素。第二种方法平等地考虑所有参与元素,将任意两个元素的余弦相似性平均起来,以衡量其作为候选元素的效力。五组分合金根据其在不同出版年份的上下文相似性进行排序,包括 TiZrNbHfTa、TiZrNbMoHf 和 TiZrMoHfTa 的 Senkov 合金。

为了克服这些缺点,基于transformer的语言模型(依靠自我注意机制来权衡输入数据不同部分的重要性)能够捕获文本中的长期依赖关系。BERT由Google于2018年推出,可生成上下文化的单词嵌入,这意味着单词的嵌入取决于句子中的周围单词。这与传统的单词嵌入方法Word2Vec或GloVe不同,在传统的单词嵌入方法中,每个单词都有一个静态嵌入。它还激发了许多后续研究和变体,例如 RoBERTa、ALBERT和DistilBERT,旨在提高BERT的性能和效率。最初的 BERT 模型在其词典中使用了3000万个标记词汇,并在 Books Corpus(8 亿个单词)和英语维基百科(25 亿个单词)上进行了预训练。然而,原始的预训练BERT缺乏材料领域知识,因此没有为材料信息提供可靠的嵌入。

图7:材料的BERT模型及其在材料设计中的应用

17449627936878949.png

Google利用Transformer框架的BERT模型作为材料BERT模型的基础。这些专业模型通过目标材料语料库的预训练和微调进行改进,这些材料语料库可以用作编码器,为材料信息序列生成数字表示,例如聚合物化学指纹图谱和合成路线,从而促进与材料特性的相关性建立。

图8

17449627946542448.png

使用SteelBERT进行定量力学性能预测,包括语料库收集、预训练、钢材信息的上下文感知表示、使用深度学习网络的预测模型以及奥氏体不锈钢设计的实验室数据集微调等多个步骤。

微调可以提高模型在特定任务(例如材料属性预测)上的性能,而由LLM和集成工具提供支持的AI代理经过训练,可以自主解决复杂任务。AI代理能够进行规划、决策和调用工具。它的角色是通过提示工程定义的,以便用户可以自定义代理的行为以满足特定要求。上下文学习允许AI代理积累经验并不断发展,以便其作随着时间的推移变得越来越一致、合乎逻辑和有效。诸如chain-of-thought和tree-of-thought方法等技术允许将复杂的任务分解为更小、更易于管理的子任务。通过与外部工具交互,AI代理制定的计划被转化为可作的步骤并有效执行。

图9

17449627948438269.png

Coscientist 系统的架构,通过与多个模块交互(Web和文档搜索、代码执行)来执行实验来解决复杂问题。 Coscientist由多个交换消息的模块组成。蓝色背景的框表示LLM模块,Planner模块显示为绿色,输入提示为红色。白框表示不使用LLM的模块。b 使用单个模块或其组合执行的实验类型。c 使用液体处理器的实验装置的图像。

NLP和LLM显著增强了从广泛的材料科学文献中分析、提取和解释有价值信息的能力。由于该领域的复杂性和特异性,在材料科学中利用 LLM带来了相当大的挑战。关键问题包括数值理解、定量预测、结构解释和科学推理的需要。

尽管存在挑战,但NLP和LLM在材料设计方面取得了一些成功。它们已被用于通过分析大量数据集来提取模式、生成假设和指导实验,从而加速材料的发现。例如,它们已被应用于预测材料特性,确定最佳成分,并建议处理条件取得了可喜的成果,尤其是在合金开发方面和聚合物设计.展望未来,目前取得的进展将使LLM通过增强数值推理、定量预测和结构解释取得更大的成功。未来的成功可能取决于LLM与计算、实验和数据驱动工具的无缝集成,从而获得实时见解,使研究人员能够快速做出明智的决策。最终,希望这种演变不仅能简化材料设计过程,还能促进创新突破,从而显著减少材料发现的时间和成本。

研究价值

该研究系统论证了NLP与LLMs在材料科学中的颠覆性潜力:一方面,通过文本挖掘与语义分析,可构建跨领域知识图谱,突破传统数据孤岛;另一方面,LLMs凭借其强大的生成与推理能力,能够预测新型材料成分、优化合成路径,甚至模拟材料行为。此类技术显著缩短了材料研发周期,降低了实验成本,尤其在能源材料、催化体系、半导体设计等关键领域具有重大应用前景。文章进一步指出,NLP与材料科学的交叉将推动研究范式转型,实现从“经验驱动”到“知识-数据双驱动”的跃迁,为高通量实验与计算提供智能化决策支持。

文章链接:https://doi.org/10.1038/s41524-025-01554-0