[CL]《Graph-Native Reinforcement Learning

[CL]《Graph-Native Reinforcement Learning Enables Traceable Scientific Hypothesis Generation through Conceptual Recombination》S Pal, S Sourav, T Ghosal, M J. Buehler [MIT & Oak Ridge National Laboratory] (2026)

在材料科学与力学领域，跨尺度、跨学科的机制发现是一个悬而未决的难题。过去的大语言模型（LLM）虽然能生成流畅的科学假设，但本质上受困于线性文本推理的不可追溯性，导致其推理链条缺乏明确的实体关联与因果逻辑，难以验证中间步骤的可靠性。

本文的核心洞见是：将神经语言生成与符号化图结构深度融合，把推理过程转化为“图原生”的认知跳跃。通过群体相对策略优化（GRPO），模型被训练为执行一种分阶段的显式操作：先进行发散性头脑风暴，再抽象出机器可读的知识图谱并提取因果模体，最后合成假设。这种做法使原本模糊的“黑盒”推理变成了可检查、可重用的关系网络。

这项工作真正留下的遗产是证明了图原生强化学习能显著提升科学发现的可解释性与语义多样性。它为后来者打开的新门是利用“测试时计算”在有限的语义空间内实现超线性的概念重组（即发现跨学科的隐秘关联），但尚未跨过的门槛是确保生成的图结构在复杂物理约束下的绝对严谨性，以及实现完全闭环的自主实验验证。

arxiv.org/abs/2607.00924 机器学习人工智能论文 AI创造营

众力资讯网

[CL]《Graph-Native Reinforcement Learning

热门分类