大家好,今日必读的大模型论文来啦!

联发科提出「潜流 Transformer」

Transformers 是大语言模型(LLM)的标准实现方式,通常由数十到数百个离散层组成。虽然层数越多性能越好,但这种方法却被质疑效率低下,尤其是考虑到基于扩散和流的图像生成模型所展示的连续层的优越性。

在这项工作中,联发科团队提出了潜流 Transformer(Latent Flow Transformer,LFT),它用通过流匹配训练的单一学习传输算子取代了层块,在保持与原始架构兼容的同时,提供了显著的压缩效果。此外,他们还通过引入 Flow Walking(FW)算法,解决了现有基于流的方法在保持耦合性方面的局限性。

在 Pythia-410M 模型上,使用流匹配训练的 LFT 压缩了 24 层中的 6 层,性能优于直接跳过 2 层(LM logits 的 KL Divergence 为 0.407 vs. 0.529)),证明了这种设计的可行性。当使用 FW 进行训练时,LFT 进一步将 12 层压缩为 1 层,同时将 KL 降低到 0.736,超过了跳过 3 层的 KL(0.932),填补了自回归和基于流的生成范例之间的空白。

论文链接:
https://arxiv/abs/2505.14513

上海AI Lab提出「视觉代理强化微调」

大型推理模型(如 OpenAI 的 o3)的一个关键趋势是使用外部工具(如用于搜索的网络浏览器和用于图像处理的代码编写/执行)进行图像思考的原生代理能力。在开源社区中,虽然在函数调用和工具集成等纯语言代理能力方面取得了重大进展,但涉及真正用图像思考的多模式代理能力的开发及其相应基准的探索仍然较少。

在这项工作中,来自上海AI Lab 的研究团队及其合作者强调了视觉代理强化微调(Visual-ARFT)在实现大型视觉语言模型(LVLM)的灵活自适应推理能力方面的有效性。有了 Visual-ARFT,开源 LVLM 就有能力浏览网站以获取实时更新的信息,并编写代码,通过裁剪、旋转和其他图像处理技术来处理和分析输入图像。他们还提出了一个多模态代理工具台(MAT),它有两种设置(MAT-Search 和 MAT-Coding),旨在评估 LVLM 的代理搜索和编码能力。

实验结果表明,Visual-ARFT 在 MAT-Coding 上的 F1 +18.6% / EM +13.0%,在 MAT-Search 上的 F1 +10.3% / EM +8.7%,超过了 GPT-4o。Visual-ARFT 还在 2Wiki 和 HotpotQA 等多跳 QA 基准上实现了 +29.3 F1% / +25.9% EM 的提高,展示了优秀的泛化能力。

论文链接:
https://arxiv/abs/2505.14246

General-Reasoner:在所有领域推进 LLM 推理

目前的大语言模型(LLM)推理研究主要集中在数学和编码领域,限制了其在更广泛领域的适用性和通用性。这是因为在这些领域中,问题往往有不同的答案表示,数据也更为稀缺。

在这项工作中,来自滑铁卢大学和 Vector Institute 的研究团队提出了一种新的训练范式“通用推理机”(General-Reasoner),旨在增强 LLM 在不同领域的推理能力,主要贡献包括:(1)构建了一个大规模、高质量的问题数据集,该数据集通过网络爬虫整理出可验证的答案,涵盖了广泛的学科领域;(2)开发了一个基于生成模型的答案验证器,它以思维链和上下文感知能力取代了传统的基于规则的验证。

对 12 个基准(如 MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH 和 MATH AMC)进行的综合评估表明,General-Reasoner 优于现有基准方法,在数学推理任务中保持高效的同时,还实现了鲁棒和可泛化的推理性能。

论文链接:
https://arxiv/abs/2505.14652

斯坦福团队推出「通用用户模型」架构

从我们的偏好和习惯,到我们日常行为的时机和目的,人机交互技术一直被认为是能够理解我们的技术。然而,目前的用户模型仍然是碎片化的,狭隘地为特定应用程序量身定制,无法实现这些愿景所需的灵活推理。

在这项工作中,来自斯坦福大学的研究团队及其合作者提出了“通用用户模型”(GUM)架构,它可以通过观察你与计算机的任何交互来了解你。例如,GUM 可以从用户与朋友的信息中推断出用户正在为参加婚礼做准备。GUM 引入了一种架构,可以从多模态观察中推断出关于用户的新命题,检索相关命题的上下文,并不断修正现有命题。

为了说明 GUM 能够支持的应用范围,他们演示了 GUM 如何利用上下文增强基于聊天的助手、管理操作系统通知以有选择性地显示重要信息,以及支持交互式 agent 以适应跨应用程序的偏好。他们还实例化了主动式助手(GUMBOs),它们使用 GUM 代表用户发现并执行有用的建议。在评估中,GUM 能够对用户做出准确的推断,而且基于 GUM 的助手能够主动识别并执行用户不会明确要求的操作。

论文链接:
https://arxiv/abs/2505.10831

Robin:「科学发现自动化」多 agent 系统

科学发现是由背景研究、假设生成、实验和数据分析等迭代过程驱动的。尽管最近在将人工智能(AI)应用于科学发现方面取得了进展,但还没有系统能够在单一工作流程中自动完成所有这些阶段。

在这项工作中,FutureHouse 团队提出了第一个能够将科学过程中的关键智力步骤完全自动化的多 agent 系统——Robin,其通过整合文献搜索 agent 和数据分析 agent,可以生成假设、提出实验建议、解释实验结果并生成更新的假设,从而实现半自主的科学发现方法。

通过应用这一系统,他们找到了治疗干性老年性黄斑变性(dAMD)的新方法,而 dAMD 是人们失明的主要原因。Robin 提出将增强视网膜色素上皮细胞的吞噬功能作为一种治疗策略,并确定和验证了一种很有前景的候选治疗药物——ripasudil,这是一种临床上常用的Rho激酶(ROCK)抑制剂,以前从未被提议用于治疗 dAMD。为了阐明 ripasudil 诱导吞噬作用上调的机制,Robin 随后提出并分析了后续的 RNA-seq 实验,结果发现了 ABCA1 的上调,ABCA1 是一种关键的脂质外流泵,也可能是新的靶点。

据介绍,该论文中的所有假设、实验计划、数据分析和数据图表均由 Robin 完成。作为首个在迭代式“lab-in-the-loop”框架内自主发现和验证新型候选疗法的人工智能系统,Robin 为人工智能驱动的科学发现建立了一个新范式。

论文链接:
https://arxiv/abs/2505.13400

微软推出大型混合推理模型 LHRM

与大语言模型(LLM)相比,大型推理模型(LRM)通过在生成最终响应前加入扩展的思考过程,提高了推理能力。但是,过长的思考过程会在 token 消耗和延迟方面带来大量开销,对于简单查询来说尤其没有必要。

在这项工作中,微软团队提出了大型混合推理模型(LHRM),这是一个可以根据用户查询的上下文信息自适应地决定是否进行思考的模型。为此,他们提出了一个两阶段的训练管道,包括作为冷启动的混合微调(HFT),以及使用混合群组策略优化(HGPO)的在线强化学习,从而隐式学习选择适当的思考模式。此外,他们还提出了一个名为“混合精度”(Hybrid Accuracy)的指标,用于定量评估模型的混合思维能力。

实验结果表明,LHRM 可以自适应地对不同难度和类型的查询进行混合思考。它在推理和通用能力方面优于现有的 LRM 和 LLM,同时提高了效率。

论文链接:
https://arxiv/abs/2505.14631

微软推出「奖励推理模型」RRM

奖励模型在引导大语言模型(LLM)输出符合人类期望的结果方面发挥重要作用。然而,如何有效地利用测试时计算来提高奖励模型的性能仍然是一个公开挑战。

在这项工作中,微软团队提出了奖励推理模型(Reward Reasoning Models,RRM),其专门用于在生成最终奖励之前执行深思熟虑的推理过程。通过思维链推理,奖励推理模型可以利用额外的测试时计算来处理复杂的查询。为了开发 RRM,他们推出了一个强化学习框架,其无需明确的推理轨迹作为训练数据,就能培养自进化的奖励推理能力。

实验结果表明,RRM 在不同领域的奖励建模基准上都取得了很好的性能。值得注意的是,RRM 可以自适应地利用测试时计算来进一步提高奖励的准确性。

论文链接:
https://arxiv/abs/2505.14674