自己的原文哦~        https://blog.51cto/whaosoft/14058599

#李沐B站更新了!

教你手搓语音大模型,代码全开源还能在线试玩

这一天,辣个男人终于回想起……他的小破站账号!(活久见)

李沐老师终于带着他的手搓语音大模型教程回归了….

本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。

,时长02:10

除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

整个过程堪称“大力出奇迹”,直接将1000万小时的语音数据整合到LLM的文本训练,让它能听也能说。(当然还有亿点点细节)

粗暴,但有效!

鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果be like:

,时长00:27

网友:醒醒,开组会了。

沐导今日组会内容速记

传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。

那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为系统指令(system)用户输入(user)模型回复(assistant)三个部分。

system告诉模型,需要做什么事情,例如回答该问题、写一段文字或者其他,user就是告知事情的详细内容,例如问题具体是什么、文字要什么风格。

所以如果要让模型支持语音,就需要为模型增加一个系统命令,在user里输入要转录为语音的文字,让模型从system里输出对应语音数据。

这样语音任务就能转换成相同的处理格式,直接打通语音和文本之间的映射,通过追加更多的数据和算力,直接scaling law“大力出奇迹”。

这就引出了新的问题,语音信号本质是连续的,要如何才能在离散的文本token中表示呢?

现有的方法是将一秒的语音信号裁切成多段(如100毫秒一段),为每一段匹配最相似的预定义模板(如45个模板),然后将其表示为长度为10的编号序列,也就是一个个token。

但这样做,虽然可以将一小时的音频从60兆压缩到0.16兆,但质量相当糟糕,所以需要优先保留语音的语义信息,而声学信号只保留少量部分,后续再通过其他手段还原。

于是他们训练了一个统一的离散化音频分词器,以每秒25帧的速度运行,同时保持甚至提高音频质量,以捕获语义和声学特征。

然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。

由于版权问题,沐导没有使用B站或YouTube这类公开视频网站数据,而是购买或从允许抓取的网站获取。

这样得到的数据质量参差不齐,需要删除其中的90%才能满足1000万小时的训练数据需求。

其次,将语音对话表示为相应的system(场景描述、声学特征、人物特征等)、user(对话文本)、assistant(对应音频输出)的形式。

由于OpenAI和谷歌一向禁止使用他们的模型输出再训练,且训练成本过高,为了实现这种标注,他们利用相同的模型架构额外训练出一个语音模型AudioVerse

该模型接收用户语音输入,分析并输出场景、人物、情绪、内容等信息,再将输出反过来作为生成模型的system提示和user输入,实现模型的共同进步。

举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。

,时长02:14

最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。

还能根据语音分析场景、人物(性别、年龄、情绪状态)、环境音(室内外),并进行复杂的理解和推理。

在实时语音聊天上,还可实现低延迟、理解情绪并表达情绪的自然语音交互,而不仅仅是机械的问答。

EmergentTTS-Eval基准上,相较于其他模型,性能可以说是遥遥领先,尤其是在“情绪”和“问题”类别中,相比GPT-4o-mini-tts高出了75.7%和55.7%的胜率。

此外,它在Seed-TTS Eval和情感语音数据集 (ESD) 等传统TTS基准测试中也取得了最佳性能。

那么,我们能玩吗?相信同学们都已经跃跃欲试了。

放心,沐导都包圆了,模型代码都已全部发布在GitHub(可点击文末链接获取~),并提供了在线试玩平台和Hugging Face版本。

想要安装在自己电脑上的同学,需要准备好GPU版Pytorch,或使用media驱动提供的Docker简化安装,readme里还有一些语音样例(包含文本和对应的音频),大家可以自行体验学习。

尤其是喜欢搞搞鬼畜视频、虚拟主播的同学们,这个模型一定要试试,它可以直接复制特定人物的声音。

不过温馨提醒,生成特定场景的文本时,最好提供类似场景中人物说话的语音信息(例如吵架、放松、大笑的语音),可以更好地进行声纹克隆嗷~

断更的日子里,沐导干嘛去了?

在小破站消失的这段时间里,沐导也没闲着,他创业的公司正在如火如荼先后推出多项新产品。

但还是先给不了解沐导的新同学们,简单介绍一下沐导和他的公司Boson AI

李沐其人,小破站AI科普只是副业(即将达成百万粉丝成就,同学们点点关注,冲鸭!),本职还是个正儿八经的AI技术专家。(小声说:我们量子位在B站也有账号嗷~欢迎来一键三连)

本科毕业于上海交大,曾在百度担任高级研究员,卡耐基梅隆大学博士毕业后成为亚马逊的资深首席科学家,现在又和自己的导师一起创办了人工智能公司Boson.ai。

开发了著名的深度学习框架MXNet,还是那本AI必读经典《动手学深度学习》的作者之一。

其创办的Boson.ai主要涉及LLM研发,早前推出的开源模型Higgs - Llama - 3 - 70B,基于Llama 3打造,做了完整的SFT、RLHF,不仅能在复杂角色扮演任务上表现优异,在通用领域的指令遵循和推理方面也颇具竞争力。

今年4月,Boson.ai还推出了Higgs Audio UnderstandingHiggs Audio Generation两个工具,可以为不同音频理解和生成需求构建定制AI Agent。

5月份,还发布了一个专门设计用于评估 TTS 系统在复杂场景下表现的综合基准——EmergentTTS-Eval,涵盖情感表达、非语言线索、语法复杂性等六个关键维度的挑战场景,并采用 “模型即评判者” 的创新评估框架。

……

只能说,沐导人是真忙,还愿意抽空来教同学们手搓新玩具,泪目TT

所以,沐导咱下一个视频什么时候发呀?(doge)

视频教程:https://www.bilibili/video/BV1LGbozkEDY/?spm_id_from=333.337.search-card.all.click&vd_source=4075efdd29cbc7a407952a778f815fd3

模型代码:https://github/boson-ai/higgs-audio

参考链接:
[1]https://www.boson.ai/blog/higgs-audio

#Vibe Coding

Vibe Coding爆火,YouWare靠「社区+产品思路」突围

任何足够先进的科技,都与魔法无异。—— 亚瑟・克拉克,科幻小说作家、发明家

AI 时代,一种名为「Vibe Coding」(氛围编程)的「魔法」已然兴起。

在近期 AI 行业巨头的一场备受争议的收购案中,这股浪潮的热度达到了一轮高潮:AI Coding 创业公司 Windsurf 在早已传出将被 OpenAI 收购之际,却被谷歌 DeepMind 以 24 亿美元出价挖走了其核心创始团队与核心技术人才。这场巨头间围绕 AI Coding 人才和技术的激烈博弈,将整个行业的目光都聚焦到了正日益走向主流的 Vibe Coding 上。

Vibe coding 最早由 OpenAI 联合创始人、前特斯拉 AI 负责人 Andrej Karpathy 于 2025 年 2 月提出,它描述了一种全新的创作方式:你几乎可以忘记代码的存在,完全沉浸在与 AI 对话的氛围中。你只需向 AI 提出创意和需求,然后「全部接受」它的方案;遇到报错,也可让 AI 自己解决这些问题 。

今年 6 月,传奇音乐制作人 Rick Rubin 在和 Anthropic 合作的新书《The Way of Code》中,将「Vibe Coding」和《道德经》的理念融合,强调直觉、即兴和创意的自由流动。网络上也广为流传着一张 Rick Rubin 带着耳机闭眼创作的 meme,用于形容今天 Vibe Coder 人群画像,当然这里面有些调侃意味(虽然 Rick Rubin 作为 JayZ、Timberland、Adele 等欧美一线歌手的顶级制作人,他其实并不会任何乐器,某种程度暗合了今天的 Vibe Coder 不需要会写任何代码)。

但如果仅仅将 Vibe Coding 理解为一种更低门槛的编程方式或工具,便会错失其更深远的革命性。Vibe Coding 本质上是一场人机创作关系范式的变化,带来的潜在价值,是赋予普通人更大的创作能力,满足甚至自己都未曾重视的需求。

在传统编程中,人与机器是「主动与被动」的关系,程序员必须主动下达逻辑严谨的精确指令,机器只能被动做出在指令和能力边界以内的动作,下达指令的人往往只是部分技术精英。而 Vibe Coding 则将这种关系重塑为「协作与互动」,就像「导演与摄影师」的关系,同时「普通人也可以当导演」,只要你脑海里有一个好剧本,AI 就是一个技艺卓绝和自我迭代的摄影师,负责将核心创意转化为精准的镜头语言 —— 构图、光影和色彩。导演与摄影师不断碰撞、即时调整,是一种更贴近人类创意的本质,相互激发的动态过程。

这种变化,正将「代码」这一曾专属于少数技术精英的工具快速推向普罗大众。然而,当人人都能念出「魔法咒语」,一个核心矛盾也随之浮现:当 AI 以前所未有的效率和质量生成新的内容形式,我们却还缺少一个原生的、优雅的载体去承载和分享它们。

这正是 YouWare 创始人明超平第一时间敏锐洞察到的。

2025 年 3 月初的一个晚上,他在 𝕏 上看到:许多用户正通过「录屏」这种略显笨拙的方式,分享自己用 Grok 3 生成的游戏,他猛然意识到一个巨大的断层(Gap): AI Coding 所生产的作品与传统的社交媒体平台并不兼容。这必然需要一个新的载体。」

在此基础上,明超平还做出了另一重要判断:Vibe Coding,不只需要创造更好更强的 AI 模型和工具,更需要构建一个能让创意自由流动、互相激发的「社区」。

在创立 YouWare 之前,1995 年出生、毕业于武汉大学自动化专业的明超平,有过 OnePlus、字节跳动、月之暗面三段工作经历,横跨了智能硬件、亿级规模用户超级 APP 和 AI 独角兽。

在 OnePlus,他构建了对用户需求、产品审美、社区打造的最早认知;在字节剪映,他将这些认知与科学方法论相结合,学会了用数据驱动做产品的快速迭代;而在月之暗面,理工科的背景和足够靠近 C 端的产品打造经验,让他很快成为与顶尖研究者高效对话的 AI 产品人,并获得了基于模型未来发展预判来设计当下产品的技术视野。

这种融合了用户理解、科学方法和技术视野的复合背景,也成了 YouWare 今天在解 AI 应用这道难题时的优势。

YouWare 的解法:为创作者构建社区

独自一人,我们能做的很少;团结一致,我们能做到很多。—— 海伦・凯勒,作家

体验过 YouWare 的产品就会发现,其每一个功能设计都指向:如何让创作者的创意快速实现以及让创意持续裂变,进而形成一个更有活力的社区。

在模型能力、工程效率的背后,如何打造有活力的社区,YouWare 的做法其实处处体现着「产品经理思维」。

要简单,也要强大

好的产品,应当是直觉式的,「傻瓜」都能用。

对于普通的用户来说,不需要看到产品背后的模型、参数、跑分,你只需要给其结果和体验。

YouWare 首页是简单低调的界面,一个对话框。只需要在对话框内用自然语言描述想法,看不见一个代码,就能生成可分享作品。

官网地址:https://www.youware

但光简单还不够,还要足够强大。

随着大模型能力的提升,AI Agent 的实力也在迅速进化。能否让 Vibe Coders 在 YouWare 平台创作的应用,同时具备 Agent 能力?AI App Generator 应运而生:用户现在只需一段提示词,就能生成具备 AI 驱动能力的应用,例如生成一个「Voxel 风格化图片生成器」。过程中无需任何 API 配置或个人密钥,就能调用多种主流模型。

,时长01:07

用户 Noah 制作的「Voxel 风格化图片生成器」

目前业内只有 Poe 和 Claude 拥有类似能力。Poe 的前端仍是传统聊天机器人形态,而 YouWare 则能直接生成可交互的应用。Claude 的 Artifact 只能使用自家模型;YouWare 则包括了 OpenAI、Claude、Gemini 和 DeepSeek 等主流大模型,为用户提供了最大的可能性。

类似的简单和强大也体现在 YouWare 最近发布的一款 VS Code 和 Cursor 插件上,让广受程序员欢迎的 IDE(集成开发环境)也拥有了一键部署网页的能力。用户只需在插件市场安装它,完成授权登录之后点击「Publish Project」,即可将自己编写的 HTML 和 React 项目发布到 YouWare。

通过将最先进的模型能力和复杂工程细节完全封装,让用户更「随心所欲」地创作,正是 YouWare 社区打造的第一步。

制造体验爽点

打造产品,并不全是从零到一、从无到有式的颠覆创新。很多时候,真正让用户上瘾的,是那些看似微不足道的细节体验。

当明超平发现有一个韩国用户一天能将 Boost 功能使用 60 多次之后,更验证了他自己的一些判断:一些小而有趣的体验,能成为用户的「爽点」。

Boost(一键美化)是 YouWare 平台上类似 Instagram 滤镜的功能,能将一个粗糙的「草稿」快速提升为更具美感的作品。现在成了最受欢迎的功能之一,尤其深受日韩用户喜爱。

Boost 前后的「时间旅行穿搭顾问」对比

又比如,相较于社交平台对作品点赞单一评判按钮,YouWare 采用了 emoji 表情的互动机制,更能营造一种友好的互动氛围。

YouWare 用户可使用 emoji 表达对项目的态度

以创作者为中心

YouWare 团队与社区创作者保持着高频的互动。

当洞察到许多创作者渴望打造能调用 AI 的应用,但在实践中却普遍遭遇了获取 API Key 的难题,包括申请和配置 Key 的繁琐、可能暴露 Key 的风险、成本高后,YouWare 迅速开发了 AI App Generator,解决了这些问题并做努力做到更多,提供多个主流的大模型,并且支持生文和生图。

这就向社区传递出了一个明确信号:YouWare 是一个愿意与用户共创的社区。当用户知道自己的声音能被听见并且会得到快速响应时,他们也必定更愿意参与进来。上线 4 个多月,YouWare 汇集了 10 万个很有创意的 Vibe Coder,积累了 30 万个项目。

上下滑动查看

用「玩」抵达那些尚未被发现的需求

玩,是最高形式的研究。—— 阿尔伯特・爱因斯坦,物理学家

过去一个月,YouWare 诞生了一个爆款案例:互动式生日贺卡。此前,谁也没想到一张生日贺卡还能变成一个可分享、可互动的网页。但当创作者将其分享到 TikTok 后,视频迅速走红,随即引发连锁反应,大量用户开始用 YouWare 来制作生日贺卡、浪漫情书、周年纪念贺卡。

用户 Mayz 制作的生日贺卡,https://www.youware/project/pcg3u1p14y

相较于传统编程,Vibe Coding 更贴近普通用户。打造创作者氛围浓郁的社区,让用户玩起来,本质上就是更切实地摸到普通用户的真实需求;而越尊重创作者的社区氛围,就越能夯实这个创意到需求裂变的链条。7 月 22 日, YouWare 在 Product Hunt 日榜拿到了第一,再次印证了这个团队摸到了 Vibe Coding 突围的门路。

在试玩过程中,xx打造了一个「未来生活签证系统」。

提示词:

创建一个「未来生活签证系统」网页应用:用户需通过一场拟真的「未来生活移民面试」,最终获取通往某个未来社会的居住许可。整个体验包括问答、选择题、人格测试、结果生成以及签证样式展示。

第一步,点击 Create 后,YouWare 会自动给出增补建议,可根据自身需求选择是否接受或修改这些建议。

这里我们就使用原始提示词继续推进,以下视频(有加速)展示了工作的全过程。

,时长01:30

在输入提示词后,YouWare 并没有直接开始闷头执行:它首先深度分析了我们的意图,然后将我们的构想清晰地拆分成了一张 To-Do List(任务清单),让我们能清晰地看到 AI 的思考路径,并对最终结果产生稳定的预期。

确认任务清单后,YouWare 的编程智能体便开始了工作。

数分钟后,一个功能完整的「未来生活签证系统」原型诞生,此时的原型虽已可用,但还略显朴素,接下来只需一键 Boost 就能将其变成更有设计感的产品。

Boost 前后对比

作品完成后,点击发布就步入了 YouWare 的社区广场。

YouWare 提供了两种分享形式:一是全屏短链接,适合直接分享;二是 YouWare 社区链接,作品拥有了社交属性,任何人都可以通过 emoji 表达看法、评论和建议,也可让其他用户 Remix。

在体验过程中,我们最大的感受是 YouWare 并非一个冰冷的指令执行工具,而更像一个能力全面、善解人意且品味在线的创意伙伴;它简单高效,并且愿意最大限度地把控制权交还给创作者。

AI 的下半场

产品经理重回舞台中央

剑之利,在于执剑之人。—— 西方谚语

魔法的兴起,也要有善于使用魔法的人。

过去几年 AI 发展主要聚焦于模型参数,行业的聚光灯无疑打在了科学家和研究者身上;现在,当 AI 技术本身日益商品化,当强大的模型能力通过 API 变得触手可及,一个关键的转折正在发生。

YouWare 的实践也揭示了一个重要的趋势:AI 下半场,「应用 AI 技术」的产品能力将变得和「创造大模型」的能力一样重要。

这亟需新一代的 AI 产品人承担起责任,他们将负责定义「什么问题值得被 AI 解决」并以最符合人性的方式给出答案。

未来已来时,它不在云端的参数里,也不在遥远的奇点中,当单纯的技术狂热逐渐退潮,那些真正回归用户、构建生态、创造价值的产品,才是 AI 带来的最值得期待的变革。

YouWare 官方正在举办的 AI APP 挑战赛,用真实的活动激励着社区的进一步繁荣。感兴趣的读者可不要错过(截止时间 7 月 31 日)。

#Your LLM Knows the Future

苹果新工作让LLM预测未来,五倍推理加速,激发自回归潜能

近年来,语言模型的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性。

在这种自回归的训练框架中,每一个 token 都作为其前文上下文的预测目标。

这一方法无需显式标注,使得自回归模型在训练阶段具有明显优势,因而成为主流范式。

然而,在推理阶段,自回归生成本质上是顺序执行的,计算开销大,因为每一步解码都需要完整地运行一次模型。相比之下,人类在表达时常常会先在句子层面组织思路,再逐词输出。

那么在大模型推理阶段,能否让大模型摆脱单个 token 顺序预测的瓶颈,也和人类的逻辑一样,从更大层面考虑输出内容呢?

假如能够打破自回归模型的顺序执行本质,就产生了如网友所说的「具有时间跳跃能力的 LLM」。

受到启发,苹果的研究人员为此展开思考,借助类似策略,开发了一个框架,使预训练的自回归大型语言模型能够执行多 token 预测,在保持生成质量的同时,为代码和数学任务提供高达 5.35 倍的推理加速,以及为一般任务提供约 2.5 倍的推理加速。

AI 工程师 Jackson Atkins 认为这是一项具有开创性的工作,「最令人兴奋的是这一切都可以通过对现有模型进行 LoRA 微调实现」。

想象一下,将 AI 运行成本削减数倍,或是在轻量设备上流畅运行强大的实时助手,这对推理优化而言是一次颠覆性的变革。

如果你手中有一个运行速度提升 5 倍的大语言模型,第一件事会做什么?

论文标题:Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential

论文链接:https://www.alphaxiv/abs/2507.11851

首先探讨一个基本问题:语言模型能否在单个推理步骤中生成多个 token?

令人鼓舞的是,答案是肯定的。

现有的推测解码研究已经探索了这个方向以加快生成速度。推测解码方法利用一个草稿模型生成多个 token,然后通过一个验证器检查它们与标准自回归输出的一致性。虽然这种方法提供了加速,但它仍然根本上依赖于自回归生成。

在这项工作中,研究者们提出了一个更深层次的问题:我们能否训练真正非自回归的语言模型?

研究者们通过设计完全非自回归的训练算法来探讨这一问题,例如基于扩散机制的语言模型。然而,此类方法通常需要构建全新的建模与训练流程。

于是研究者们进一步提出一个问题:是否可以在尽可能少改动的前提下,适配现有的自回归训练与推理框架?目标是实现在保留自回归模型核心优势的同时,实现高效的多 token 生成。

为进一步论证这一点,研究者们首先观察到,自回归模型虽然并未明确针对未来 token 进行训练,但实际上已经在一定程度上编码了关于未来 token 的信息。

例如,给定提示词 “what is two plus two?”,一个预训练模型在标准自回归解码过程中通常会生成 “two plus two equals four”。为了检验模型是否具备对未来 token 的感知能力,研究者们在提示后添加占位 token(图中以 ↔ 表示),并分析输出的 logits,如图 1 (左)所示。

令人惊讶的是,未来 token 的正确序列出现在前 200 个 logits 中,说明模型在某种程度上已隐含地掌握了即将生成的 token 信息。

图 1:自回归模型能够隐式预判未来的 token。

基于上述观察,研究者们进一步探究能否引导模型发挥其潜在能力,从而更好地组织对未来 token 的预测。

为此,研究者在提示词末尾引入若干 mask token,并对模型进行训练,使其能够直接预测这些 token。如图 1 (中)所示,经过微调后的模型能够将正确的 token 提升至前 10 个 logits 中。

最后,为生成连贯的多 token 输出,研究者们引入了一个轻量级的采样模块:一个两层感知机(two-layer perceptron),该模块在预测每个 token 时,结合先前已采样出的 token 作为条件,具体结构如图 1 (右)所示。

与之前的一些方法不同,本文训练模型填充 mask token,以预测未来 token。该模型在推理这些 token 时,充分利用了自身的全部深度与表示能力,并结合整个序列的上下文信息,从而在效果上显著优于现有的多 token 预测方法。

此外,得益于一种简单而有效的技术 —— 门控 LoRA 适配(gated LoRA adaptation),本方法在生成质量上无任何下降。

在较为轻量的监督微调下,研究者们相较于传统回溯式生成模型实现了加速效果。如图 2 所示,在 Tulu3-8B 模型基础上微调以预测 8 个额外 token,即可获得显著性能提升。

图 2:在通过监督微调训练门控 LoRA 和采样头后获得的加速效果。

方法

为在尽量减少重新训练的前提下实现多 token 生成,引入了一类特殊的 token,称为 mask。设原始序列为 X = [x1, …, xn],基本思路是在该序列末尾附加 k 个唯一的 mask token,从而构造出扩展序列 Xm = [x1, …, xn, m1, …, mk]。其中,mask token [m1, …, mk] 的表示向量被初始化为随机向量,并添加至模型的嵌入表中。

在本文中,将模型对标准下一个 token 的预测称为 NTP(Next Token Prediction),而对 mask token 的预测称为 MTP(Mask Token Prediction)。

本文所提出的 MTP 模型的整体架构如图 3 所示,其中展示了在微调时使用 k=2 个 mask 的模型在推理阶段的工作流程。在图中 box-1(左上角),扩展后的序列 Xm 被输入至解码器,模型生成的潜在表示中,[z1, …, zn] 对应于 NTP token 的表示,而 [zn+1, …, zn+k] 则对应于 MTP token 的表示。

图 3:MTP 模型的组成部分。框 1(左上)显示了带有门控 LoRA 参数的自回归模型。框 2(左下)说明了采样头。框 3(右)展示了门控 LoRA 模块的框图。

图中 框 2(左下)展示了采样器头(sampler head)的结构。第一个(NTP)token 通过标准的反嵌入层(unembedding layer)以自回归方式生成,即由 z_n 预测出 y_n+1。而剩余的(MTP)token 则由采样器模块依次生成。在每一步中,采样器根据 z_n+k+1 与前一个已生成的 token y_n+k 来预测 y_n+1+k,确保每个生成的 token 同时融合模型的潜在表示与先前已采样的 token 信息。

为了在微调时保留预训练模型的行为,研究者们在解码器层中引入了门控 LoRA 模块(gated LoRA)。微调过程中,仅更新 LoRA 参数与采样器头参数,原始解码器权重保持冻结状态。门控 LoRA 模块通过对 NTP 与 MTP token 分别采取不同的计算路径,确保微调过程不会影响 NTP token 的生成行为,如图中 框 3(右侧)所示。该差异通过引入二进制 mask 实现,二进制 mask 被作为额外输入传入解码器层。

详细的模型训练过程请参阅原论文。

实验

研究者们在 Tulu3-8B SFT 模型上开展了实验。该模型属于 LLaMA-3 系列,并基于 Tulu3 数据集进行了有监督微调。

生成质量评估

研究者们首先在微调过程中跟踪了模型的准确率变化。由于所用模型为 SFT 模型,其对额外训练非常敏感。图 6 (a) 展示了模型在 ARC-Challenge 基准上的 zero-shot 准确率,该评估通过 Harness 库完成。

如图 6 (a) 中的虚线所示,gated LoRA 能够保持准确率稳定,原因在于其保证了 NTP token 的输出不会受到微调影响。

如图 6 (b) 中所示,在标准 LoRA 与 gated LoRA 两种训练方式都实现了有效的收敛。

接下来,研究者们在图 6 (c) 中分析了 NTP token 上的交叉熵损失,该指标与生成质量直接相关。如图所示,使用标准 LoRA 训练的模型,其 NTP 损失呈上升趋势,表明生成质量逐渐下降。相比之下,采用 gated LoRA 的模型在整个训练过程中保持了几乎恒定的 NTP 损失,这是因为在 gated LoRA 机制下,梯度不会在 NTP token 上传播,从而有效避免了对原始生成能力的干扰。

图 6:使用标准 LoRA 和门控 LoRA 适配器训练的模型收敛性分析。

加速能力分析

为了评估所提方法在生成速度上的提升,研究者们采用了自推测解码算法(self-speculative decoding)。

实验最多运行 100 个生成步骤,若模型在第 100 步之前生成了句子结束符(end-of-sentence token),则提前终止生成过程。设总生成步骤数为 T,总生成 token 数为 G,则计算接受率(acceptance rate)为 G/T。该指标反映了模型平均每一步生成多少个被接受的 token,进而衡量所提方法带来的加速效果。

接受率的理论最小值为 1,因为每一步至少会生成一个 token(即标准的下一个 token 预测)。最大理论值为 k+1=9,其中 k=8 是训练时使用的 mask token 数量。

表 1 报告了模型在五个不同任务领域下的接受率,包括:知识问答、数学、编程、对话和安全。

如表所示,所提出的多 token 生成算法在不同任务上实现了约 1.5 到 5.2 倍不等的加速,具体取决于任务类型及插入的 mask 数量。值得注意的是,在编程和数学任务中,加速效果更为显著,可能是因为这些领域中未来 token 的可预测性较高。

表 1:Tulu-3 在不同领域中通过多标记预测获得的加速。

消融实验

表 1 中的结果对应于本方法的最优配置,包含以下三个关键组件:

(1)使用采样器 MLP 头(sampler MLP head);

(2)训练过程中引入 LCM 损失(LCM loss);

(3)生成阶段采用二次解码算法(quadratic decoding algorithm)。

研究者们对各个组件的贡献进行了消融实验。

图 7: MTP 模型的简单配置和最先进配置所达到的平均加速效果。基础版本使用线性解码,不包含 LCM 损失或采样头,而高级版本则包含 LCM 损失、采样头和二次解码。

研究者们训练了多个不同 LoRA 秩的模型,以进一步探索其影响。图 8 总结了相关结果:左侧与中间子图分别展示了在未使用与使用采样器头的条件下的接受率;右侧子图则展示了采样器头与 LoRA 参数所带来的显存开销。

图 8:LoRA 秩的影响:无采样头加速(左),带采样头加速(中),以及 LoRA 和采样头的内存开销(右)。

总结

研究者们评估了自回归模型在语言模型有监督微调阶段对多 token 预测任务的适应能力。未来值得探索的一个方向,是在预训练阶段或下游任务自适应阶段引入该方法,以进一步检验其适用性与效果。另一个具有前景的研究方向是将基于扩散的生成方法应用于多 token 预测任务。研究者们认为,多 token 预测位于完全自回归生成与完全扩散生成之间,能够在两者之间取得优势的平衡,兼具效率与质量的潜力。

#From Passive to Active Reasoning

大模型能在信息不完备的情况下问出正确的问题吗?

大语言模型(Large Language Model, LLM)在复杂推理任务中表现卓越。借助链式思维(Chain-of-Thought, CoT),LLM 能够将复杂问题分解为简单步骤,充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力,尤其是数学推理和代码生成。

然而,当前针对 LLM 推理能力的研究主要集中于被动推理(Passive Reasoning, PR),即在提供完整信息的前提下让模型进行推理。相比之下,对信息不完备场景下模型推理能力的研究明显不足。

这类场景在实际应用中十分常见,例如侦探需要通过询问和走访获取破案线索,医生需要通过问诊收集诊断依据。我们将这类需要主动获取信息的推理称为主动推理(Active Reasoning, AR)。

目前关于 AR 的方法和基准研究较少,探索不足,制约了 LLM 在复杂现实场景中的应用。如图 1 所示,被动推理是直接从给定的充分信息中求解,而主动推理则需要从不完整的信息出发,通过多轮交互来获取关键线索,最终得出结论。可以说,被动推理的核心是找到答案,而主动推理的核心是提出正确的问题。

图 1 被动推理(左)与主动推理(右)的示意图。

尽管主动推理对实现通用人工智能至关重要,但目前学术界对此关注甚少,LLM 在这方面的能力也亟待一个系统性的评估。为此,我们提出了 AR-Bench,一个旨在全面评估大模型主动推理能力的基准,并进行了一系列深入的实验分析。

我们的主要贡献有如下三点:

新问题:我们提出了主动推理这一亟待研究的新问题,并系统定义了其相对于被动推理的核心挑战。

新基准:我们提出了专门用于评估主动推理能力的基准 AR-Bench ,系统的测试模型在复杂场景中的主动推理能力。

新发现:我们通过在 AR-Bench 上的全面评测,揭示了当前顶尖 LLM 在主动推理方面的普遍且严重的短板,并指出了未来的研究方向。

接下来,我们将简要介绍 TMLR 课题组和斯坦福大学合作的 AR-Bench,并展示我们从广泛地测试实验中提取出来的重要发现,相关论文已发表于 ICML 2025 会议。

  • 论文标题:From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?
  • 论文链接:https://arxiv/abs/2506.08295 
  • 代码链接:https://github/tmlr-group/AR-Bench

新问题:主动推理

传统的 LLM 推理研究,如 CoT,大多遵循被动推理的范式。在这种范式下,模型接收一个包含所有必要信息的问题,然后逐步地推导出最终答案。然而,现实中许多场景都存在着信息不完整的情况。以医疗诊断为例,医生需要通过与患者互动主动获取症状、病史等关键信息,而非被动接收完整数据。这类信息不完整的场景要求 LLM 通过提问、信息探索和动态交互来补充缺失信息,最终完成推理任务。

我们将这种推理范式定义为主动推理。在 AR 范式下,模型仅获得部分信息,并且必须通过与外部环境(如数据库、API 或人类用户)的交互来主动提问,以获取缺失的关键信息来解决问题。AR 综合了提问、检索和迭代推理,是一个更全面、更动态、更具挑战性的问题解决框架。

对主动推理问题的探索,有助于我们更好地理解和提升 LLM 在真实、复杂场景下的智能水平,推动其从一个被动的文本处理器,转变为一个能够主动解决问题的人工智能体。

图 2 PR 要求模型通过一步步推理从给定的问题得到正确答案,而 AR 要求模型分析当前任务,提出一系列关键的问题来获取重要信息,并利用这些信息得到正确的答案。本质上,PR 的核心要求是根据问题得到正确答案,而 AR 的核心要求是提出正确的问题来获取关键的信息。

新基准:AR-Bench

为了系统地评估和衡量 LLM 的主动推理能力,我们构建了 AR-Bench (Active Reasoning Benchmark)。AR-Bench 旨在模拟真实世界中的信息获取场景,它包含三个不同类型的任务,分别对应三种核心的推理能力:

侦探案件 (Detective Cases, DC): 模拟刑事案件调查,模型需要通过提问来搜集线索、分析案情,考验其常识推理能力。

情景谜题 (Situation Puzzles, SP): 也被称为 「海龟汤」,模型需要通过 「是 / 否」 问题来揭开一个看似矛盾或离奇情景背后的真相,考验其逻辑推理和发散思维能力。

数字猜谜 (Guessing Numbers, GN): 经典的主动推理游戏,模型需要根据反馈猜测一个由不重复数字组成的四位数,考验其符号推理能力。

图 3 AR-Bench 中三种任务的示例。

我们的评估框架采用多轮交互范式,其中提问方 LLM 与扮演信息源的 「回答者」 智能体进行动态对话。该评估体系包含两个维度:

1) 结果评估:在 DC 和 GN 任务中判断模型结论与标准答案的匹配度,对于开放式问题 SP 则采用 F1-Score 衡量回答相似度;

2) 过程评估:基于预设关键问题(Key Questions),通过 LLM-as-a-judge 方法以交互轮次为粒度评估对话是否有效解决关键问题(适用于 DC 和 SP ),而在 GN 任务中则直接计算反馈信息的数字准确率作为过程评分指标。这一综合评估方案不仅关注最终答案的正确性,更重视模型在交互过程中提出问题的质量和信息获取的有效性,从而全面刻画模型的主动推理能力。

新发现:

大模型主动推理能力严重不足

我们在 AR-Bench 上对包括 GPT-4o 在内的多个先进 LLM,以及基于 prompting 和基于训练的推理方法进行了广泛测试。

实验结果(图 4,5)表明:目前的语言模型和推理方法都无法有效解决 AR-Bench 提出的问题,我们发现:

1. 即使是最先进的 GPT-4o 模型也只能在 GN 任务上达到 35% 的准确率。

2. 细粒度的指导和基于搜索的方法 (ToT)只能提供非常有限的性能提升。

3. 基于训练的方法(SFT, DPO)甚至在一些任务上使模型性能变差。

图 4 不同模型在 AR-Bench 上的性能对比。

图 5 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 上的性能对比。

我们还测试了两个先进的主动推理方法(Proactive CoT 和 Uncertanty of Thoughts)以及人类在 AR-Bench 上的表现(见图 6)。我们发现:

1. 即使是目前提出的先进的主动推理方法也无法提升模型在 AR-Bench 上的性能。

2. 人类在 AR-Bench 上的推理表现显著优于目前先进的语言模型。

图 6(左)先进的主动推理方法在 AR-Bench 上的性能表现,(右)人类在 AR-Bench 上的表现和 GPT-4o 对比。

为了更细致的研究语言模型在主动推理上的表现,理解目前模型和方法的不足,我们测量了模型在主动推理交互过程中模型对该任务的解决程度(见图 7,8),我们发现:

1. 在交互过程中,模型的收益呈现递减趋势,在后期问题质量低下

2. 较弱的模型问出的问题质量偏低,并且无法对交互机会进行有效利用

3. 较强的模型能够利用多轮交互机会,持续获得有用的信息

4. 基于搜索的方法在 AR-Bench 中依赖于每一轮评估问题质量的验证器的可靠性,表现在对 GN 任务有显著提升 (验证器基于数值反馈构建,简单可靠),而在 SP 任务下无法提升推理表现 (验证器基于自然语言反馈构建,复杂且相对不可靠)。

图 7  Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 推理中过程分的变化趋势。

图 8  不同模型在 AR-Bench 各任务上推理中过程分的变化趋势。

我们还进行在 AR-Bench 进行了三方面的消融实验(见图 9,10,11):

1. 固定交互信息,探究不同模型的推理能力的表现。

2. 延长交互的轮数,给予模型更多的机会进行信息获取,探究模型的表现变化。

3. 探究在实验中扮演回答者的模型的可靠性。

我们发现:

1. 更大的模型能够在固定的记录中提取出更多的有效信息。

2. 简单延长交互轮数无法完全解决主动推理任务。

3. 面对主模型提出的问题,回答者能够给出可靠的回复。

图 9  使用 Llama-3.1-70B 和 Llama-3.1-405B 在交互过程中获得的交互记录测试不同模型在给定信息的情况下给出正确结论的能力。

图 10  延长交互轮数后,比较模型的推理表现变化。

图 11  回答者模型的可靠性验证。

为更直观评估模型在主动推理中的表现,我们系统分析了不同任务中的典型错误模式(见图 12),并通过具体案例深入剖析了模型的失误原因(见图 13)。

我们发现:

1. 模型会问出宽泛,不具体的问题。

2. 模型会问出没有帮助的问题。

3. 模型在主动推理中会频繁出现时间线误解,忽视证据,强行提出未经验证的假设,以及没有完全利用符号反馈等典型问题。

图 12  GPT-4o 模型在不同任务下的推理正确和推理错误的案例分析。

图 13  Llama-3.1-8B 和 GPT-4o 在不同任务下的出现的典型错误统计。

总结

我们的工作系统地定义了主动推理这一重要问题,并构建了 AR-Bench 作为社群的评估工具。我们的实验结果清晰地表明,当前的大语言模型虽然在被动推理上能力强大,但在更贴近现实的主动推理场景下却举步维艰。

展望未来工作,我们认为 AR-Bench 存在以下拓展方向:

提升模型的主动推理能力:

1. 采集小规模但是高质量的微调数据集

2. 将强化学习推理方法(PPO, GRPO, DAPO)和推理模型适配到主动推理

3. 为搜索方法开发更先进可靠的验证器,以提升搜索方法在主动推理上的表现

将 AR-Bench 拓展到更多的任务和领域:

1. 医疗场景和定制化代理

2. 多轮检索增强生成和工具调用

3. 模拟真实环境和多模态场景,例如机器人和游戏

更多的实验分析和技术细节,请参阅我们的论文及源码,我们也将持续更新本工作的内容。

我们希望 AR-Bench 能够激发更多关于主动推理的研究,推动开发出能够主动提问、高效探索、真正解决现实世界问题的人工智能。非常感谢大家关注我们的工作!

课题组介绍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信基础模型、可信表征学习、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 Github https://github/tmlr-group。

课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局新进学者协作研究补助金、优配研究金和杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的教职科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 bhanml@comp.hkbu.edu.hk。

#MermaidFlow

如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。

为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了 Meta-GPT、ADAS、AFlow 等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。

尽管这些系统能够灵活的表达工作流,但在自动化搜索工作流的过程中,存在合理性难以保证、可验证性不足、 难以直观表达等突出挑战,严重制约了多智能体系统的可靠落地与规模化部署。

近日,来自新加坡 A*STAR 的 Centre for Frontier AI Research (CFAR) 研究所与南洋理工大学的研究团队联合发布了创新性工作流框架「MermaidFlow」,推动智能体系统迈向结构化进化与安全可验证的新范式。

论文链接:https://arxiv/pdf/2505.22967

GitHub 开源代码:https://github/chengqiArchy/MermaidFlow

Mermaid 破局:

让结构式工作流表达取代脚本混战

传统瓶颈:命令式脚本使工作流频频 「翻车」

在现有多智能体系统中,大模型生成的工作流往往以 Python 脚本或 JSON 树等命令式(imperative)代码直接输出,ADAS, AFlow 等主流系统也普遍采用了这种表达范式。这种低层次、混杂的生成方式,将流程规划与具体实现深度耦合,结构信息隐含在复杂代码中,直接导致了以下三大核心瓶颈:

  • 结构不透明:工作流整体架构深藏在杂乱代码里,流程关系难以一目了然,协作全局难以把控。
  • 合理性难验证:流程逻辑与实现细节高度耦合,缺乏静态检查和自动验证机制,容易隐藏致命漏洞。
  • 调试与优化困难:错误往往只有在实际运行时才暴露,流程复现、问题定位和后续优化极为低效。

MermaidFlow: 引领结构化与可验证工作流表达 

MermaidFlow 以 结构化图语言 Mermaid 为基础,提出了一种全新的工作流表达机制。不同于直接输出可执行脚本的方式,MermaidFlow 强调将智能体行为规划过程显式建模为结构化流程图谱,并引入形式化语义,确保流程清晰、可查、可验证。

相比传统的 Python/JSON 脚本,基于 Mermaid 的工作流表达具有以下核心特点:

  • 图式结构清晰可见:每一个智能体定义、依赖关系、数据流都被结构化地表达成图中的节点与连边,使整个工作流一目了然、可交互、可审查.
  • 流程验证内嵌其中:MermaidFlow 引入了多类语义约束(如依赖闭环、角色一致性、输入输出类型匹配等),支持静态结构验证与生成时一致性检查,避免生成不符合规则的图。
  • 天然支持演化与调试:结构化工作流图更易于进行片段级替换、增量修复与版本比较,支持可控的演化式优化(见后节)。

图1 MermaidFlow:从结构化图到可验证执行的一站式工作流表达闭环 。 左侧部分展示了基于 Mermaid 的声明式工作流表达,结构清晰、依赖显式,具备良好的人类可读性。人们可以清晰得知道, 在该工作流中存在什么节点, 他们之间的连接情况是怎么样的。

借助 MermaidFlow 所提出的结构化图式表达,多智能体协作的工作流规划过程不再是脆弱难控的黑盒编排,而是具备清晰结构、可视节点与可验证语义的 「白盒流程」。这种方式极大地提升了 Agentic Workflow 的可解释性、可验证性与后续演化的可操作性,为大规模部署打下坚实基础。

💡作者研究发现大语言模型对 Mermaid 语言具备天然的生成优势。这也让 MermaidFlow 与 LLM 的结合变得格外丝滑又强大🧠✨

MermaidFlow 中的安全演化策略:

工作流的自我升级之道

MermaidFlow 基于 Mermaid 语言对智能体工作流进行显式建模,使每个任务节点、数据依赖与执行顺序都成为可视、可解析、可操作的语义单元。相比传统的命令式脚本,结构化表达更具模块化特性,支持按节点插入、删除与替换,天然适配图级别的优化操作。每一次结构调整都具备清晰的语义边界,显著降低了修改的不确定性与调试复杂度。

得益于 MermaidFlow 引入的静态验证机制(如节点类型匹配、输入输出闭环、角色一致性等约束),每一代演化生成的工作流候选都能在生成阶段就进行结构合规性检查,过滤掉语义不完整或存在潜在风险的 「劣质图」。这种 「先验校验 + 后验优化」 的策略,显著提高了搜索空间的质量和鲁棒性,避免了大量无效或不合法的探索路径。

图 2 MermaidFlow 的安全演化式优化流程概览。 本系统以结构化的 Mermaid 图表达作为工作流起点,通过安全约束的进化算法(Safety-Aware Evolutionary Programming)在类型保持(typed)、结构可感知(structure-aware)、静态可验证(static verifiable)等维度上持续优化工作流结构。

实验性能

MermaidFlow 不再依赖具备强编程能力的大语言模型,也能生成高质量的工作流。在 GSM8K、MATH、HumanEval、MBPP 等多个主流任务数据集上,MermaidFlow 均展现出优秀的性能,体现出较强的实用价值。更关键的是,得益于结构化表达与静态可验证机制,MermaidFlow 在进化流程中生成可执行且结构合理工作流的成功率超过 90%,相比于传统基于脚本拼接的方法,极大提升了智能体系统的可控性和鲁棒性,为智能体系统的稳健部署提供了坚实的支撑。

图 3 MermaidFlow 在主流任务上的评测结果。

下图展示了 MermaidFlow 在结构化表示下的进化过程示例。得益于每个节点及其连接关系均具备明确的语义边界,系统能够便捷且安全地进行局部片段的替换、重组与演化操作(如 crossover、节点替换、连边调整等)。图中演示了系统如何通过对 Workflow 5 和 Workflow 4 进行 crossover 操作,生成结构更健壮的 Workflow 8,引入了更优的 ensemble 与 test 模块。这一结构可控的演化机制,有效提升了工作流生成过程的安全性、可控性与可维护性。

图 4 MermaidFlow 灵活的工作流进化合成过程。

结语

随着多智能体系统和大模型 AI 持续演进,如何实现结构化、可验证与高效进化的工作流,已成为智能体研究的重要命题。MermaidFlow 提出的结构化可验证工作流表达方式,为智能体系统实现高效、可控的协作流程提供了基础支撑。未来的 AI 协作,也许正需要这样一套 「看得见、查得清、能进化」 的流程底座。随着应用领域的不断拓展与工程落地,这一框架有望为智能体生态的持续进步提供有益参考。

#FISHER

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。目前技术报告和权重均已开源,欢迎使用!

论文链接:https://arxiv/abs/2507.16696

GitHub 仓库:https://github/jianganbai/FISHER

研究背景

近年来,越来越多的工业设备被安装上传感器以监控工作状态。然而安装传感器容易,如何高效分析工业信号却很难,因为不同传感器采集的工业信号具有极大的异质性。本文中,我们将其总结为 M5 问题:多模态、多采样率、多尺度、多任务和少故障。

受到 M5 问题影响,现有方法大多只分析小范围的工业信号,例如基于振动的轴承故障诊断,所采用的模型也均为在小数据集上训练的小模型。然而这些模型未能发掘大数据训练的优势,也未能利用不同模态之间的互补性。另一方面,对于工业运维的每个子问题,都需要单独开发和部署专门的模型,大大增加了实际应用的复杂度。

研究动机

尽管工业信号表面上差异大,其内在特征和语义信息却很相似:

  • 语义信息相同:信号都反映了相同的健康状态。
  • 产生机理相似:声音(鼓膜震动)和振动同根同源。
  • 分析手段相似:基本都采用谱分析方法。
  • 故障模式相似:设备由零件组成,不同设备之间有借鉴性。
  • 任务特征共享:一个特征向量可表征多个健康管理任务。

基于此,我们认为是可以使用单一模型对异质工业信号进行统一建模。由于信号内部存在相似性,通过 scaling,可以让模型逐渐学会这些相似性,进而迸发出更为强大的表征能力,实现里程碑式提升。由此我们开发了 FISHER 模型。

FISHER 模型介绍

FISHER 模型是首个面向多模态工业信号的基座模型。它以子带为建模单元,通过堆积木的方式表征整段信号,可处理任意采样率的工业信号。详细介绍如下:

子带建模

谱分析是语音和信号分析常用的手段。与语音模型常采用的 Mel 谱不同的是,FISHER 采用短时傅里叶变换(STFT)作为信号输入特征,这是由于 1)故障分量往往出现在高频 2)对于旋转类机械,倍频关系往往很重要。为保证不同采样率下时频分辨率相同,FISHER 中的 STFT 采用固定时长的窗长和帧移。

当数据量增大时,多采样率是模型必须要应对的问题。之前方法将信号全部重采样至固定采样率(例如 16 kHz),从而丢失了关键的高频信息,特别是对于 44.1 kHz 及以上的高带宽信号。在 FISHER 中,我们不再进行重采样,而是利用信号在不同采样率下的特点进行建模。

如下图所示,对同一信号源使用不同采样率进行观测时,共有频带基本一致,而高采样率会有额外的高频子带,也就是说高采样率的增益来源于更多子带信息。而另一方面,工业信号常见的采样率有 16 kHz,32 kHz,44.1 kHz 和 48 kHz,这些采样率近似存在公约数(如 2 kHz 和 4 kHz),故 STFT 谱可视作多个固定宽度子带的拼接。

因此 FISHER 采用固定宽度的子带作为建模单元,将子带信息用搭积木的方式拼接成整段信号的表征。具体而言,STFT 谱被切分为固定宽度的子带,每个子带被模型单独处理。最终的信号表征是每个子带表征的拼接。

模型架构

FISHER 包括 1 个 ViT Encoder 和 1 个 CNN Decoder,采用「老师 - 学生」自蒸馏预训练。具体而言,老师 Encoder 是学生 Encoder 的指数滑动平均(EMA),仅学生 Encoder 和学生 Decoder 具有梯度。切分后的子带的 80% 被 mask,未被 mask 的 20% 送入学生 Encoder,处理后再与被 mask 部分按原位置拼接,送入学生 Decoder。老师 Encoder 则输入整个子带,输出则作为蒸馏的目标。自蒸馏过程分别在 [CLS] 层次和 patch 层次进行监督。预训练结束后,仅保留学生 Encoder 用于后续评估。

我们目前开源了 FISHER 的 3 个不同尺寸:tiny(5.5M),mini(10M)和 small(22M)。所有模型均在 1.7 万小时的混合数据集上进行预训练。

RMIS 基准介绍

为评估模型在各种健康管理任务上的性能,我们提出了 RMIS 基准。RMIS 基准包含 5 个异常检测数据集和 13 个故障诊断数据集,涵盖 4 个模态。这里异常检测为正常 / 异常 2 分类问题,但训练集不包含异常;故障诊断为多分类问题,训练集和测试集均包含所有类别。为检验模型固有的性能,模型在所有数据集上均使用相同的 KNN 配置进行推断,不进行微调。

实验结果

我们先在 RMIS 基准上对常见预训练模型进行筛选,然后采用 5 个最好的模型作为基线,涵盖了 5M 到 1.2B 的多个尺寸。由于语音模型的效果普遍偏差,故我们并未对比。

基准得分

在 RMIS 基准上,FISHER 的 3 个版本分别较基线至少提升了 3.91%,4.34% 和 5.03%,展现出强大的泛化能力。按任务分析,在异常检测任务上,FISHER 仅略低于 BEATs;而在故障诊断任务上,FISHER 大幅超过 BEATs 在内的所有基线,这主要得益于 FISHER 能利用完整的频带,而基线模型只能利用到 16 kHz。此外,目前开源的 FISHER 模型最大也只有 22M,远小于基线常见的 90M。

Scaling 效果

上图对比了各个模型的 RMIS 得分随模型大小变化的曲线。可以看到 FISHER 的曲线远高于基线系统的曲线,即使是最小的 FISHER-tiny 也能超过所有基线系统。这说明 FISHER 的预训练模式更优越,scaling 更有效。

另一方面,我们观察到 100M 似乎是 scaling 曲线的分界点。我们猜测这是由于工业信号重复度较高,现有大规模数据集中的工业信号去重后至多支持 100M 模型的训练。因此训练信号基座模型时,数据的配比需要增大,数据清洗将是 scaling up 的关键。此外,考虑到 FISHER 的成功,Test-Time Scaling 似乎也是可行的方向。

变切分比

对于 12 个不提供官方切分的数据集,我们首先绘制了模型在变切分比场景下的工作曲线,然后估计了曲线下面积。如上表所示,FISHER 具有最大的曲线下面积,说明其在变切分比场景下依旧具有卓越的性能。

#AI Action Plan

自曝曾想拆分英伟达,特朗普签署最激进「AI行动计划」,全行业去监管

特朗普:黄仁勋拥有100%的AI,这个行业还是不要动了。

美国 AI 领域的发展,或许马上将会加速到更快。

当地时间本周三,美国总统特朗普详细阐述了一项新的「人工智能行动计划」(AI Action Plan),其中包含鼓励美国 AI 产业发展的政策指南。

  • US AI Action Plan 页面:https://www.ai.gov/action-plan
  • 文件地址:https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf

这份长达 28 页的人工智能行动计划概述了针对这一快速发展技术的 90 多项政策行动,政府官员表示这些行动可以在明年实施。

特朗普表示,他计划加快美国人工智能的发展,为企业在不受监管和保障措施约束的情况下开发该技术打开大门,但他补充说,人工智能需要摆脱「党派偏见」。

为此,特朗普签署了三项行政命令,并概述了一项「人工智能行动计划」,其中包括「消除繁文缛节和繁琐监管」的措施,以及为企业建设 AI 基础设施提供便利。

其行政命令包括一项禁止联邦政府购买其认为带有意识形态偏见的 AI 工具;一项旨在加快大型 AI 基础设施项目的审批流程的命令;第三项命令则侧重于促进美国 AI 产品在全球的出口。

计划目录

「美国是人工智能竞赛的发起国,」特朗普在周三晚间的演讲中说道,「作为美国总统,我今天在这里宣布,美国将赢得这场竞赛。」

2023 年,特朗普的前任乔·拜登签署了一项行政命令,要求制定管理联邦政府人工智能使用的安全标准——但特朗普在今年 1 月上任第一天就撤销了这项命令。

几天后,特朗普签署了一项行政命令,要求加速人工智能发展,消除意识形态偏见,并开始制定今天的人工智能行动计划,并就此征求公众意见。

特朗普政府的 AI 方针采纳了科技行业的核心论点:为确保美国在该领域的全球领导地位,应允许人工智能在最少的监管下发展。这一立场与欧盟等已着手立法规范 AI 的经济体形成鲜明对比。

此外,该方针也意在重塑 AI 工具的信息呈现方式,以回应保守派对现有 AI 模型存在自由派偏见的批评。然而,鉴于 AI 模型的训练数据源自广阔的互联网,从技术上改变其固有的信息倾向将是一项艰巨的挑战。

「人工智能行动计划」是特朗普政府近期推动 AI 发展的又一重大举措。在此之前,已有一系列由科技公司主导的重磅投资计划相继出炉,凸显了公私合作推动美国 AI 产业的战略方向。

例如,在 7 月 15 日,特朗普便宣布了一项总额超过 900 亿美元的投资计划。该计划联合了科技、能源和金融等多个领域的公司,旨在将宾夕法尼亚州打造成为一个新兴的人工智能中心。

更早之前,在其第二任期伊始,特朗普便启动了名为「星际之门」(Stargate)的 AI 基础设施项目。该项目预计耗资高达 5000 亿美元,并联合了 OpenAI 首席执行官山姆·奥特曼、软银首席执行官孙正义以及甲骨文董事长拉里·埃里森等科技界领军人物,其规模和影响力备受瞩目。

他还表示,将取消拜登时代对 AI 芯片的 AI 出口限制,英伟达最近被允许恢复向中国销售其 H20 AI 芯片。

不久前,特朗普还曾希望拆分掉英伟达。在「人工智能行动计划」发布时他回忆自己与顾问的对话时表示,顾问告诉他拆分英伟达非常困难。

我说:「为什么?他们的市场份额是多少?」

「总统先生,他有 100% 的份额。」

「他是谁?他叫什么?」

「他的名字叫黄仁勋,是英伟达。」

我说:「英伟达是什么?我从来没听说过。」

他说:「你绝对不想了解它,先生。」

特朗普表示,他放弃了拆分英伟达的想法,因为他意识到拆分可能会适得其反。「我觉得我们可以介入,稍微拆分一下,给他们一些竞争……但我发现,在这个行业里做起来并不容易。我说,『假设我们把最优秀的人才聚集在一起,让他们携手合作几年(能不能跟英伟达竞争)。』他说,『不行,如果黄仁勋现在原地等着,也至少需要十年才能赶上他。』所以我说,『好吧,我们继续下一个吧。』」

「后来我认识了黄仁勋,现在我明白为什么了,」特朗普补充道。

黄仁勋成功说服特朗普允许英伟达向中国出售 H20 芯片,保住了一条重要的收入渠道。此前,美国曾因担心英伟达 H20 芯片可能帮助其竞争对手推进 AI 技术发展而关闭了这条渠道。为了缓解这些担忧,美国商务部长霍华德·卢特尼克坚称,目前允许向中国出售的芯片只是「第四好的」人工智能芯片,其目的是让中国开发者「沉迷于美国的技术栈」。

无论美国政策变化的原因如何,人工智能计划的落地不论对英伟达,还是硅谷众多科技公司来说都是一大利好。早在宣布这一决定之前,英伟达就已成为首家市值达 4 万亿美元的上市公司。此前据报道,在拜登时期,美国司法部一直在以反垄断为由对英伟达进行调查。

但特朗普明显放任的态度,或许能够刺激各家公司拿出更激进的 AI 计划。

#AlphaGo Moment for Model Architecture Discovery

创智突破:AI首次自主发现106个超越人类设计的神经网络架构

科学发现还是人类专利吗?

当世界还在为 AI 在数学竞赛中达到金牌水平而惊叹时,一项更加深远的突破正在悄然发生。与解决 IMO 题目这种封闭性问题不同,真正的科学发现是一个开放性的、长期的认知过程 —— 需要提出原创问题、设计实验方案、观察现象规律、形成科学假设,然后在不断的试错和迭代中逼近真理。

这个过程的复杂度远超任何标准化测试,它要求的不是计算能力,而是真正的科学创新思维。

由创智学院领衔的研究团队今日发布的 AI 超智能系统首次证明,AI 已经具备了进行完整科学发现的能力 —— 该系统在完全自主的条件下发现了 106 个超越人类设计的神经网络架构(在多个基准测试中超越了如 Mamba2 和 Gated DeltaNet 等强大的基线模型),更恐怖的是,它初步验证了科学突破可以像训练模型一样进行工业化量产。标志着我们正式跨入了长期自主超智能(Long-Horizon Superintelligence)的新纪元,科学发现进入 Scaling Law 时代!

从数学金牌到科学发现:

认知复杂度的代际跃迁

近期 AI 领域最引人注目的成就之一是在数学竞赛中的突破表现。Google 等研究团队展示了 AI 系统在国际数学奥林匹克(IMO)等竞赛中达到金牌选手水平的能力,这无疑是 AI 推理能力的重要里程碑。然而,解决数学竞赛题目与进行科学发现,在认知复杂度上存在着本质差异。

数学竞赛虽然具有极高的技术难度,但本质上仍属于封闭性问题求解:题目边界明确,评判标准客观,解题路径虽然复杂但相对确定。AI 系统主要需要在有限的问题空间内进行深度推理和计算。而科学发现则完全不同。它是一个开放性的、长期的认知过程,包含了人类智慧的最高形式。长期以来,科学发现一直被认为是人类独有的认知能力,依赖于研究者的创造性思维和直觉洞察。特别是在人工智能领域,神经网络架构的设计更是被视为需要深厚专业知识和创新思维的高级智力活动。

由上海创智学院领衔的团队发布 AI 超智能系统:ASI-Arch,其成功设计彻底颠覆了这一认知。该系统基于先进的大模型技术,构建了高度自主的多智能体研究框架,能够完全独立地进行从问题识别、假设生成、实验设计到结果验证的完整科学研究流程。

论文标题: AlphaGo Moment for Model Architecture Discovery

系统开源: https://github/GAIR-NLP/ASI-Arch

网站地址: https://gair-nlp.github.io/ASI-Arch/

在长达数月的自主研究过程中,ASI-Arch 系统展现出了令人震撼的研究能力。系统共进行了 1,773 次独立实验,累计消耗超过 20,000 GPU 小时的计算资源,在无人干预的情况下,ASI-ARCH 自主发现了 106 个新颖且性能卓越的线性注意力架构,这些架构在多个基准测试中超越了如 Mamba2 和 Gated DeltaNet 等强大的基线模型。这一研究规模和效率远超传统人类研究团队的能力范围。

图:AI 自主进行了 1,773 次科研探索

更为重要的是研究质量。系统并非进行盲目的随机搜索,而是表现出了与顶级科学家相似的研究直觉和逻辑推理能力。每一次实验都基于前期结果进行智能化迭代,展现出了真正的科学思维过程。这一突破意味着科学研究正在从传统的 「人力驱动」模式转向 「算力驱动」 模式,为加速科学发现开辟了全新路径。

突破性成果:

106 个超越人类的创新架构

ASI-ARCH 系统成功发现了 106 个全新的线性注意力机制架构,每一个在性能指标上都显著超越了现有的人类设计方案。这些发现的重要性不仅在于性能提升,更在于设计理念的创新。系统提出的许多架构设计原理和优化策略,即使是该领域的顶级专家也承认此前从未考虑过。这表明 AI 系统已经具备了超越人类认知边界的创新能力。

正如围棋界的 「Move 37 时刻」 展现了 AI 的超人类策略智能,ASI-ARCH 的发现同样证明了 AI 在科学创新领域的超人类潜力。

为什么说这是 AI 架构设计的 「AlphaGo 时刻」?

传统的神经架构搜索(NAS)技术,本质上仍是在人类预先划定的巨大空间内进行组合与挑选,扮演着 「高级优化器」的角色,其创造力受到了根本性限制。

ASI-ARCH 则实现了质的飞跃。它代表了一次 从 「自动化优化」 到 「自动化创新」 的范式转变。借助大模型强大的认知和编码能力,ASI-ARCH 不再局限于已有的模块,而是能够像人类科学家一样:

提出全新的假说: 自主构想出前所未有的架构概念。

实现并验证: 将这些新想法编写成代码,并通过严谨的实验来验证其有效性。

超越人类范式: 发现那些超越现有设计范式和人类直觉的新架构。

这种从 「工具」 到 「研究伙伴」 甚至 「独立研究员」 的角色转变,正是其被称为 AI 架构设计领域 「AlphaGo 时刻」 的根本原因。它标志着 AI 已经开始涉足以往只有人类才能胜任的、更富创造性的科学发现过程。

「科学发现缩放定律」 的确立 (Scaling Law for Scientific Discovery)

本研究最具革命性的贡献是首次建立了 「科学发现缩放定律」。研究数据明确显示,科学发现的速度和质量与投入的计算资源呈现稳定的缩放关系。这一发现具有深远的意义。传统科学研究的进展速度受限于人类研究者的数量和能力,存在明显的瓶颈。而 「科学发现缩放定律」 表明,通过增加计算资源投入,可以系统性地提升科学发现的效率和质量。这意味着科学研究正在经历从 「人力密集型」 向 「计算密集型」 的根本性转变,为解决人类面临的重大科学挑战提供了新的解决方案。

由部分探索的新架构绘制的种系发生树

我们定义一种父子关系:新架构是通过直接修改前一个架构的代码生成的。外围的颜色用于区分树的不同进化分支。

ASI-ARCH 超智能

是如何自主进行科学研究的?

ASI-ARCH 的核心是一个由 「研究员」、「工程师」、「分析师」 和 「认知库」 四个模块构成的闭环进化系统。

研究员 (Researcher): 作为系统的 「大脑」,负责提出创新的架构设想,并生成新的架构代码。它从历史经验和人类知识中汲取灵感,生成新的设计动机。

工程师 (Engineer): 作为 「动手者」,负责接收 「研究员」 的架构代码,并在真实的训练环境中进行训练和评估。

分析师 (Analyst): 扮演 「反思者」 的角色,它综合分析实验数据,总结成功与失败的原因,并将这些洞察提炼成新的知识,反馈给 「研究员」 以指导下一轮创新。

认知库 (Cognition Base): 如同一座 「图书馆」,存储了从近百篇人类顶尖论文中提取的核心知识,为 AI 提供人类专家的 「认知」 支持。

尤为关键的是,该框架引入了一个创新的 Fitness Function,它不仅评估模型的性能指标(如损失和基准得分),还引入一个 LLM 「专家评审」,对设计的创新性、复杂性等进行定性评估。这种设计有效避免了系统为了刷分而产生无意义设计的 「奖励黑客」 问题,确保了产出的架构既强大又优质。

图:ASI-ARCH 架构

实验结果解读:AI 「研究员」 全面超越人类顶尖模型

为了最终验证 AI 「研究员」 设计架构的真实能力,我们上演了一场 AI 与人类顶尖智慧的 「巅峰对决」。研究团队将 AI 自主发现的架构,与由人类专家精心设计、业界公认的强大基线模型(如 DeltaNet)、代表线性注意力最先进水平的 Gated DeltaNet,进行了严格、公正的正面比较。

实验采用了一种科学且高效的 「探索 - 验证」两阶段策略:

1.  探索阶段(20M 参数量级): 在此阶段,ASI-ARCH 在较小的模型规模上进行了大规模的 「海选」,旨在快速筛选出具有潜力的候选架构。令人惊喜的是,即便是在这个资源受限的探索阶段,AI 发现的大部分架构在核心指标上已经展现出超越人类 SOTA 模型的强大实力,为最终的成功奠定了坚实基础。

2.  验证阶段(340M 参数量级): 从探索阶段脱颖而出的高潜力架构,被放大到更大的模型规模进行 「终极验证」。在这一更接近真实应用场景的规模下,AI 架构的潜力被完全释放,其卓越性能也得到了充分的印证。

实验结果表明,我们将模型在覆盖常识推理、阅读理解等 12 个不同基准测试 中的表现进行了综合评估。AI 自主发现的架构(以白色背景标识),在综合平均得分上,全面超越了 Gated DeltaNet 等线性注意力基线,成功刷新了该领域的性能上限(SOTA)。

表:不同架构在语言模型和零样本常识推理的性能比较

这张亮眼的成绩单揭示了 ASI-ARCH 的几项关键特质:

1. 综合实力更强,拒绝偏科: 最终的胜利并非依赖于在个别任务上的 「偏才」,而是在衡量模型综合智慧的平均分上全面领先。这意味着 AI 发现的架构在常识推理(如 PIQA、Hellaswag)、知识问答(如 ARC-Challenge、OpenBookQA)、阅读理解(如 SQuAD)等多样化的能力维度上都表现出了卓越且均衡的性能,是一种更鲁棒、更通用的智慧体现。

2. 学习效率更高,基础更扎实: 在衡量模型学习效率和语言建模基础能力的训练损失(Loss)和困惑度(PPL)指标上,ASI-ARCH 发现的顶尖架构普遍取得了更低的值。这意味着 AI 架构的学习效率更高,能用同样的数据学到更多知识,并且对语言规律的把握更精准。

3. 发现具备普遍性,而非偶然: 这次胜利不是单个 「天才模型」 的偶然爆发,而是 106 个新 SOTA 架构的集体涌现。这充分说明,ASI-ARCH 的发现能力是系统性的、可复现的。它找到的不是一个点,而是一片富饶的、全新的 「架构良田」。

总而言之,实验结果清晰地表明,由 ASI-ARCH 自主发现的架构,在同等条件下,其性能不仅超过了作为起点的基线模型,更是全面超越了线性注意力领域内由人类专家设计的顶尖模型。更重要的是,AI 通过自主探索,发现了人类未曾设想的、通往 「更优设计」 的新路径 —— 例如,它独立演化出了多种巧妙的门控机制与路径融合策略,这些设计在没有人类先验知识指导的情况下,实现了对计算资源更高效的动态分配,从而取得了更好的效果。这场在综合性能指标上的完胜,正是我们称之为 「AI 架构探索的 AlphaGo 时刻」 的最有力注脚。

AI 「研究员」 的设计哲学:

涌现出怎样的智慧?

通过对 1773 次自主实验的深入分析,研究团队把模型分成两组:表现最好(SOTA)的 106 个模型和剩余的表现一般模型,发现了 AI 「研究员」在设计过程中涌现出的、类似人类科学家的设计模式与智慧:

(1)脚踏实地,聚焦经典: 

ASI-ARCH 并没有盲目地追求 「新奇特」,而是展现出一种与人类顶尖科学家高度一致的工作方法论:在成熟、经过验证的技术之上进行迭代创新。

对 AI 所探索的全部架构进行组件分析,可以发现 AI 明显偏好使用 「门控系统(Gating System)」、「卷积架构(Convolutional Architecture)」 等经典且强大的组件。虽然 AI 也探索了 「物理启发机制(Physics-Inspired Mechanism)」 等大量新颖的 「长尾」 组件,但一个关键的区别在于:表现最好的 106 个模型(模型画廊,Model Gallery)的 「长尾分布」远没有其他模型那么严重。这表明,顶尖的 AI 设计收敛于一个核心且高效的技术集合,通过对这些关键技术的精妙组合与改良来实现突破,而不是漫无目的地追逐新颖性本身。

(2)从经验中学习,在分析中升华: 

AI 创新的灵感从何而来?研究揭示了一个深刻的模式:要达到 「优秀」,AI 可以依赖于学习人类的先验知识(认知);但要实现 「卓越」 和真正的突破,对自身实验历史的深度分析和抽象总结必不可少。

对设计灵感的来源进行追溯,可以发现,对于所有模型,其灵感主要来源于对人类论文知识的借鉴(「Cognition」 占比 51.7%)。然而,对于顶尖的模型组,其设计灵感来源于对过往实验的自我反思(「Experience」)的比例(44.8%)显著高于其余模型(37.7%)。这证明了,虽然学习人类经验是基础,但通过自我探索、总结和发现来合成新颖解决方案的能力,才是 AI 产出颠覆性成果的关键。

(3)拒绝过分复杂的架构:

在架构搜索中,一个常见的误区是通过不断堆叠组件、增大参数量来换取性能提升。然而,ASI-ARCH 展现出一种内在的 「设计纪律」,拒绝了这种通过暴力堆砌复杂度来提升性能的简单策略。

尽管在实验初期 AI 会探索不同大小的模型,但在整个演化过程中,AI 设计的模型参数量分布始终保持稳定,并没有出现持续增长的趋势。绝大多数模型都稳定在特定的参数范围内。这表明,ASI-ARCH 是在一个相对公平的 「复杂度预算」 下进行真正的 「巧思」,寻求更高效、更聪明的架构设计,而不是依赖于 「堆料」。

开源贡献:

推动全球 AI 研究民主化

ASI-ARCH 的成功标志着 「AI for AI research」(ASI4AI)新时代的正式开启。这一概念描述了 AI 系统能够自主进行科学研究、设计和优化下一代 AI 系统的发展阶段。在这个新时代中,AI 不再仅仅是研究工具,而是成为了真正的研究主体。AI 系统设计更强大的 AI 系统,形成自我改进的正向循环,这将极大地加速整个 AI 领域的发展进程。为促进全球 AI 研究的协同发展,研究团队做出了具有战略意义的决定:将全部 106 个突破性架构、完整的 ASI-ARCH 系统框架以及详细的研究过程数据向全球研究社区开源。这一开源举措将产生广泛而深远的影响。全球研究者将能够直接受益于这些 AI 自主发现的成果,并在此基础上进行进一步的创新研究。同时,开源的 ASI-ARCH 框架将为构建更多自主 AI 研究系统提供重要参考。

图:AI 发现新架构的细致描述 (https://gair-nlp.github.io/ASI-Arch/)

重新定义

科学研究的未来

ASI-ARCH 不仅是技术突破,更是认知革命。它证明了机器可以进行真正的科学思维,而不仅仅是数据处理或模式匹配。这为解决人类面临的重大挑战开辟了全新可能性。从气候变化到疾病治疗,从新材料开发到基础物理理论,长期自主智能系统都有望在这些领域产生突破性发现。

随着科学发现进入 Scaling Law 时代,我们正站在人类文明史上一个前所未有的转折点。ASI-ARCH 作为长期自主智能的先驱,其历史意义将随着时间推移而愈发凸显。

我们不仅见证了 AI 从工具向伙伴的转变,更见证了科学研究从人类独有活动向人机协同探索的历史性跨越。这是认知能力的代际革命,也是人类文明加速发展的新起点。

#An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题

在医学面前,罕见病是一道最难的题。全球已有超过 3.5 亿人受到罕见病影响,病种超过 7000 种,约 80% 为遗传性疾病。但大多数患者在确诊前需经历 5 年以上的延迟、7 次以上就诊、3 次以上误诊,平均误诊率高达 40%-50%,给患者和家庭带来沉重负担。

罕见病症状异质性高、诊断路径长、知识分布极度稀疏,是典型的「小样本、大空间」问题。医生如同在浩如烟海的资料中「大海捞针」,面对碎片化信息与复杂交互线索,传统 AI 模型难以胜任,临床专家的经验更难被规模化复制。

,时长02:46

破解之道:重塑诊断路径

为破解这一世界级难题,上海交通大学人工智能学院牵头,联合新华医院、上海人工智能实验室、哈佛医学院共同发布了全球首个罕见病推理型智能体诊断系统——DeepRare。

论文标题:An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

论文地址:https://arxiv/abs/2506.20430

DeepRare 结合大语言模型和多智能体架构,通过模拟临床医生 「提问 — 分析 — 查证 — 推理 — 决策」 的诊断思维路径,将罕见病诊断任务拆解为多个专业环节,由智能体协作完成整合与推理,真正实现可解释的主动诊断。

系统由中央控制单元(Central Host)统筹全局,以大模型为引擎,通过精心设计的任务规划和工作流程,调用多个功能智能体(Agent)分工协作,综合各类信息构建结构化诊断建议与可溯源因果链条,构成端到端的智能诊断解决方案:

  • 表型建模智能体:结构化提取主诉信息与 HPO 术语
  • 基因分析智能体:解析 VCF 文件,关联表型识别潜在致病突变
  • 搜索与知识匹配智能体:调用数据库与在线搜索引擎,检索相关疾病、文献
  • 病例匹配智能体:通过小模型匹配相似症状的病例
  • 疾病抽取智能体:从自由文本推理结果中抽取疾病结论,进行搜索
  • 表型分析智能体:调用表型分析的生信工具,提供参考的疾病列表

整个系统支持多模态输入(包括自由文本、结构化表型数据、基因组数据等),具备自适应能力,能够动态适配不同输入场景和数据质量,实现 「人 - 机 - 知识」 三位一体的协同诊断。

DeepRare 系统的输入和架构图

DeepRare 的诊断流程主要分为两个阶段:

  • 信息收集阶段:系统对输入数据进行多轮分析,智能体协作抽取关键症状、变异信息、病例背景,并调用 40 余类医学工具和数据库,进行综合推理,生成初步诊断及相关线索;
  • 自我反思与验证阶段:中央控制器对诊断结果进行多轮自我反思与论证,构建因果链、匹配先验知识,并实时整合最新临床指南、研究文献和相似病例,输出可信、可溯源的诊断建议。

DeepRare 系统工作流

四大核心:

  • 主动提问机制:系统能识别出诊断过程中关键信息的缺口,主动发起问询,引导医生或用户补全症状信息,确保数据完整性;
  • 实时整合 40+ 医学知识源与工具:全面调用 OMIM、OrphaNet、PubMed、ClinVar、ExAC、HGMD 等专业数据库与搜索引擎,获取最新、最全面的医学证据;
  • 自我反思能力:系统具备 「提出假设 — 验证假设 — 修正假设」 的闭环推理能力。面对不确定或弱匹配的情况时,能主动返回上一步补充证据、重新评估,有效降低误诊率、减少模型幻觉;
  • 生成可溯源推理链条:每条诊断建议都附带明确的因果路径和证据出处,从症状到病因全链条可解释,帮助医生建立信任、提升临床可用性。

真实案例:改写患儿命运

2021 年,上海新华医院接诊了一名来自广西的 20 个月大的患儿。他自出生起便问题重重:发育迟缓、面部特征异常、生殖器发育异常、肺发育不良。家人带着他四处求医,做了全外显子组测序、内分泌评估等多轮检查,却始终查不出病因。诊断陷入僵局,家人焦急万分,医生团队感到无力。

时间来到 2025 年 6 月,DeepRare 正在系统测试期间。医生团队决定抱着尝试的心态,重新翻出这个悬而未解的病例,用 DeepRare 进行分析。系统启动推理引擎,分析症状、基因和病例,敏锐提示出此前未被怀疑的 Prader-Willi 综合征(PWS)。随着目标锁定,团队安排了针对该病的甲基化检测,终于明确了诊断。

PWS 是一种罕见复杂遗传病,发病率约为 1/10,000 至 1/30,000,婴儿期表现为喂养困难、发育迟缓,长大后可能出现暴食、肥胖、智力障碍等。由于其致病机制超出常规检测范围,且患儿年幼、症状不典型,极易被漏诊。这一次,凭借 DeepRare 的精准提示,患儿得以在疾病早期接受干预治疗,赢得了扭转命运的机会。

对医生团队而言,这是人工智能与临床实践携手的突破性一刻;对家庭而言,这不仅是一纸诊断,更是走出迷雾、拥抱希望的新起点。

性能实证:挑战诊断极限

DeepRare 在来自 亚洲、北美、欧洲的 8 个真实临床数据集上进行了全面评估,涵盖 6401 例罕见病患者、2919 种疾病、14 个疾病类别。评估结果:

  • 平均 Recall@1 达 57.18%,相比现有最优方法 Claude-3.7-Sonnet-thinking 提升 23.79 个百分点
  • Recall@5 超过 80%,大幅提升诊断覆盖范围
  • 在新华医院真实病例中,基于全外显子基因测序(WES)数据测试,Recall@1 达 70.6%,显著优于 Exomiser(53.2%)

更值得一提的是,DeepRare 在测试的 2919 种疾病中,有 1013 种(占比 34.7%)实现了 100% 召回率。这一出色表现不仅彰显了系统对复杂疾病谱的广泛适应能力,也有力证明了其在罕见病诊断中的鲁棒性与可推广性。

HPO 表型输入场景上 15 种方法在所有数据集的平均性能

HPO(表型数据)输入场景评估

如下图所示,7 个公共罕见病数据集的评估中,DeepRare 在 Top-1 诊断准确率上全面领先现有基线方法。以下为不同数据集下表现最优的模型对比结果(完整数据详见原论文):

  • 在 RareBench-MME 数据集上,Top-1 准确率达到 70%,提升幅度达 50%;
  • 在 RareBench-RAMEDIS 上,Top-1 准确率为 73%,提升 31%;
  • 在 MyGene2 数据集上,Top-1 准确率为 76%,同样提升 31%。

此外,在新华医院私有临床队列上,系统在真实病例中实现了 58% 的 Top-1 准确率,较次优方法提升 16 个百分点,进一步验证其在临床实际场景中的稳定性与通用性。

各方法在 HPO 表型输入场景上的比较

专科特异性分析:覆盖多学科,优势明显

DeepRare 在多器官系统的罕见病诊断中展现出稳定而有层次的性能表现。分析结果表明,系统在多个关键医学领域显著优于现有方法:

  • 肾脏与泌尿系统(Kidneys and Urinary System):诊断准确率达 66%,为所有专科中表现最优;
  • 内分泌系统(Endocrine System):准确率为 60%,远高于次优方法的 32%;
  • 消化系统(Digestive System):在 729 例病例中达到 49% 的准确率,对照方法为 34%;
  • 呼吸系统(Lungs and Breathing System):表现相对较弱,准确率为 31%。

这一结果揭示了系统在不同专科场景中的适配能力与未来针对性优化的方向,也证明其作为通用诊断平台的潜力。

HPO 表型输入场景上 各个专科层面的比较

多模态输入(表型 + 基因)场景

在罕见病诊断中,基因组数据的整合是提升诊断准确率的关键环节。在 DeepRare 系统中,融合表型信息与基因变异数据后,性能显著提升:

  • 在新华医院真实临床队列中,Recall@1 从 46.8% 提升至 70.6%;
  • 同一数据集上,DeepRare 的表现显著优于主流生物信息学工具 Exomiser(70.6% vs 53.2%)。

值得强调的是,即便在缺乏基因数据的单一表型输入场景下,DeepRare 依然达到与专业生信工具相当的性能水平,展现出卓越的表型建模与语义推理能力。

多模态(表型 + 基因)输入的性能

可溯源性验证:让推理过程看得见

为评估 DeepRare 推理链条的可溯源性与临床可采纳性,研究团队对系统自动生成的 180 个病例诊断过程进行专家验证。系统对每项诊断建议均自动生成结构化的证据链条,明确标注引用来源及对应位置,覆盖 Nature、OMIM、OrphaNet、PubMed 等国际权威知识库与期刊。

经过十位罕见病专家的独立验证,推理证据的参考性与准确性平均达到 95.4%。这种证据呈现机制,显著提升了医生在临床中的知识调取效率,有助于加速诊断决策、提升模型可信度与解释性,为智能诊断系统在真实场景落地提供关键保障。

可溯源性的专家评测

在线平台:让智能诊断触手可及

为推动成果落地,团队已上线 DeepRare 在线推理平台(http://raredx),面向临床医生提供结构化输入、主动问询、诊断建议与可导出报告的完整闭环流程。系统支持中英文切换,界面简洁、操作便捷,已在多家医院开展试用,助力罕见病早诊、准诊与规范化管理。

网页首页

总结与未来展望

DeepRare 所代表的 Agentic AI 诊断系统,正在重塑罕见病诊断的范式。通过主动推理、动态知识更新与证据可追溯机制,系统不仅提升了效率,也为人工智能在精准医学中的应用提供了落地样本。

展望未来,DeepRare 有望扩展至科研场景,加速意义未明变异的解读,拓展可治疗罕见病的谱系,推动疾病知识的积累与诊断进程的前移。

与 DeepRare 一起,为全球罕见病患者照亮前路,让每一份努力都离答案更近、离希望更近。

#MP1

MeanFlow再下一城,北大提出机器人学习新范式MP1,实现速度与成功率双SOTA

作者介绍:盛举义,北京大学在读博士研究生,研究方向为机器人操作技能学习方法研究;王梓懿、李培铭,北京大学在读硕士研究生,研究方向为视频理解分析;刘勇,浙江大学控制科学与工程学院教授,研究领域为自主机器人与智能系统;刘梦源,北京大学深圳研究生院助理教授,研究领域为人类行为理解与机器人技能学习。

在目前的 VLA 模型中,「A」— 动作生成模型决定了动作生成的质量以及速度。具体而言,生成式模型在推理速度与任务成功率之间存在 「根本性权衡」。

其中,Diffusion Models(如 Diffusion Policy 和 DP3)通过多步迭代生成高质量动作序列,但推理速度较慢,难以满足实时控制要求;而 Flow-based 模型(如 FlowPolicy)尽管能提供快速推理,但需要额外的架构约束或一致性损失(consistency loss)来保证轨迹的有效性,这增加了设计复杂性并可能限制性能和泛化能力。

此外,机器人操作面临另一个挑战,即数据高效的少样本泛化。标准模仿学习策略容易出现 「特征坍塌(feature collapse)」,即将需要不同动作的关键状态错误地映射到相似的潜在表征 latent representation)上,导致模型在新情境下无法做出准确反应。因此,提升模型对不同状态的区分能力是提高策略泛化性的关键。

为应对上述挑战,来自北大的研究团队提出名为 MP1 的全新机器人学习框架。该框架首次将近期在图像生成领域取得突破的 MeanFlow 范式引入机器人学习,实现毫秒级推理速度,为 VLA 动作生成模型打下基础。

  • 论文标题:MP1: Mean Flow Tames Policy Learning in 1-step for Robotic Manipulation
  • 论文链接:https://arxiv/abs/2507.10543
  • 代码链接: https://github/LogSSim/MP1

MP1 的核心引擎 ——Mean Flow 范式

MP1 的核心创新在于其生成范式的根本转变。传统 Flow Matching 学习的是一个瞬时速度场(instantaneous velocity field),在推理时需要通过迭代式求解常微分方程(ODE)来积分生成轨迹,这一过程不仅耗时,且会引入并累积数值误差。与之相反,MP1 直接学习从初始噪声到目标动作的区间平均速度场(interval-averaged velocity field)。

技术上,MP1 利用了 「MeanFlow Identity」,使模型能够直接对平均速度场进行建模,而无需在推理时进行任何积分求解。这一设计带来了两大核心优势:

  • 真正的单步生成(1-NFE):模型仅需一次网络前向传播,即可从随机噪声直接生成完整动作轨迹,彻底摆脱了对迭代式 ODE 求解器的依赖。
  • 无约束的简洁性:得益于其数学形式的完备性,MP1 天然保证了轨迹质量,无需引入 FlowPolicy 等方法所依赖的外部一致性约束,使模型设计更为简洁、优雅。

这种从数学原理上解决问题的方式,而非依赖工程技巧进行修补,使得 MP1 不仅实现了速度的飞跃,更重要的是,其单次、确定性的前向传播过程保证了推理时间的高度稳定,这能够保证机器人操作任务中的实时性。

分散损失提升少样本泛化能力

在解决轨迹生成的动态问题后,MP1 针对机器人学习中的 「表征坍塌」 问题进行了改进。该问题指的是策略网络将需要不同动作的关键状态错误地映射到相近的潜在空间位置,从而导致模型在少样本学习中泛化能力下降。

MP1 引入了来自表征学习领域的最新方法 —— 分散损失(Dispersive Loss)。这是一种轻量级、仅在训练阶段生效的正则化项,旨在直接优化策略网络的内部表征空间。其核心思想是在训练的每个 mini-batch 中,对不同输入样本的潜在表征施加一种 「排斥力」,强制它们在特征空间中相互分散。该损失可以被理解为一种 「无正样本的对比损失」:策略网络主要的回归目标负责将每个状态 「拉向」 其对应的专家动作,而分散损失则负责将不同状态的表征相互 「推开」,从而塑造出一个更具辨识度的特征空间。

分散损失的关键优势在于它是一个仅在训练时生效的正则化器,在不增加任何推理开销的前提下,显著提升了模型区分细微场景差异的能力,完美保留了 MP1 标志性的毫秒级响应速度。在数据采集成本高昂的机器人领域,这种能从极少量(如 5-10 个)示教中高效学习的能力至关重要。

MP1 的仿真测试表现

MP1 的性能优势在涵盖 37 个复杂操作任务的 Adroit 与 Meta-World 基准测试中得到了验证。

出色的任务成功率与稳定性

在任务成功率方面,MP1 平均成功率达到 78.9%,相较于当前先进的流模型 FlowPolicy (71.6%) 和扩散模型 DP3 (68.7%),分别实现了 7.3% 和 10.2% 的显著提升。

尤为关键的是,MP1 的优势在更高难度的任务中愈发凸显。在 Meta-World 的 「中等」、「困难」 及 「非常困难」 任务集上,MP1 相较于 FlowPolicy 的成功率增幅分别高达 9.8%、17.9% 和 15.0% 。此外,MP1 展现出极高的性能稳定性。在多次随机种子实验中,其成功率的平均标准差仅为 ±2.1%,远低于其他基线方法,证明了其结果的高度可靠性与可复现性。

卓越的推理效率与实时控制能力

在实现更高成功率的同时,MP1 的推理速度同样刷新了纪录。在 NVIDIA RTX 4090 GPU 上,其平均推理耗时仅为 6.8ms。

这一速度比当前最快的流模型 FlowPolicy (12.6 ms) 快了近 2 倍,更比强大的扩散模型 DP3 (132.2 ms) 快了 19 倍。如此低的延迟意味着 MP1 的决策环路完全满足机器人领域典型的实时控制频率(通常为 20-50 毫秒)。

少样本学习能力验证

为了进一步验证分散损失在提升模型数据效率上的作用,研究团队还进行了少样本学习的消融实验。

实验结果表明,MP1 在所有数据量级上均一致地优于 FlowPolicy,尤其是在示教数据极为稀少(如 2-5 个)的极端少样本场景下。这有力地证明了分散损失通过优化内部表征空间,能够有效提升策略少样本学习的泛化能力,这可以降低真机部署时大量数据的需求。

MP1 的真机验证

研究团队将 MP1 部署于一台 ARX R5 双臂机器人上,并在五个真实的桌面操作任务中进行了测试。

实验结果进一步印证了 MP1 的性能。在所有五项任务中,MP1 均取得了最高的成功率和最短的任务完成时间。以 「Hummer」 任务为例,MP1 的成功率高达 90%,远超 FlowPolicy 和 DP3 的 70%;同时,其平均任务耗时仅 18.6 秒,显著快于 FlowPolicy(22.3 秒)和 DP3(31.1 秒)。

#2025年8种主流大模型架构深度解析

从DeepSeek-V3到Kimi K2

文章横向拆解 2025 年 8 大主流开源 LLM(DeepSeek-V3/R1、OLMo 2、Gemma 3、Llama 4、Qwen3、SmolLM3、Kimi K2 等)的核心架构差异。

已经过去七年了,从初代 GPT 架构诞生,到 2019 年 GPT-2 诞生,再到 2024–2025 年的 DeepSeek-V3 和 Llama 4,这些模型在结构上仍如此相似,不免令人惊讶。

确实,位置编码从绝对位置进化到旋转位置(RoPE),多头注意力机制大多被分组查询注意力取代,激活函数也换成了更高效的 SwiGLU。但这些都算是小修小补。真有重大突破吗?还是说我们只是在不断打磨同一套架构底子?

想要比较不同 LLM 的表现,找出哪些因素带来了效果差异,其实是非常难的。其中训练模型用的数据、方法和超参数差异太大,而且很多细节也没有被公开。

不过我认为,仔细研究这些架构本身的结构变化(如下图 1 所示),对于洞察 2025 年大模型开发者的技术动向仍极具价值。

图 1:本文讨论的部分模型架构

这篇文章不会讨论模型跑分或训练技巧,而是专注于当下主流开源模型在架构设计上的演变。

如果你还记得,我不久前写过一篇关于多模态 LLM 的文章,这次我们只关注文本模型,多模态的事以后再说。

提示:万字长文,干货预警,建议收藏后,耐心研读。

DeepSeek V3 / R1

你大概已经不止一次听说过,DeepSeek R1 在 2025 年 1 月发布时引起了巨大反响。它是一个专注推理能力的模型,架构上基于 2024 年 12 月推出的 DeepSeek V3。

虽然本文重点是 2025 年发布的架构,但把 DeepSeek V3 一起纳入也很合理——毕竟直到 R1 火了之后,V3 才真正引起广泛关注和使用。

本节我会重点讲讲 DeepSeek V3 引入的两项关键架构设计,它们提升了计算效率,也让这个模型在一众 LLM 中脱颖而出:

  • 多头潜在注意力(MLA)
  • 混合专家(MoE)

1.1 多头潜在注意力(MLA)

在说 MLA 之前,先补点背景,方便理解它的意义。先从近几年越来越常见的分组查询注意力(GQA)讲起,这是一个比传统多头注意力(MHA)更节省计算和参数的替代方案。

GQA 跟 MHA 最大的区别在于键值(key/value)的共享机制:MHA 中每个头有自己的一套 key 和 value,而 GQA 会让多个注意力头共享同一组 key/value,从而减少内存开销。

比如下图所示(图 2),假设有 4 个注意力头和 2 组键值,那么头 1 和 2 用的是同一组 key/value,头 3 和 4 用的是另一组。这种方式减少了 key/value 的计算量,节省内存,同时消融实验也显示对建模效果几乎没有影响。

图 2:MHA 和 GQA 对比示意图。每两个查询头共享一组 key/value

GQA 的核心思路是通过共享 key/value 来减少总数:模型的总参数变少了; 推理时的 KV 缓存占用更小了,读取速度更快了。

如果你想看看 GQA 的代码实现,我在 GPT-2 转换到 Llama 3 的那篇文章里写过,包括不带 KV 缓存和带 KV 缓存的两种版本。

虽然 GQA 本质上是为了解决 MHA 在计算和内存上的问题,但包括它最初的论文和 Llama 2 的研究都表明,在建模效果上它跟 MHA 基本持平。

MLA 的出现则是另辟蹊径。它也能节省内存,特别适合搭配 KV 缓存。不同于 GQA 的共享策略,MLA 会先把 key 和 value 压缩到低维度再存进缓存,推理时再投影回原始维度使用(如图 3 所示)。虽然多了一次矩阵乘法,但大幅减少了缓存用量。

图 3:MLA(用于 DeepSeek V3 / R1)与传统 MHA 的对比

顺便一提,query 也会被压缩,但只发生在训练阶段,推理时不会。

其实 MLA 并不是 V3 才用的,早在 DeepSeek-V2 就已经引入并使用了。V2 的论文里还有一些挺有意思的消融实验,解释了 DeepSeek 团队为何最终选择 MLA 而非 GQA。

图 4:来自 DeepSeek-V2 论文的实验数据(arxiv/abs/2405.04434)

图中可以看出,GQA 表现反而比 MHA 差,而 MLA 的效果则优于 MHA,这很可能是团队选择 MLA 的主要原因。(虽然没比较 MLA 和 GQA 在每个 token 上节省多少 KV 缓存,也挺可惜的。)

总结一下:MLA 是个挺巧的设计,能有效减少 KV 缓存占用,同时在建模表现上还略强于 MHA。

1.2 混合专家(MoE)

另一个值得重点讲讲的架构模块就是 DeepSeek 用的混合专家(MoE)。虽然这个概念不是他们发明的,但今年 MoE 又火了起来,后面我们会看到越来越多模型在用。

你对 MoE 可能已经有所了解,但我还是简单回顾一下:

MoE 的核心思想是,把 Transformer 中的每个 FeedForward 模块替换成多个专家层,它们本质上还是 FeedForward 模块,只是数量不止一个,如下图所示(图 5)。

图 5:MoE 模块(右) vs 普通 FeedForward(左)

通常一个 Transformer 块里的 FeedForward 部分就占了模型绝大多数参数,而这些块会在 LLM 中重复很多次(比如 DeepSeek-V3 就有 61 层)。

所以如果把原本的一个 FeedForward 换成多个,模型的总参数量自然会暴涨。但 MoE 的关键点是:每个 token 并不会用到所有专家,而是由一个路由器动态挑选其中一小部分激活。

正因如此,MoE 通常被称为“稀疏模型”(只激活部分参数),与始终使用全部参数的“密集模型”相对。但总参数的增加带来了更大的模型容量,训练时可以学到更多的知识,而推理时只需用少量参数就能保持效率。

举个例子:DeepSeek-V3 的每层 MoE 有 256 个专家,总参数 6710 亿,但推理时每次只激活 9 个专家(包括 1 个共享专家和 8 个由路由器选出的),也就是说,实际只用了约 370 亿参数——远低于全部启用时的 6710 亿。

DeepSeek-V3 的 MoE 设计还有个特别之处,就是引入了一个“共享专家”——它对所有 token 都始终启用。这不是新点子,早在 2024 年的 DeepSeekMoE 和 2022 年的 DeepSpeedMoE 就提过。

图 6:来自论文 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models 的示意图

DeepSpeedMoE 首次提出“共享专家”的好处,研究发现它能提升整体效果。原因是,通用的模式可以由这个共享专家学习,其他专家就不用重复做这件事,可以专注于更特化的内容。

1.3 DeepSeek 总结

简单来说,DeepSeek-V3 是一个参数量高达 6710 亿 的超大模型,在发布时就超越了包括 405B 的 Llama 3 在内的其他开源模型。虽然体量更大,但它在推理阶段却异常高效,这得益于它的混合专家(MoE)架构,每次只激活一小部分(仅 370 亿)参数进行计算。

另一个重要的区别点是:它采用了多头潜在注意力(MLA),而不是如今更常见的分组查询注意力(GQA)。这两者都是为了让推理阶段更高效、特别是在用到 KV 缓存时。虽然 MLA 在实现上更复杂,但根据 DeepSeek-V2 的研究,MLA 在建模效果上优于 GQA,因此成为 DeepSeek 团队的首选。

2. OLMo 2

OLMo 系列由非营利机构 Allen Institute for AI 发布,最大的亮点是训练数据和代码都极为透明,技术报告也写得很详尽。

虽然你在各种榜单上可能看不到 OLMo 拿第一,但它的结构很干净,更重要的是,它为 LLM 开发提供了一个清晰可参考的模板,这在如今并不多见。

虽然 OLMo 受欢迎主要是因为它的开放性,但它本身表现也不差。事实上,在今年 1 月发布时(也就是 Llama 4、Gemma 3 和 Qwen 3 发布前),OLMo 2 在算力投入与性能之间达到了帕累托最优,如下图所示:

图 7:不同 LLM 在建模性能(越高越好)和预训练成本(FLOPs,越低越好)之间的对比图。图引自 OLMo 2 论文:https://arxiv/abs/2501.00656

正如本文一开始所说,这里重点关注架构本身,不涉及训练细节或数据。所以 OLMo 2 在架构上有哪些值得一提的设计?主要有两个方向:

  • RMSNorm 的放置位置(在注意力和前馈层之后)
  • 引入 QK-Norm(对 query 和 key 做归一化)

另外值得一提的是,OLMo 2 仍然使用传统的多头注意力(MHA),没有采用 MLA 或 GQA。

2.1 归一化层放置

整体上,OLMo 2 的架构仍然与 GPT 系列类似,但有几个关键点不一样。先说归一化(Normalization)层的放置。

和 Llama、Gemma 等大多数当代模型一样,OLMo 2 使用的是 RMSNorm 而不是 LayerNorm。

但 RMSNorm 本身并不新(它是 LayerNorm 的简化版本,参数更少),所以我们跳过对它本身的讨论。

重点在于 RMSNorm 放在哪:

  • 最早的 Transformer(Attention is All You Need)将归一化层放在注意力和前馈模块之后,叫 Post-LN
  • GPT 之后的主流做法是将归一化层放在注意力和前馈模块之前,叫 Pre-LN

图 8:Post-Norm、Pre-Norm 以及 OLMo 2 所采用变种的对比

研究发现,Pre-LN 可以改善初始化时的梯度表现,也更不依赖学习率预习策略。

但 OLMo 2 反其道而行,采用了一种 Post-Norm 变种(不过用的是 RMSNorm 而不是 LayerNorm),也就是将归一化放在模块之后,但仍然放在残差连接内部

为什么要这么做?因为这样能显著提升训练稳定性(如下图9所示)。

图 9:Pre-Norm(如 GPT-2、Llama 3 等)与 OLMo 2 的 Post-Norm 方案在训练稳定性上的对比

不过需要注意的是,图中效果不仅来自归一化位置变化,还包含了 QK-Norm 的引入,因此无法分辨各自单独的影响。

2.2 QK-Norm

由于上一节已经提到 QK-Norm,而我们之后将讨论的其他大模型如 Gemma 2 和  Gemma 3 也都采用了 QK-Norm,因此这里简单介绍一下它的含义。

QK-Norm 本质上是另一种 RMSNorm 层。它被放置在多头注意力(MHA)模块内部,在应用 RoPE 之前,用于对查询向量和键向量进行归一化。

为了说明这一点,下面是一段我在从零实现 Qwen3 时编写的 Grouped-Query Attention(GQA)层代码片段,其中 QK-Norm 在 GQA 中的应用方式与 OLMo 中的 MHA 相似:

class GroupedQueryAttention(nn.Module):
    def __init__(
        self, d_in, num_heads, num_kv_groups,
        head_dim=None, qk_norm=False, dtype=None
    ):
        # ...
        if qk_norm:
            self.q_norm = RMSNorm(head_dim, eps=1e-6)
            self.k_norm = RMSNorm(head_dim, eps=1e-6)
        else:
            self.q_norm = self.k_norm = None
    def forward(self, x, mask, cos, sin):
        b, num_tokens, _ = x.shape
        # Apply projections
        queries = self.W_query(x) 
        keys = self.W_key(x)
        values = self.W_value(x) 
        # ...
        # Optional normalization
        if self.q_norm:
            queries = self.q_norm(queries)
        if self.k_norm:
            keys = self.k_norm(keys)
        # Apply RoPE
        queries = apply_rope(queries, cos, sin)
        keys = apply_rope(keys, cos, sin)
        # Expand K and V to match number of heads
        keys = keys.repeat_interleave(self.group_size, dim=1)
        values = values.repeat_interleave(self.group_size, dim=1)
        # Attention
        attn_scores = queries @ keys.transpose(2, 3)
        # ...

如前所述,QK-Norm 与 Post-Norm 一起有助于稳定训练。需要注意的是,QK-Norm 并非 OLMo 2 首创,其最早可追溯到 2023 年的 Scaling Vision Transformers 论文。

2.3 OLMo 2 总结

简而言之,OLMo 2 架构中值得注意的设计决策主要体现在 RMSNorm 的放置位置:它将 RMSNorm 放在注意力模块和前馈模块之后,而不是之前(这是一种 Post-Norm 的变体),并在注意力机制内部为查询(query)和键(key)引入了额外的 RMSNorm(即 QK-Norm)。这两者结合,有助于稳定训练过程更稳定

下图进一步将 OLMo 2 与 Llama 3 做了并排比较;可以看到,除了 OLMo 2 仍使用传统的多头注意力(MHA)而非 GQA 这一点外,两者的架构整体上相对类似。不过,OLMo 2 团队在三个月后也发布了一个采用 GQA 的 32B 变体。

图 10:Llama 3 和 OLMo 2 的架构对比图

3. Gemma 3

Google 推出的 Gemma 系列一直表现非常出色,不过和像 Llama 这样的热门模型比起来,Gemma 似乎一直没被充分关注。

Gemma 的一个显著特点是其词汇表规模较大,同时也更注重在 27B 模型上的优化。不过需要注意的是,Gemma 2 也提供了小模型版本:1B、4B 和 12B。

27B 模型处于一个非常理想的平衡点,比 8B 模型强大得多,同时不如 70B 那样吃资源,在我自己的 Mac Mini 上也能跑得很好。

那么,Gemma 3 还有哪些架构上的亮点?前面提到,一些模型如 Deepseek-V3/R1 采用 Mixture-of-Experts(MoE)架构,在保持模型规模的同时降低推理时的内存开销。而 Gemma 3 则使用了另一种技巧,滑动窗口注意力(Sliding Window Attention) 来降低计算成本。

3.1 滑动窗口注意力

滑动窗口注意力最早在 2020 年的 LongFormer 论文中提出,Gemma 2 就已经在用,Gemma 3 延续了这一机制,并进一步优化,大幅减少了 KV 缓存的内存需求,如下图所示:

图 11:来自 Gemma 3 论文的图示(https://arxiv/abs/2503.19786),展示了使用滑动窗口注意力后 KV 缓存的节省

那么,什么是滑动窗口注意力呢?如果我们将常规的自注意力看作一种全局注意力机制,因为序列中的每个元素都可以访问其他所有元素,那么滑动窗口注意力则可以被视为一种局部注意力机制,因为它限制了当前查询位置周围的上下文范围。下图对此进行了示意说明。

图 12:左为常规注意力,右为滑动窗口注意力的对比图

请注意,滑动窗口注意力既可以与多头注意力(MHA)结合使用,也可以与分组查询注意力(GQA)配合使用,Gemma 3 就采用了分组查询注意力。

如上所述,滑动窗口注意力也被称为局部注意力,因为局部窗口会围绕当前查询位置并随之移动。相比之下,常规注意力是全局的,因为每个 token 都可以访问序列中的所有其他 token。

正如前文简要提到的,Gemma 3 的前代架构 Gemma 2 也使用了滑动窗口注意力。不同之处在于,Gemma 3 对全局(常规)与局部(滑动)注意力之间的比例进行了调整。

例如,Gemma 2 使用一种混合注意力机制,将滑动窗口(局部)与全局注意力以 1:1 的比例结合使用,每个 token 能够关注到一个长度为 4k 的邻近上下文窗口。

而在 Gemma 3 中,不再是每隔一层使用一次滑动窗口注意力,而是采用了 5:1的比例,也就是说,每 5 层局部注意力(滑动窗口)层中只穿插 1 层全局注意力层;此外,滑动窗口的大小也从 Gemma 2 的 4096 缩小到了 1024。这种变化使模型更加偏向高效的局部计算。

根据他们的消融实验研究,滑动窗口注意力对建模性能的影响非常小,如下图所示:

图 13:Gemma 3 论文中展示的图示表明,滑动窗口注意力对语言模型的困惑度几乎没有影响

尽管滑动窗口注意力是 Gemma 3 最显著的架构特点,但还有一个细节值得一提:归一化层的位置,这是与 OLMo 2 对比时的重要点。

3.2 归一化层放置

Gemma 3 使用 RMSNorm,但不同于其他模型,它在 Grouped-Query Attention 模块的前后都放置了 RMSNorm 层,兼顾了 Pre-Norm 和 Post-Norm 两种机制。

虽然 Gemma 2 也这么做了,但仍然值得强调,因为它与以下几种主流做法不同:

  • 原始 Transformer 的 Post-Norm(Attention is All You Need 论文中的方式)
  • GPT-2 普及的 Pre-Norm
  • OLMo 2 中特有的 Post-Norm 变体

图 14:OLMo 2 与 Gemma 3 的架构对比图,注意 Gemma 3 中额外的归一化层

这种做法其实挺直观:结合 Pre-Norm 和 Post-Norm 的优点。就算多加一点层归一化没什么用,也只是增加了极少量的冗余计算,因为 RMSNorm 的计算开销本身就很小。

3.3 Gemma 3 小结

Gemma 3 是一个表现优秀的开源权重大模型,在开源圈内被低估了。它最值得注意的是使用了滑动窗口注意力来优化效率,未来如果能和 MoE 结合会更有意思。

此外,Gemma 3 还有独特的归一化层布局,在注意力和前馈模块的前后都使用RMSNorm

3.4 补充:Gemma 3n

Gemma 3 发布几个月后,Google 又推出了 Gemma 3n,这是一个面向小设备优化的版本,目标是在手机上运行。

其中一个关键优化是引入了逐层嵌入(Per-Layer Embedding, PLE)的概念。其核心思路是:

  • 只将模型的一部分参数保留在 GPU 中;
  • 嵌入(如文本、音频、图像等模态)则按需从 CPU 或 SSD 流式加载。

下图展示了 PLE 的显存节省情况,其中列出的标准 Gemma 3 模型参数量为 54.4 亿。这很可能指的是 Gemma 3 的 40 亿参数变体。

图 15:来自 Google Gemma 3n 官方博客(https://developers.googleblog/en/introducing-gemma-3n/)的图示,展示了 PLE 的节省效果

5.44 亿与 40 亿参数之间的差异,源于 Google 在大模型参数统计方式上的一个有趣做法。他们通常会在参数量统计中排除嵌入层(embedding)参数,从而使模型看起来更小,但在某些时候,例如本例中,又会将其包含进去,以使模型看起来更大。这种做法并非 Google 独有,事实上,这已经成为整个行业内的一种常见做法。

另一个有趣的技巧是 MatFormer(Matryoshka Transformer 的缩写)概念。例如,Gemma 3n 使用的是一个共享的 LLM(Transformer)架构,该架构可以被切分成多个较小的、可独立使用的模型。每个切片都被训练成可以单独运行的子模型,因此在推理时,我们可以只运行所需部分,而不必加载整个大模型。

4. Mistral Small 3.1

Mistral Small 3.1 24B 于 3 月发布,紧随 Gemma 3 之后,其在多个基准测试中表现优于 Gemma 3 27B(数学除外),且速度更快。

Mistral Small 3.1 推理延迟较低的原因很可能归功于其定制的分词器,以及缩减了 KV 缓存和层数。除此之外,其架构较为标准,如下图所示。

图 16:Gemma 3(27B)与 Mistral 3.1 Small(24B)的架构对比图

有趣的是,早期的 Mistral 模型其实用过滑动窗口注意力,但在 Mistral Small 3.1 中他们放弃了这一机制。换句话说 Gemma 3 使用的是带滑动窗口的 Grouped-Query Attention(GQA),Mistral Small 3.1 则使用了标准的 GQA。

这种改变的一个可能好处是标准 GQA 更容易使用高度优化的推理实现,比如 FlashAttention,从而进一步提升推理速度。

我推测虽然滑动窗口注意力确实能节省内存,但它未必真的能减少推理延迟。而 Mistral Small 3.1 的设计目标显然是优先优化速度,而不是单纯追求内存压缩。

5. Llama 4

前文对 Mixture-of-Experts(MoE,混合专家模型)的介绍在这里再次派上用场。Llama 4 同样采用了 MoE 架构,其余部分则遵循了一个相对标准的设计,整体结构和 DeepSeek-V3 非常相似,如下图所示。(Llama 4 也原生支持多模态,与 Gemma 和 Mistral 等模型类似。不过由于本文重点讨论语言建模,因此这里只关注其文本模型部分。)

图 17:DeepSeek V3(总参数 6710 亿)与 Llama 4 Maverick(总参数 4000 亿)的架构对比图

尽管 Llama 4 Maverick 的整体架构看起来和 DeepSeek-V3 非常接近,但其中还是有一些值得注意的差异。

首先,Llama 4 沿用了前几代中的 Grouped-Query Attention,而 DeepSeek-V3 使用的是本文开头提到的 Multi-Head Latent Attention。两者本身都是超大规模架构,其中 DeepSeek-V3 的总参数量大约比 Llama 4 Maverick 多 68%。但在实际推理过程中,DeepSeek-V3 的激活参数为 370 亿,远多于 Llama 4 Maverick 的 170 亿,几乎是后者的两倍。

Llama 4 Maverick 采用的是更经典的 MoE 结构,使用更少但更大的专家(每次激活 2 个,每个专家的隐藏层大小为 8192),而 DeepSeek-V3 则是每次激活 9 个专家,每个隐藏层大小为 2048。此外,DeepSeek 在除前 3 层之外的每个 Transformer block 中都使用 MoE 层,而 Llama 4 则是在每两个 block 中交替使用 MoE 和 Dense 模块。

考虑到两者在架构上的诸多细节差异,我们很难判断这些设计对最终模型性能的具体影响。不过,最值得注意的是,MoE 架构在 2025 年已经流行起来。

6. Qwen3

Qwen 团队一直在持续发布高质量的开源大模型。我记得在 NeurIPS 2023 的 LLM 效率挑战赛上,我作为联合顾问参与时,所有获奖方案都是基于 Qwen2 的。现在,Qwen3 又是一款表现突出的新模型系列,在各自的模型规模等级中都处于排行榜前列。这一代一共有 7 个 dense 模型,分别是 0.6B、1.7B、4B、8B、14B 和 32B。还有 2 个 MoE 模型,分别是 30B-A3B 和 235B-A22B。顺带一提,"Qwen3" 中间没有空格不是打错了,而是我特意保留了 Qwen 开发者选择的原始拼写方式。

6.1 Qwen3 (Dense)

先来聊聊 dense 模型架构。截至目前,0.6B 版本很可能是当下体积最小的现有开源模型。根据我个人的使用经验,考虑到它的体积,它的表现非常不错。它拥有很高的每秒处理 token 数量和较低的内存占用,非常适合本地运行。更重要的是,由于体积小,它也方便本地训练,非常适合教学用途。

所以,Qwen3 0.6B 在我看来已经在大多数场景下取代了 Llama 3 1B。下面展示了这两者架构的对比。

图18:Qwen3 0.6B 与 Llama 3 1B 的架构对比图;可以看到 Qwen3 拥有更深的架构和更多的层数,而 Llama 3 拥有更宽的架构和更多的注意力头

如果你对一个无需依赖外部第三方大模型库、易于阅读的人类友好版 Qwen3 实现感兴趣,我最近用纯 PyTorch 从零实现了 Qwen3。

(https://github/rasbt/LLMs-from-scratch/tree/main/ch05/11_qwen3)

上图中的计算性能数据来自于我的这个从零实现的 PyTorch 版本,在 A100 GPU 上测试获得。可以看到,Qwen3 的内存占用更小,因为整体架构更紧凑,隐藏层更小,注意力头数量也更少。但它使用的 Transformer 层数比 Llama 3 多,因此运行速度较慢,生成 token 的速度也相对较低。

6.2 Qwen3 (MoE)

如前所述,Qwen3 也有两种 MoE 版本:30B-A3B 和 235B-A22B。为什么有些架构,比如 Qwen3,会同时提供普通(稠密)和 MoE(稀疏)两种版本呢?

正如本文开头提到的,MoE 版本有助于降低大模型的推理成本。提供稠密和 MoE 两种版本,可以让用户根据自己的需求和限制灵活选择。

稠密模型通常更容易进行微调、部署和在各种硬件上优化。

而 MoE 模型则针对推理扩展进行了优化。例如,在固定的推理预算下,它们可以实现更高的整体模型容量(即由于模型更大,训练时能吸收更多知识),而推理成本并不会按比例增加。

通过同时发布这两种版本,Qwen3 系列可以支持更广泛的应用场景。稠密模型注重稳健性、简单性和微调能力,MoE 模型则注重大规模高效推理。

总结本节,我们来看一下 Qwen3 235B-A22B(其中 A22B 指“220亿激活参数”)和 DeepSeek-V3,它的激活参数几乎是前者的两倍(370亿)。

图19:DeepSeek-V3 与 Qwen3 235B-A22B 架构对比图

如上图所示,DeepSeek-V3 和 Qwen3 235B-A22B 的架构非常相似。但值得注意的是,Qwen3 模型放弃了使用共享专家(而早期的 Qwen 模型,如 Qwen2.5-MoE,是使用共享专家的)。

遗憾的是,Qwen3 团队没有透露他们放弃共享专家的原因。如果让我猜测,可能是因为当他们将专家数量从 2(Qwen2.5-MoE)增加到 8(Qwen3)后,训练稳定性不再依赖共享专家了,因此他们通过只用 8 个专家而不是 8+1 个专家,节省了额外的计算和内存开销。不过,这也无法解释为什么 DeepSeek-V3 仍然保留了共享专家。

7. SmolLM3

SmolLM3 可能不像本文介绍的其他大模型那样受欢迎,但我觉得它依然值得关注,因为它在相对小巧、便于使用的 30 亿参数规模下,展现了很好的建模性能,介于 Qwen3 的 1.7 亿和 4 亿参数模型之间,如下图所示。

此外,SmolLM3 也公开了大量训练细节,类似于 OLMo,这种透明度在业界比较少见,也非常值得赞赏!

图20:摘自 SmolLM3 发布公告(https://huggingface.co/blog/smollm3)的带注释图,比较了 SmolLM3 的胜率与 Qwen3 1.7B、4B 以及 Llama 3 3B 和 Gemma 3 4B 的表现

从下图 21 的架构对比来看,SmolLM3 的架构相对标准,或许最有趣的地方在于它采用了 NoPE(无位置编码)。

图21:Qwen3 4B 与 SmolLM3 3B 的架构并列对比图

7.1 无位置编码(NoPE)

NoPE 在大模型中是一个较早的概念,可以追溯到 2023 年的一篇论文 The Impact of Positional Encoding on Length Generalization in Transformers,其核心思想是不注入任何显式的位置编码信息,比如早期 GPT 架构中经典的绝对位置嵌入层,或者现在常用的 RoPE(旋转位置编码)。

在基于 Transformer 的大模型中,位置编码通常是必要的,因为自注意力机制并不区分序列中 token 的顺序。传统的绝对位置编码通过增加额外的嵌入层,将位置信息加入到 token 嵌入中。

图22:摘自我的新书《从零构建大模型》中,展示了绝对位置编码的示意

而 RoPE 则通过根据 token 的位置对查询向量和键向量进行旋转,从而解决了这个问题。

然而,在 NoPE 层中,根本不会添加任何位置相关的信息,既没有固定的,也没有学习得到的,更没有相对位置编码,完全没有任何位置信号。

尽管没有显式的位置编码,模型仍然能知道 token 的先后顺序,这是因为因果注意力掩码的作用。该掩码阻止每个 token 关注未来的 token,因此位置为 t 的 token 只能看到位置小于等于 t 的 token,从而保持了自回归的顺序。

所以,尽管没有明确注入位置信息,模型结构本身隐式地保留了顺序感,而且在常规的基于梯度下降的训练过程中,大型语言模型可以学会利用这一点,如果这对优化目标有利的话。

总体来说,NoPE 论文不仅发现不注入位置信息也是可行的,而且还发现 NoPE 在长度泛化上表现更好,也就是说随着序列长度增加,模型回答性能的下降幅度更小,如下图 23 所示。

图23:摘自NoPE论文(https://arxiv/abs/2305.19466)的一张带注释图,展示了NoPE在长度泛化能力上的提升

需要注意的是,上述实验是在一个参数规模大约 1 亿、上下文长度较小的 GPT 风格模型上进行的,目前尚不清楚这些发现能否推广到规模更大、更现代的大模型上。

因此,SmolLM3 团队很可能仅在每第四层应用了 NoPE(或者更准确地说,是省略了 RoPE)。

8. Kimi 2

Kimi 2 最近在 AI 社区引起了很大关注,因为它是一款开源权重模型,表现非常出色。根据各类基准测试,它的性能可与谷歌的 Gemini、Anthropic 的 Claude 以及 OpenAI 的 ChatGPT 等顶级专有模型相媲美。 一个显著的特点是它采用了一种相对较新的 Muon 优化器变体,取代了 AdamW。据我所知,这是 Muon 优化器首次在如此规模的生产模型中被应用,此前仅在最大 16 亿参数规模的模型中展示过其可扩展性。这一改进带来了非常理想的训练损失曲线,也很可能帮助该模型在上述基准测试中跃居榜首。

虽然有人评论说该损失曲线异常平滑(因为没有明显的波动),但我认为它并非特别平滑(例如,下图中的 OLMo 2 损失曲线就有波动;另外,梯度的 L2 范数可能是跟踪训练稳定性的更好指标)。不过,值得称赞的是损失曲线的衰减表现非常出色。

不过,正如本文开头所提到的,训练方法学的问题留待以后再深入讨论。

该模型规模达到惊人的 1 万亿参数。

就目前来看,它可能是这一代中最大的大模型(考虑到 Llama 4 Behemoth 尚未发布,专有模型不计算在内,以及谷歌的 1.6 万亿参数 Switch Transformer 属于不同世代的编码器-解码器架构)。

此外,Kimi 2 采用了我们在本文开头介绍过的 DeepSeek-V3 架构,不过规模更大,如下图所示。

图25:DeepSeek V3 与 Kimi K2 的架构对比图

如上图所示,Kimi 2.5 基本上与 DeepSeek V3 相同,只是在 MoE 模块中使用了更多专家,在多头潜在注意力(MLA)模块中使用了更少的头数。

Kimi 2 并非凭空出现。早期的 Kimi 1.5 模型在论文 Kimi k1.5: Scaling Reinforcement Learning with LLMs 中也表现不俗,不过它有些“倒霉”,因为 DeepSeek R1 模型论文正好在同一天(1 月 22 日)发布。此外,据我所知,Kimi 1.5 的模型权重从未公开分享过。

因此,很可能 Kimi K2 团队吸取了这些教训,在 DeepSeek R2 发布之前,将 Kimi K2 以开源权重的形式发布。截至目前,Kimi K2 是最令人印象深刻的开源权重模型。

经过这么多年,LLM 的发布依然令人兴奋,我也很期待接下来会会更新的动态!

原文地址:
​​​https://sebastianraschka/blog/2025/the-big-llm-architecture-comparison.html​​

#Claude Code 遭深度逆向

核心技术架构被 95% 还原

未来的 AI 编程助手,不会是 ChatGPT 的一个功能分支,而是一个具备工程稳定性、安全性、组织能力的智能体操作平台。

前几天晚上,我在 GitHub 上看到一个让我眼睛发直的项目。

一个叫 shareAI‑lab 的团队对 Claude Code 进行了彻底逆向,并把完整的研究资料、中间的分析过程全部 po 了出来。

Claude Code 可是 Anthropic 家的当红炸子鸡,是他们在 AI coding 这条路上最拿得出手的产品。

但现在,Claude Code 的底裤被一个民间逆向仓库扒了,曝光了核心技术架构、实现机制和运行逻辑,相当于做了个开箱拆机,连怎么听懂人话、怎么调用工具、怎么记住上下文、怎么防恶意指令,全都曝光了。

仓库地址我放在这里了:

​​https://github/shareAI-lab/analysis_claude_code​​

(PS:这个项目目前在 archive,作者佬在小红书回应还在更新中)

先铺个背景方便大家伙儿理解——

大家都知道 Claude Code 本身是闭源的,但为了让 CLI 正常跑,他们还是得把代码随安装包发给用户。所以 CLI 里还打包了一份 50 k+ 行的混淆 JavaScript 代码,只是这份代码被 刻意“打乱、加密、改名”,目的就是把核心算法和 Prompt 逻辑藏起来,让人看不懂,避免别人抄袭了去。这就叫 JavaScript 混淆。

但是 JS 终究要跑在本地,再怎么混淆,Node.js 终究要看到可执行的明文逻辑,这就给逆向者提供了入口。

那这位民间逆向者是咋做的呢?

他们是用 claude code 去分析 claude code(v1.0.33)本身的混淆后代码** **,(哎?听起来像套娃)

也就是对 5 万行的混淆代码切片,借助 Claude Code 的力量分析 15 个 chunks 文件,再用人肉 + 调试补洞,最后拼出来一份 95% 准确度的“推断版架构”

【友情提示】:下面的逆向笔记并非官方文档,README 里写得很直白——“非 100 % 准确,分析过程中 LLM 难免出现幻觉,仅供学习参考”。

先来看看这份逆向推断版的 Claude Code 系统架构全景图:

最核心的技术映射如下——

最顶层是用户交互层

无论你是在命令行里敲 Claude、在 VSCode 用插件,还是在 Web 页面上跑,它们背后对接的其实是同一套调度系统。

这一层只负责接收你的指令,并把它们统一编码为 Claude Agent 系统能理解的请求格式。也就是说,不管你从哪个入口发出指令,最终都会被转化为统一的数据格式,由 “Claude 模型大脑”接收和处理。

而这个“大脑”在中间层——Agent 核心调度层

中心是一个叫 nO 的主循环引擎(其实就是 AgentLoop),它负责管理一切智能体行为的“总调度室”。流程图是这样的:

你每输一句话,它就得判断:

  • 是不是新任务?
  • 需要调用哪些工具?
  • 哪些 Agent 该被唤醒?
  • 哪些历史信息要压缩?
  • 有没有地方出错要补救?

这些决策的执行,要靠它左手的h2A 消息队列(负责异步传输和流式反馈),右手的 wu 会话流生成器(实时生成文字输出),加上一套名为 wU2 的压缩引擎来动态优化你用过的上下文。

注意,这里没有一个地方是模型在跑。模型本身只是调度结果中的一个工具,它只是整个流程中的一个“被调用者”。真正做判断、做协调的,是这一整套调度引擎和运行时逻辑。

往下是工具执行与管理层,也是 Claude Code 最像“中台”的地方。

它负责调度具体的子 Agent。比如你发一个“运行 shell 命令”的请求,它就会调出负责 bash 执行的 Agent;你要求读取项目目录,它就找出读写权限最小的文件管理 Agent。

这些 Agent 都受控于几大核心部件:

  • MH1 工具引擎:发现工具、校验参数、分配任务;
  • UH1 并发调度器:限制并发量、防止资源争抢;
  • SubAgent 管理器:给每个子任务分配独立 Agent,并做任务隔离;
  • 权限验证网关:判断你这个 Agent 能不能运行某条命令、能不能访问某个文件、有没有联网权限。

也就是说,Claude 不是一次性调一个“大助手”来干活,而是每个任务都生成一个独立的“子 Agent”,然后严格按照权限、状态、工具能力来分发执行。

继续往下,是工具生态系统

这就是 Claude Code 真正的“武器库”。上百个分类明确、职责清晰的小工具,从文件读写、命令执行,到网络搜索、任务管理、MCP 集成、性能诊断应有尽有。

你以为 Claude 在思考,其实它只是在调用:

  • 谁擅长这类问题?哪个 Agent 适合?
  • 有没有需要配合的两个工具一起跑?

这种工具生态不是插件,而是结构化地配置在系统里。

工具的定义方式是文件级别,每一个工具都是一个可管理、可审计、可热加载的模块单元。你甚至可以自己写一个 .yaml 文件扔进目录里,Claude 立马能发现它、加载它、赋权限。

最底层,是存储与持久化系统

这是 Claude 记忆力的来源,整个记忆架构分三层。

它是按时间维度、压缩策略、任务粒度分层处理记忆:

  • 当前会话 → 放在 Messages 里,支持即时交互;
  • 中期摘要 → 放进 Compressed 模块,由 wU2 压缩器负责优化;
  • 永久偏好 → 写入 CLAUDE.md,包括你常用语言、项目结构、喜好工具等;
  • 系统状态 → 存在 StateCache 里,比如某工具运行次数、是否曾报错、是否因权限受限被禁用等。

每一次调用、每一个决策,其实都依赖于这些存储结构的回忆。

Claude Code 并不依赖于云端记忆,而是靠本地状态文件、上下文压缩算法、状态缓存系统构建出一个“类人记忆”的思维体系。

这就是 Claude Code 系统架构的全貌。

它把一套多 Agent 系统跑得像流水线一样顺滑。Claude Code 早就不是一个“智能补全”的工具了,它是一套 AI 时代的“本地分布式 Agent 操作系统”。

说到这里,很多人可能还是觉得,这不就是多加了几个 Agent 和工具嘛,有啥真正厉害的地方?

错了。

如果你真的打开那份逆向分析文档,你会看到一个句子像电流一样穿过代码注释和调度日志:Claude Code 的真正突破,不在于调了几个工具,而在于它让这些 Agent 之间的协作,变成了“实时的、稳态的、动态可控”的过程。

简单说,它不仅能调,还能边调边改方向,边跑边让不同 Agent 对齐节奏。这听起来像废话,但工程上能做到的几乎没有。

另外,项目作者还整理了这里面的重要的技术创新,实时 Steering 技术和 智能上下文压缩算法。​

实时 Steering:从“触发”到“引导”的跃迁

大多数 AI 工具的调度逻辑是触发式的,也就是你下个请求,我执行一次;你换个指令,我再跑一遍。但 Claude Code 的 h2A 消息队列,不是“等你发完才处理”,而是能在指令刚输入一半时就启动流程,并边接收、边调度、边调整。

我们在逆向文档里看到它的核心机制用的是“双缓冲队列 + 条件触发消费”,伪代码如下:

class h2AAsyncMessageQueue {  
  enqueue(message) {  
    // 策略1: 零延迟路径 - 直接传递给等待的读取者  
    if (this.readResolve) {  
      this.readResolve({ done: false, value: message });  
      this.readResolve = null;  
      return;  
    }

    // 策略2: 缓冲路径 - 存储到循环缓冲区  
    this.primaryBuffer.push(message);  
    this.processBackpressure();  
  }  
}

简单来说,它不是等消息“堆满”才动,而是只要有人等,它就立刻传;没人等,它就缓冲 + 限流。再加上流式写回机制,这就保证了 Claude 可以边生成文字、边调整任务、边响应新输入。

这才是真正的“Steering”,你能在它做的时候,随时发指令“换方向”,它立刻响应。​

智能上下文压缩:用算法判断保留谁在说话

Claude 的第二个重大创新,是我们看到的 wU2 上下文压缩系统。

很多 AI 产品都在解决一个问题:上下文太长,token 爆炸,要裁剪。但大多数产品是靠“历史越久越删”“内容越长越删”,要么全砍,要么硬塞。

Claude 不一样。它用了一种 “重要性加权 + 策略性摘要”的压缩法。

比如这段触发逻辑:

// 压缩触发逻辑  
if (tokenUsage > CONTEXT_THRESHOLD * 0.92) {  
  const compressedContext = await wU2Compressorpress({  
    messages: currentContext,  
    preserveRatio: 0.3,  
    importanceScoring: true  
  });  
}

意思是,当 token 使用量超过阈值 92%,系统就会调用压缩器进行上下文重构。但不是压缩全部,而是按“重要性”打分,只保留 30% 的最关键段落,剩下的提炼成摘要。

这一设计让 Claude 在执行任务时,可以更精准地维持上下文的“记忆完整度”。压缩操作不以时间或长度为主维度,而是以内容关键性为准则,减少冗余信息对模型推理的干扰,同时维持对历史任务、用户偏好和中间变量的追踪能力。

这也是为什么用户在与 Claude 进行长时间交互时,会感觉它记得住,并且记得的都是重点,不容易断片。

从这次的逆向文档中,我们第一次清晰地看到了什么是真正有工程厚度的 Agent 产品。

它并不追求一句话能做多少事,而是让每一句话的背后,都能安全、高效、合理地调度十个 Agent。

而且关键是,它是真的跑起来了

它让我们看到一个事实:

未来的 AI 编程助手,不会是 ChatGPT 的一个功能分支,而是一个具备工程稳定性、安全性、组织能力的智能体操作平台。

#Qwen3-"VL"

超小中文多模态模型拼接微调

  • 作者:情感机器实验室——陈少宏
  • 邮箱:shaohon_chen@115lab.club
  • GitHub:https://github/ShaohonChen/Qwen3-SmVL
  • SwanLab:https://swanlab/@ShaohonChen/Qwen3-SmVL/overview
  • 数据集:https://huggingface.co/datasets/HuggingFaceM4/the_cauldron

摘要

最近Huggingface团队发布了超小多模态模型SmolVLM2,可以做到端侧1GB显存推理。在怀着惊喜试用后发现,虽然模型有极其强大的视觉文本理解能力,但是模型却无法理解中文。这对一个“四六级压线过”的笔者来说十分不友好。刚好前段时间做SwanLab硬件检测适配时有一台未到期的沐曦曦云C500服务器,因此萌生了使用 沐曦GPU芯片 微调、把当前中文小模型扛把子Qwen3与SmolVLM2直接微调拼接的想法。

本教程将介绍一种模型拼接的思路,将SmolVLM2的视觉模块(0.09B)与Qwen3最小的模型(0.6B)进行对齐微调,最终使得Qwen模型具备一定的视觉理解能力。由于笔者时间有限且考虑到文章篇幅的原因,因此该系列预计将以系列的方式放出。篇幅规划如下:

  • 第一篇 :如何构建和微调一个拼接模型( 本篇博客 )
  • 第二篇 :模型测评、数据集优化、回答人类对齐
  • 第三篇 :微调技巧介绍、视觉位置编码改动与模型结构优化

⚠️关于算力的注意:本教程涉及VLM微调训练,对算力要求较高,需要40G及以上的GPU显存才能运行本教程的训练代码。

SmolVLM2的背景知识

首先,我们先回顾一下SmolVLM2模型的构建方案,SmolVLM2模型的整体包括三大块:视觉模型层,特征映射层和大语言模型层,见下图:

SmolVLM2的架构图

这个设计是现在比较常见的VLM方案。核心设计思想就是让视觉模型的输出特征与经过embedding的文本特征直接拼接后输入到语言模型(LLM)当中,没有交叉注意力等模块。相比于早期LLaVA等架构,这种最大的优点就是可以最大程度复用已有的语言模型。以Qwen2.5-VL为例,其3B、7B、72B模型大小指的只是LLM部分,并没有包含Vision模块,实际上3B模型的参数量接近4B,视觉模块大概0.4B左右,三个不同大小的VLM使用的是统一的视觉模型。对于一些较大的VLM来说,构建视觉模型时绝大多数的训练都集中在特征映射模块和视觉模块,只在最后阶段为了最终效果进行整体微调时才会调整语言模块。保证了VLM的语言能力。

下面简述一下各个模块的细节:

  • 视觉模型层:SmolVLM2-256M版本用的是Google的SigLip模型,一个基于ViT的视觉模型,选用的是最小的SigLip-93M的版本,HF论文里没具体写是直接用的SigLip的参数还是他们从零构建的(有注意到的读者可以评论留言下)。在SmolVLM2代码中对应的是​​SmolVLMVisionTransformer​​类
  • 特征映射层:就是一个简单的MLP,不过SmolVLM2中为了降低图像分辨率还做了一个Pixel shuffle来降低图像分辨率,进一步减少视觉的Token占用,减少了文本长度。HF团队在论文里提到对于参数量较小的VLM来说使用Pixel shuffle还能提升性能。但可训练参数其实就是一个单层的神经网络,这个模块的核心作用就是做特征对齐,将视觉特征从768维(SigLip的维度)映射到576维(SmolLLM2的维度)
  • 大语言模型:SmolVLM2-256M模型使用的文本模型是SmolLM-135M版本。可能是由于模型较小,HF团队在论文中说到训练时仅采用两阶段训练:大规模图文训练+针对视频任务的专门微调。为了保障模型的文本能力HF团队在训练数据中参杂了大概14%的纯文本微调数据。不过考虑到视觉模块本身参数量(93M)大小接近于文本模型(135M),因此笔者推测相比于冻结文本模型,数据平衡在这之中会起到更关键的作用。

HF团队在原文中还提到了许多影像小模型VLM性能的trick,感兴趣的读者可以进一步参考SmolVLM2的论文​

模型拼接和微调思路简介

正所谓顶级食材(模型)只需要最简单的烹饪。模型拼接的思路非常简单直接,基本就三步:

  1. 调整SmolVLM2的“上下文控制格式”,使得其与Qwen3兼容。
  2. 将模型的文本部分直接从SmolLM2换成Qwen3-0.6B,包括其文本tokenizer和词嵌入、文本模型、以及模型最后输出的语言模型头(LM Head)。
  3. 需要重新初始化特征映射层的MLP,从768->576的单层神经网络改成768->1024的单层神经网络即可。

整体架构和对图文对前后处理依旧保持SmolVLM2的流程不变,具体改动见下图:

将Qwen3-0.6B替换SmolVLM2的语言模型部分

笔者接下来详细介绍下为了实现“拼接”,具体改动的地方,供之后有类似的任务的读者参考。​

模型拼接实现和关键代码讲解

第一处改动:SmolVLM2的Tokenizers部分

首先需要改动的就是需要改动的是SmolVLM2的Tokenizers部分,这里面主要是涉及两个问题:

  • 第一个问题是要将SmolVLM2用于指示图像位置的特殊令牌(Special Token)加入到Qwen3的Tokenizer当中,这么做的目的是防止SmolVLM2的图像Token​​<image>​​​被切分为​​<​​​、​​image​​​、​​>​​​三块。幸运的是,Qwen3本身在Tokenizers中预留了未来用于多模态的特殊特殊令牌​​<|image_pad|>​​​。因此读者直接使用了​​<|image_pad|>​​​代替了​​<image>​​。用于在文本中预留图像特征的插入点。
  • 第二个问题是:SmolVLM2的chat_template和Qwen3的chat_template差别极大。chat_template的作用是通过格式化文本让模型清楚知道不同Token所代表的背景信息。用最近比较流行的话来说就是“上下文工程”(Context Engineering)。

这里我列举了一下Qwen3、SmolVLM2、Qwen2.5-VL在聊天场景下的上下文,供读者参考。

Qwen3聊天上下文格式

以给一张图片,问题是“你的名字是什么?”,模型回答是“我的名字是Qwen”为例子。模型的上下文如下:

<|im_start|>user
你的名字是什么?<|im_end|>
<|im_start|>assistant
<think>

</think>

我的名字是Qwen<|im_end|>

注意Qwen3上下文是没有预留图像位置的,但相比于一般的LLM和VLM多了一个用于插入模型思考过程的​​<think><\think>​​,以及包含额外的函数调用控制文本。为了便于读者理解,读者在在下面举了一个函数调用的例子。这些函数调用上下文用于控制模型调用外部函数、API或者MCP接口和接收其返回的信息。

考虑到篇幅限制,本文就不粘贴带函数调用、推理、思考等一系列上下文的信息了(笔者打印了下发现实在太长了)。感兴趣的读者可以在Qwen3的官方文处了解详细设计

  • Qwen3函数调用案例

可以说正是这些复杂的上下文信息让模型有可能实现推理、调用函数等多样化的能力。包括多模态理解任务也需要先对上下文进行设计。

SmdwadwdoVLM2聊天上下文格式:

以给一张图片,问题是“How many dog in there.”,模型回答是“There are Three dogs.”为例子。三种不同模型的上下文如下:

<|im_start|>User:<fake_token_around_image><row_1_col_1><image>...<image><fake_token_around_image><row_1_col_2><image>...<image><fake_token_around_image><row_1_col_3><image>...<image>...<fake_token_around_image><row_4_col_4><image>...<image>

<fake_token_around_image><global-img><image>...<image><fake_token_around_image>How many dog in there.<end_of_utterance>
Assistant: There are Three dogs.<end_of_utterance>
Assistant:

看起来非常乱,是因为有大量的​​<image>​​​占位符。​​<image>...<image>​​​之间是许多的​​<image>​​,笔者为了文章观感删掉了大量的占位符。注意模型的回车、空格均为上下文的一部分,在进行推理时需要严格遵守缩进关系。

但是我们仍能找到熟悉的内容,如​​User:​​​,​​Assistant:​​等用于提示模型用户的输入与模型应当输出的位置。这些关键词和Qwen类似。

读者注意到了除了​​<fake_token_around_image>​​​,​​<image>​​​等用于指示图像的词,还出现了这种位置指示符,这是因为SmolVLM2为了防止降采样对图像分辨率影响,专门使用了​​image splitting​​​技术,简单来说就是将全局图和高清的局部图共同输入到模型当中(见下图​​image splitting​​模块),感兴趣的读者可在文末找到HF的技术报告了解详细技术。

SmolVLM2的完整推理流程,可以看到在图像输入前使用​​image splitting​​进行了预切分

本博文的拼接模型Qwen3-SmVL模型

相比于Qwen3,SmolVLM2少了很多上下控制的

为了尽可能保存或者说预留Qwen3的思考、函数调用等能力,笔者最终选择将SmolVLM2对于图像特征的排列插入到Qwen3的上下文格式当中。最终上下文格式如下:

<|im_start|>user
<vision_start><row_1_col_1><|image_pad|>(图像插入的地方)<|image_pad|><vision_start>
(用户提问的地方)
<|im_end|>
<|im_start|>assistant
<think>

</think>

(模型回答的地方)<|im_end|>
<|endoftext|>

可以看到读者尽量保持了与Qwen3的风格和复用特殊令牌。这样能够使得后续拼接的Qwen3-0.6B模型不至于受到上下文差异过大带来的性能损耗。实际上在设计微调上下文时应尽量与模型先前训练的任务接近,以减少微调带来的性能损失。

transformers实现模型上下文格式控制的代码并非python语言,而是一种前端文本格式控制的语言Jinja。这个语言的变量作用域设计简直可以说是有魔法在里面。配合上Qwen3功能丰富且复杂的上下文策略,让笔者花了2个小时用于修改chat_teamplate。这里笔者不赘述如何修改chat_template,感兴趣的读者可以去文末代码链接寻找​​chat_template.jinja​​文件,笔者专门将chat_template模版拿出来,并且做了格式化方便读者阅读。未来有时间了笔者专门写一篇模型上下文控制与jinja语言的博客。

第二处改动:替换SmolVLM2的SmolLM2模型为Qwen3-0.6B

替换模型这块没什么复杂的,主要是需要处理Transformers比较复杂的嵌套逻辑。Tranformers通常建议模型将预训练模型backbone和下游任务分开来。改动逻辑图如下:

替换smolvlm2的文本模块和语言模型头

以Qwen3为例,预训练Backbone模型为​​Qwen3Model​​​,仅仅包含embedding层、各个Decoder层,最后输出的是所有输入token的hidden state。负责下游任务的Qwen3提供了包括:用于因果语言序列生成的​​Qwen3ForCausalLM​​​,也就是大家常用的语言生成。负责句子分类​​Qwen3ForSequenceClassification​​​,使用最后一个生成的token输入到一个单层MLP做序列级分类,做句子情绪分类等可以用这个下游模型;​​Qwen3ForTokenClassification​​​用于做Token级分类,比如语言实体抽取任务可以使用这个下游模型。​​Qwen3ForQuestionAnswering​​则是专门做抽取式问答任务的模型,核心思想是输入(问题,参考文本)让模型从参考文本中找到与问题最相关的一段,这类任务由于RAG系统的出现没那么流行了,未来笔者专门出一个系列的教程阐述除了因果语言序列生成以外的任务则怎么微调。

关键代码如下

from transformers import (
    AutoProcessor,
    AutoModelForImageTextToText,
    AutoTokenizer,
    AutoModelForCausalLM
)

# 替换text模型和head
smolvlm2_02B_model = AutoModelForImageTextToText.from_pretrained(
    "model/SmolVLM2-256M-Video-Instruct",
    torch_dtype=torch.bfloat16,
    _attn_implementatinotallow="eager",
).to(device)

qwen3_06b_model = AutoModelForCausalLM.from_pretrained(
    "model/Qwen3-0.6B", torch_dtype=torch.bfloat16
).to(device)

smolvlm2_02B_model.model.text_model = qwen3_06b_model.model
smolvlm2_02B_model.lm_head = qwen3_06b_model.lm_head
...

接下来比较复杂的是替换所有的关键变量,比如模型内用于在文本序列中为图像特征预留的占位符​​image_token_id​​​,用于指示停止生成的​​eos_token_id​​​,和计算loss值会用到的​​vocab_size​​,Qwen的词表大小为151936,远远大过SmolVLM2的词表49280。具体代码如下:

...
# 替换词表大小
smolvlm2_02B_model.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.model.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.config.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.config.text_config.vocab_size = qwen3_06b_model.vocab_size
smolvlm2_02B_model.model.config.vocab_siz = qwen3_06b_model.vocab_size
smolvlm2_02B_model.model.config.text_config.vocab_size = qwen3_06b_model.vocab_size
# 替换图像token
smolvlm2_02B_model.image_token_id = 151655
smolvlm2_02B_model.model.image_token_id = 151655
smolvlm2_02B_model.config.image_token_id = 151655
smolvlm2_02B_model.model.config.image_token_id = 151655
# 替换模型生成停止符
smolvlm2_02B_model.generation_config.eos_token_id = 151645
···

上面的代码可以看到在替换各个变量时需要将嵌套模型的变量一起替换掉,笔者之前训练时就因为仅仅替换了​​SmolVLMForConditionalGeneration​​​而忘记替换​​SmolVLMModel​​​中的​​image_token_id​​,导致语言模型接收不到图像特征,最后表现出来就是loss下降的极快且低,grad_norm看起来也学到位了,一推理效果特别差,附上错误训练的损失图:

SwanLab记录训练结果展示:蓝色为错误训练的完整微调loss图,可以看到损失下降很快,然而实际推理会发现模型并没有图像理解能力。冻结语言模型头(红色)后发现grad_norm为零且loss不收敛,正确的应该是黄色

笔者最早没发现改动错误,先做完整微调(蓝色曲线)后发现损失下降很快达到了0.1以下,结果实际一推理发现模型完全没有图像理解能力,就补了一个冻结语言模型只微调视觉模型的实验(红色曲线),结果发现损失完全没下降,才定位到了视觉特征传入有问题。后续修复后正确的损失下降过程见黄色图像。

第三处改动:构建和替换特征映射层

这个相对较简单,只需要重新构建一个维度对齐的​​SmolVLMConnector​​​即可。Qwen3的hidden_dim是1024,SigLip的hidden_dim是768,因此构建一个768➡️1024映射的​​SmolVLMConnector​​即可。代码如下:

···
# 构建配置并且创建连接器
@dataclass
class VisionConfig:
    hidden_size: int = 768

@dataclass
class TextConfig:
    hidden_size: int = 1024

@dataclass
class ConnectConfig:
    scale_factor: int = 4
    vision_config: VisionConfig = VisionConfig()
    text_config: TextConfig = TextConfig()

new_connector_config = ConnectConfig()

# 替换 SigLit 到 LLM 的 connector 层
new_connector = SmolVLMConnector(new_connector_config).to(device).to(torch.bfloat16)
smolvlm2_02B_model.model.connector = new_connector
···

微调数据集构建

笔者最初计划寻找中文多模态数据集,但发现相关的资料比较少。因此决定先用英文的多模态数据集凑合一下。之后再考虑通过数据合成的方式将部分数据翻译为中文。关于数据合成和配比的问题将在之后的博客讨论。

the_cauldron数据集logo

这里为了方便本项目直接使用HuggingFace团队整合的多模态数据集the Cauldron数据集,Cauldron翻译成中文类似于煮东西的“釜”,不知道HF团队是不是玩“炼丹”的梗。这个数据集整合了50个视觉微调任务数据集的训练集,用于微调Huggingface发布的多模态模型Idefics2模型。这50多个数据集都被处理成了一致的格式(见下图),共有1,880,992条数据,完整下载约169G,非常方便使用。

数据集样本展示

不过可惜数据集的文本都是英文内容,且绝大多数数据集的回复非常短,只有一个词,这也给后面模型训练带来了麻烦。本篇博客暂时不讨论关于数据构建和配比的问题,后续有时间了专门做相关的实验。本博客先以为Qwen3模型带来视觉能力为核心目标。

数据集的下载链接如下,国内推荐用modelscope下载:

  • HuggingFace Hub
  • ModelScope

笔者在实际测试时发现"mimic_cgd","localized_narratives","okvqa","ocrvqa","clevr_math"这几个子数据集加载有点异常,建议使用此数据集训练的读者手动处理下,社区也有用户反馈这几个数据可以在原始来源处额外下载,未来笔者将会补全这几个数据集重新上传一次完整版的the Cauldron数据集。​

微调方法与代码实现

冻结模型参数微调

整体微调方法采用了CLM模型通常的Teacher Forcing的学习方法,损失就是标准的交叉熵损失。考虑到此次本教程的目标是先确保模型具备中文多模态能力(优化模型性能等之后撰写其他博客),因此为了实验效率,在对齐微调阶段 采用冻结视觉模型与文本模型,仅微调特征映射器和语言模型头 的方法。

冻结模型参数的核心代码如下:

def freeze_model(qwen_smvl):
    for _, param in qwen_smvl.model.text_model.named_parameters():
        param.requires_grad = False
    for _, param in qwen_smvl.model.vision_model.named_parameters():
        param.requires_grad = False
    return qwen_smvl

冻结后训练参数、模型总参数、与占比如下:

trainable params: 12.00M || all params: 662.87M || trainable%: 1.81

文本长度,损失掩码和截断策略

文本长度

由于视觉特征需要占据大量的文本长度,笔者简单测试了下the_cauldron图像占0.8K到1.3K左右的token。而数据集中大多数文本token数在200-500左右,极少情况会有3-4K的情况。因此笔者统一采用2K的文本长度,超出部分截断处理。

这里有一个不同于文本微调的细节要注意,文本截断长度不能小于图像token,否则会导致模型在进行特征拼接时报错(当然图像特征如果被截断了,这条训练数据也就没意义了)。因此对于显存不足64G的同学如果需要适当缩短文本长度(不建议低于1.5K),最好连同图像分辨率也缩小些。在后面的博客我们会专门增加对减少图片token占用的研究。

同样由于文本长度受限,且图像特征没法截断,我们也没使用“packing dataset”的方法提升模型的训练效率。

考虑到部分数据集存在多张图片的情况,考虑到本次训练仅采用2k的文本长度(与之对比HF在训练SmolVLM-256M版本采用的是8K的文本长度,2.2B版使用了16K的文本长度)。针对单条数据中存在多张图片的情况仅仅选用第一张。

损失掩码

在采用Teacher Forcing的学习方法时,文本微调中损失掩码有两种策略:

  • 对包含“用户问题”和“模型回复”的完整文本进行微调优化
  • 仅对“模型回复”部分进行微调优化

这两种策略的对比如下图:

两种微调掩码策略的差异,通常建议选择“仅微调模型回答部分”以增强泛化性

通常来说使用“仅微调模型回复部分”的策略模型更容易泛化(这点与HF在SmolVLM2的论文提到的trick)。然而笔者为了提高训练效率选择了完整文本微调。可以在后续博客中增加消融实验做进一步对比。

值得注意的是,在进行完整文本微调时,需要单独屏蔽Image Token以防止对图像占位token计算损失,影响模型表现。

关键代码如下:

def data_collate_fix2k(examples, processor, device, max_length=2048):
    batch_text = []
    batch_image = []
    for example in examples:
        images = example["images"][:1]  # 只允许一张图,不然显存压力太大
        batch_image.append(images)
        image_num = len(images)
        chat_texts = example["texts"][0]
        messages = [
            {
                "role": "user",
                "content": [{"type": "image"}] * image_num
                + [{"type": "text", "text": chat_texts["user"]}],
            },
            {
                "role": "assistant",
                "content": [{"type": "text", "text": chat_texts["assistant"]}],
            },
        ]
        text = processor.apply_chat_template(
            messages, enable_thinking=False, add_generation_prompt=False
        )

        batch_text.append(text)

    batch = processor(
        text=batch_text,
        images=batch_image,
        max_length=max_length,
        return_tensors="pt",
        padding="max_length",
        truncatinotallow=True,
    )
    labels = batch["input_ids"].clone()
    labels[labels == processor.tokenizer.pad_token_id] = -100
    labels[labels == processor.image_token_id] = -100
    batch["labels"] = labels
    return batch.to(device, dtype=torch.bfloat16)

微调超参数设置

学习率

由于仅仅针对特征映射层(connector)进行训练,且conntector由于要对齐Qwen3的维度因此参数为随机初始化(理论上可以采用一些独特的初始化策略提升性能,但考虑到模型较小因此笔者没关注初始化策略)。因此学习率设置为lora中较为流行的1e-4学习率策略。

为了保障有效收敛,学习率衰减基本是必备的trick,采用的是社区比较流行的cosine学习率衰减,衰减至0。warm up为整体步长的10%(在超过1000k step的情况下固定为50)。

batch size

Batch size通常来说越大越好,然而由于VLM模型的文本长度太大,因此采用每卡1 batch和4梯度累加(grad accelerate),在8卡训练中等效32 Batch size。

训练参数设置代码

training_args = TrainingArguments(
    seed=42,
    data_seed=42,
    max_steps=200,
    # num_train_epochs=1,  # 训练1个epoch 约1k steps
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    dataloader_pin_memory=False,
    warmup_ratio=0.1,
    learning_rate=1e-4,
    lr_scheduler_type="cosine",
    weight_decay=0.01,
    logging_steps=5,
    eval_strategy="steps",
    eval_steps=0.125,
    save_strategy="steps",
    save_steps=0.125,
    save_total_limit=8,
    optim="adamw_torch",
    bf16=True,
    output_dir=f"./model/freeze_except_connector_cocovqa",
    overwrite_output_dir=False,
    report_to="swanlab",
    run_name="freeze_except_connector_cocovqa",
    remove_unused_columns=False,
    gradient_checkpointing=False,
)

训练环境

微调代码基于沐曦的C500国产通用计算GPU实现,显存为64G。沐曦的AI芯片基本完全兼容pytorch和huggingface transformers场景,并且在做多模态训练时相比较其他国产AI芯片罕见的没有兼容性问题。读者在尝试本项目代码时可以采用Nvidia显存40G以上的显卡运行本教程。

笔者个人感觉沐曦的GPU整体适配效果还是非常好的,没遇到适配性的问题。体验上和用NV的GPU做训练没什么区别 。笔者自己也用过好几款国产GPU,沐曦的体验肯定是名列前茅的,包括代码中有指定flash attention在沐曦GPU上都能成功迁移,这点非常值得给沐曦团队点个赞。希望国产GPU生态能越发展越好,造福广大炼丹师;)。

沐曦国产GPU,笔者用的云端服务器没见过真机,因此找了张网图

训练环境的话除了安装GPU对应的驱动和pytorch外,本教程需要额外安装Huggingface全家桶,如下:

torch   # 推荐版本>=6.0
torchvision
transformers>=4.53.0
accelerate
datasets
num2words   # SmolVLM2需要

额外补充一句,如果采用沐曦GPU训练的话,需要在沐曦官方文档处寻找沐曦版torch的安装方式进行下载。其他HF环境和NV基本一样。附赠一个沐曦查看GPU的命令:

mx-smi

效果如下:

=================== MetaX System Management Interface Log ===================
Timestamp                                         : Sat Jul 12 14:58:51 2025

Attached GPUs                                     : 8
+---------------------------------------------------------------------------------+
| MX-SMI 2.1.12                       Kernel Mode Driver Version: 2.12.13         |
| MACA Version: 2.29.0.19             BIOS Version: 1.22.3.0                      |
|------------------------------------+---------------------+----------------------+
| GPU         NAME                   | Bus-id              | GPU-Util             |
| Temp        Pwr:Usage/Cap          | Memory-Usage        |                      |
|====================================+=====================+======================|
| 0           MetaX C500             | 0000:0e:00.0        | 0%                   |
| 36C         69W / 350W             | 5680/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 1           MetaX C500             | 0000:0f:00.0        | 0%                   |
| 38C         70W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 2           MetaX C500             | 0000:10:00.0        | 0%                   |
| 37C         69W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 3           MetaX C500             | 0000:12:00.0        | 1%                   |
| 37C         71W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 4           MetaX C500             | 0000:35:00.0        | 0%                   |
| 37C         70W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 5           MetaX C500             | 0000:36:00.0        | 1%                   |
| 36C         68W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 6           MetaX C500             | 0000:37:00.0        | 0%                   |
| 39C         73W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+
| 7           MetaX C500             | 0000:38:00.0        | 0%                   |
| 38C         71W / 350W             | 4986/65536 MiB      |                      |
+------------------------------------+---------------------+----------------------+

+---------------------------------------------------------------------------------+
| Process:                                                                        |
|  GPU                    PID         Process Name                 GPU Memory     |
|                                                                  Usage(MiB)     |
|=================================================================================|
|  0                  3496691         python3.10                   4066           |
|  0                  3496692         python3.10                   102            |
|  0                  3496693         python3.10                   102            |
|  0                  3496694         python3.10                   102            |
|  0                  3496695         python3.10                   102            |
|  0                  3496696         python3.10                   102            |
|  0                  3496697         python3.10                   102            |
|  0                  3496698         python3.10                   170            |
|  1                  3496692         python3.10                   4154           |
|  2                  3496693         python3.10                   4154           |
|  3                  3496694         python3.10                   4154           |
|  4                  3496695         python3.10                   4154           |
|  5                  3496696         python3.10                   4154           |
|  6                  3496697         python3.10                   4154           |
|  7                  3496698         python3.10                   4154           |
+---------------------------------------------------------------------------------+

训练代码实现

在构建训练代码时,笔者使用HuggingFace Transfomers框架的Trainer类来完成训练代码。Trainer类实现的训练逻辑基本能完成大部分微调任务。这里唯一需要提到的是笔者使用了Qwen3-0.6B而非通常此类任务该使用的Qwen3-0.6B-Base模型,Qwen3-0.6B相比于Qwen3-0.6B-Base模型经过了指令遵从微调、对齐等,能实现聊天问答功能。

通常来说对经过微调的模型进行持续训练会一定程度带来性能损失,然而此次微调时笔者冻结了LLM参数,因此需要选用经过微调的模型来实现多模态问答能力。

笔者在训练过程中使用的是bfloat16精度,相比于float16来说bfloat16增加了尾数位数,训练过程中精度会更高些。

在前期进行方案验证阶段笔者采用的是cocoqa数据集,并且进行200steps的微调训练。在确定方案可行后笔者计划使用完整数据集进行微调训练,然而考虑到训练数据量仅仅只有整个模型的12M,因此笔者按参数量与训练Token的比值为1:10采样数据集,即总共从数据集中采样出60K条数据用于实际训练(文本长度按照2k计算,实际上有padding部分因此实际参与token数小于120M)。笔者认为参与训练的数量是足以令模型收敛的,后续实验也证明了模型确实能达到我们所期望的效果。

训练关键代码实现

代码比较长是因为增加了断点续训的能力

################
# 开启训练
################
last_checkpoint = None# load last checkpoint if available
if (
    os.path.isdir(training_args.output_dir)
    andnot training_args.overwrite_output_dir
):
    last_checkpoint = get_last_checkpoint(training_args.output_dir)
    if last_checkpoint isNoneand len(os.listdir(training_args.output_dir)) > 0:
        raise ValueError(
            f"Output directory ({training_args.output_dir}) already exists"
        )
    print(
        f"Checkpoint detected, resuming training at {last_checkpoint}."
    )
# Init Trainer
trainer = Trainer(
    model=qwen_smvl,
    args=training_args,
    train_dataset=raw_data["train"],
    eval_dataset=raw_data["test"],
    data_collator=collate_fn,
)
trainer.train(resume_from_checkpoint=last_checkpoint)
qwen_smvl.save_pretrained(training_args.output_dir)

完整代码见代码及数据集链接汇总

或者直接由完整项目GitHub地址​

微调训练&结果展示

环境安装与微调代码执行

代码准备与环境安装

可以在GitHub仓库地址处找到实验的完整代码。使用git clone后使用如下命令安装环境

pip install -r requirements.txt

数据集和模型下载

笔者附上自动下载脚本,注意该脚本使用魔塔社区完成模型与数据集的下载

bash download_resource.sh

小批量微调训练

为了进行快速验证,笔者首先使用cocoqa数据集并且进行了200steps的训练,所有参数与前文所述一致。通过

运行实验命令如下,推荐使用8卡进行训练,在8张沐曦GPU卡上预计需要使用20min

# 单GPU训练
CUDA_VISIBLE_DEVICES=0 python train.py ./cocoqa_train.yaml
# 8GPU训练
accelerate --num_process 8 train.py ./cocoqa_train.yaml

注意,本项目使用SwanLab进行训练日志记录与分析,如果未登陆SwanLab需要使用​​swanlab login​​进行登陆。运行后看到如下结果即代表实验成功开启:

成功训练后可以看到SwanLab链接

下面是笔者完成小批量微调训练的训练损失、测试损失结果图

SwanLab训练可视化分析结果,可以看到最后训练损失和测试损失都收敛在0.65左右

模型在完成训练后会自动使用一张狗狗图片配合问题“图中有什么动物?”让模型根据图片进行推理,推理结果如下:

SwanLab记录了模型训练好后的推理结果,可以看到模型能正常理解和回复中文

当时看到模型对着三只狗的图片回答“兔子”时笔者一时认为炼丹失败了,当然如果实际炼丹失败后模型是不会输出动物类型的,而是输出一些乱码或者告诉用户并没有看到图片。识别错误的原因实际上是由于训练步数过少导致的。后续加大训练步数与数据量后模型能正常识别出狗狗并且能准确的说出有三只狗。

附上三只眼神忧伤的狗子,难道长得很像兔子吗?

PS: 作者公开了在SwanLab上的训练结果,感兴趣的读者可以自己查看,SwanLab也支持Clone作者的训练日志,大家可以在自己训练时clone笔者的项目去做对照。

完整微调训练结果展示

运行实验命令如下,推荐使用8卡进行训练,在8片沐曦C500芯片上预计需要使用1.5h

# 单GPU训练
CUDA_VISIBLE_DEVICES=0 python train.py ./full_train.yaml
# 8GPU训练
accelerate --num_process 8 train.py ./full_train.yaml

下图展示了使用完整微调数据对比于小批量训练,可以看到全量数据微调时loss变得更为抖动,这是由于数据类型的丰富给模型的学习带来了一定的挑战。

红色为完整训练loss,黄色为小批量训练结果

进一步对比完整训练和小批量训练的训练和测试损失,可以看到完整训练的模型训练损失达到了0.61,远低于仅仅使用cocoqa模型的效果,评估损失也远低于前者,维持在0.58左右。

红色为完整训练loss,黄色为小批量训练结果

这里值得一提的是,由于我们选用的测试集比较小(仅有64条数据),因此训练损失和测试损失的差距并不能直接理解为过拟合的证据。实际上在大模型训练上,如果数据集足够大的情况下,通常可以认为训练损失等同于评估损失。

此外,模型通过分析1k步之后的训练损失、平均梯度范数(Grad Norm)变化。此时训练任务已过半,且学习率开始快速衰减。如下图,可以看到学习率快速衰减的情况下模型损失并没有明显的进一步下降,这说明模型已经实现了充分训练。

1k step之后模型的训练损失变化

在训练效率方面,可以看到我们仍没有充分榨干沐曦GPU的性能,当然这也是由于多模态任务的网络本身架构上比较复杂,其中包含许多对图像、文本的拼接工作,这也导致了GPU性能没法完全利用。

SwanLab对沐曦C500训效率自动记录

同样在完成训练后使用狗狗图进行了测试,这次模型能理解图片、中文以及给出正确的回复。更为关键的是模型完全保留了Qwen3-0.6B原有的全部能力,包括函数调用、推理等。在此基础上,仅仅增加了0.09B参数量的情况下为模型带来了图像理解能力!

同样的图片与问题,更大的数据量和更充足的数据使得模型能够正确给出回复

模型推理与效果分析

等笔者下完数据集后未来补一下测试环节 ; )

可以关注swanlab教程集合获取最新更新教程!​

代码及数据集链接汇总

微调用The Cauldron数据集下载链接:

  • HuggingFace Hub: https://huggingface.co/datasets/HuggingFaceM4/the_cauldron
  • ModelScope: https://modelscope/datasets/AI-ModelScope/the_cauldron

Qwen3-0.6B模型下载:

  • HuggingFace Hub: https://huggingface.co/Qwen/Qwen3-0.6B
  • ModelScope: https://modelscope/Qwen/Qwen3-0.6B

本实验完整代码GitHub链接:

  • 完整项目GitHub地址:https://github/ShaohonChen/Qwen3-SmVL

本实验SwanLab日志:

  • SwanLab训练过程查看:https://swanlab/@ShaohonChen/Qwen3-SmVL/overview​

参考资料

  • Huggingface SmolVLM2技术报告:https://arxiv/pdf/2504.05299

#Meta出走华人创业团队

种子轮800万美元,要打造视觉AI记忆大脑

大家都在关注硅谷 AI 领头羊们的抢人大戏,尤其是 Meta 近期又挖去了三位来自谷歌的 IMO 金牌研究者。

虽然说小扎(扎克伯格)铆足了劲儿要重振 Llama 雄风,正如火如荼的进行人才大引进。

但是吧,挖进去的人在 Meta 显山露水还需要一段时间,而从 Meta 离开的人的创业成果已经崭露头角了。

Dr. Shawn Shen,联合创始人兼首席执行官(左);Ben (Enmin) Zhou,联合创始人兼首席技术官(右)。

由前 Meta Reality Labs 顶尖科学家团队创立的 AI 研究实验室 Memories.ai,正式宣布完成 800 万美元种子轮融资。本轮融资由 Susa Ventures 领投,三星风投(Samsung Next)、Fusion Fund 等知名机构跟投。

Memories.ai 团队已经在大模型领域完成了一项重大的突破成果,剑指 AI 系统的「记忆缺失」问题,为视觉模型创造了强大的「记忆大脑」。

「最强大脑」

众所周知,大模型是标标准准的「金鱼记忆」。

比如,大多数 AI 系统都缺乏对历史画面的记忆,难以理解前后之间的关联。

就像我们经常开的玩笑,「记忆是个先进先出栈」,只不过大模型的栈容量似乎总是不够用。

这种「金鱼记忆」限制了它们在需要深入理解场景和动态变化的应用中发挥作用,尤其是在视频密集型任务里表现不佳。

为了彻底解决这个问题,Memories.ai 通过其核心创新 —— 大视觉记忆模型(LVMM),为 AI 系统引入了一个革命性的视觉记忆层。

该模型突破了传统 AI 在视频处理中仅限于片段式分析的范式,转而能够持续捕获、存储和结构化海量的视觉数据,从而使 AI 模型能够:

永久保留上下文信息: 从孤立的帧转向对事件因果链的深度理解。

精准识别时序模式: 实现对人脸、物体和行为在时间轴上的持续追踪和识别。

智能对比分析: 快速对比新旧视觉信息,有效识别变化和异常。

该平台把原始视频转化成可搜索、带上下文关联的数据库,让 AI 系统具备类似人类的持续学习能力,给 AI 系统配备了无限视觉记忆的「最强大脑」。这一突破让 AI 在理解视频和实际应用方面,迈出了里程碑式的一步。

该团队的大视觉记忆模型不仅在多个视觉理解任务中刷新了 SOTA 基准,更提供了一种全新的视角来解决复杂视觉信息检索与理解的挑战。

这些结果充分证明了模型在视频分类、视频检索和视频问答领域的「卓越性能」。

尤其在视觉记忆检索方面,能够高效处理那些需要大规模内容检索作为辅助参考的复杂查询,从而显著提升了模型的应用广度与深度。

「巨大潜能」

LVMM 技术在多个关键领域展现出巨大的应用潜力,其核心优势在于:

  • 时间跨度无限制: 能够处理并记忆数月甚至数年的视频数据。
  • 上下文深度理解: 不仅识别物体,更能理解事件的因果链和时序模式。
  • 高效检索与分析: 将原始视频转化为可搜索数据库,实现秒级检索和分析。

该团队已与多个领域的合作伙伴展开合作,推动 LVMM 技术的应用落地:

  • 安防安全: 显著提升监控录像的检索效率,在数秒内搜索数月的数据。
  • 媒体娱乐: 实现对数十年内容库中特定场景或视觉元素的即时查找。
  • 市场营销: 对数百万社交视频进行深度情感和提及分析,捕捉新兴趋势。
  • 消费电子: 为下一代移动体验引入强大的视觉记忆能力,多家手机公司,如三星已成为首批合作对象之一。

Memories.ai 联合创始人兼首席执行官沈博士强调:「人类的智慧源于丰富的、相互关联的视觉记忆。我们的使命是赋予 AI 这种深度的情境感知能力,以共同构建一个更安全、更智能的世界。」

「便捷交互」

为了让用户更直观地体验 LVMM(大视觉记忆模型)的强大能力,该团队已将核心技术通过 API 接口全面开放,并同步推出直观、可交互的网页应用。用户可以便捷地上传视频或接入现有视频库,实现快速、精准的内容检索与深度分析。

借助毫秒级精度的检索引擎,在视频问答场景中展现了卓越的视频帧级引用能力,真正实现了对视频的多模态深度解析。

还有一系列的 Demo Agents,展示了模型在不同场景下的应用能力,例如:

Video Creator 对话式视频创作助手,基于全球首个大视觉记忆模型,通过可自由编辑的提示词模板,仅用简单对话即可生成多剪辑高质量视频。

Video Marketer 是一个基于大视觉记忆模型的智能营销工具,依托海量视频数据,能即时洞察 TikTok 的爆款趋势、热门开场白和头部网红策略,助力高效实现社交视频营销。

这些 Demo Agents 不仅是技术能力的展示,更是探索未来应用的起点。

如果你是一家公司,正被海量视频数据淹没;或者是一位对视觉记忆与智能交叉点着迷的研究者;又或者只是好奇当人工智能拥有记忆之后会变成什么样 —— 欢迎访问 https://memories.ai。

#北大-灵初重磅发布xxVLA全面综述

一文看清VLA技术路线与未来趋势

如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。研究者开始探索如何将这种智能从数字世界延伸至物理空间,以实现xx智能。这其中最受关注的前沿方向之一,便是视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA)。此类模型借助基础模型的通用能力与大规模学习范式,可以处理通用的视觉(Vision)与语言(Language)输入,并生成实时动作(Action),极大地赋能了机器人系统。

近两年来,VLA 相关研究爆发式增长,技术路线日新月异 —— 但这也造成了认知碎片化与理解上的困难。现有分类方法如 “大脑 - 小脑”、“快慢系统”、“分层 - 端到端” 等,直觉清晰但本质仍不明确。领域急需系统化的分析框架,以梳理研究现状,指明未来方向。

为此,北京大学 - 灵初智能联合实验室首次从动作词元化(action tokenization)视角,提出统一理解 VLA 模型的新框架。综述系统分析了八种主流 action token,探讨了不同动作表示背后的能力支撑、数据扩展策略和适用场景,明确了未来的架构趋势与关键挑战。论文由灵初智能 00 后联合创始人陈源培与北京大学人工智能研究院助理教授杨耀东共同担任通讯作者。

值得一提的是,在发布这一重要理论成果的同时,灵初智能也在加速推进 VLA 技术的产业化落地。其自研的 VLA 模型 Psi R1 已在麻将机器人等实际场景中得到验证,7/25 晚 20:00 锁定抖音直播,灵初智能联合创始人陈源培将与搭载 Psi R1 的灵初智能机器人小灵、智元机器人联合创始人稚晖君和首形科技创始人 U 航展开一场麻将对战。

除此之外,还有外卖机器人、超市打包机器人等也将在 WAIC 2025(7 月 26-29 日,上海世博展览馆 H3-C604 展位)上进行集中展示,为业界提供从理论到应用的完整技术路径参考。

  • 论文标题:A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
  • 论文链接:https://arxiv/abs/2507.01925
  • 仓库地址:https://github/Psi-Robot/Awesome-VLA-Papers

核心观点总结

  • VLA 统一框架与 Action Token 分类:当前的 VLA 系统遵循一个通用框架:视觉与语言输入经过一系列 VLA modules 逐级处理,生成逐渐具体的 action token,最终转化为动作输出。在该框架中,action token 可分为 language description、code、affordance、trajectory、goal state、latent representation、raw action 和 reasoning 八类。VLA 中的 action token 是 LLM 中 language token 的推广。
  • Action Token 发展趋势:VLA 模型的未来不在于依赖单一 action token,而在于多种 token 的协同。Language motion 表达能力有限,难以成为主流; language plan 在任务分解中不可或缺。Code 是另一种高效的规划形式,其潜力依赖于构建完备的感知与动作函数库。Affordance(做什么)与 trajectory(如何做)可互补结合,并借助 goal state 的目标预测提升生成精度。Latent representation 虽具潜力,但训练中面临粒度、语义覆盖和任务对齐等挑战。Raw action 最适合端到端学习,但能力高度依赖数据。Reasoning 可作为 “元 token” 增强其他 token 的生成,未来将从基于 language token 的推理发展为基于 action token 的多模态推理,并支持任务适应性推理计算。
  • 新兴 Action Token 类型:Action token 类型由基础模型的能力决定。随着模型的演进和听觉、触觉等新模态的引入,未来可能涌现出更多新的 action token 类型与子类型。
  • VLA 架构趋势:未来的 VLA 模型很可能采用分层架构:顶层通过 language description 和 code 实现长程规划与逻辑控制。下层在近期内预计将使用 goal state 的视频预测、trajectory 的流建模以及 affordance 的三维交互预测紧密结合,形成中间动作表示,最终映射为 raw action。长期来看,下层将演化为完全端到端的方式,直接从子任务级输入预测 raw action。reasoning 按需贯穿整个 VLA 模型,增强 action token 生成。
  • 从模仿学习到强化学习:引入强化学习可帮助 VLA 模型突破模仿学习的局限,实现类人试错与自主探索。实际部署则需更高效的强化算法,以应对高重置成本和低交互效率。同时,VLM 可自动生成密集奖励,加速训练与应用。
  • 从 VLA 模型到 VLA 智能体:VLA 模型应向具备记忆、探索、规划和反思能力的主动型 VLA 智能体演进,并由线性结构转向更复杂的双向或图结构架构。
  • 模型、数据与硬件协同发展:xx智能旨在应对物理世界的非结构化与开放性挑战,亟需模型、数据与硬件协同发展。然而受限于机器人平台与高质量数据匮乏,研究多局限于简化实验场景,整体仍处早期阶段。实现通用智能需三者协同演进,协力前行。
  • 安全与对齐:当前的 VLA 研究主要关注模型能力,未来必须更加重视安全性与人类对齐。

VLA 统一框架与 Action Token 视角

VLA 模型指依托至少一个视觉或语言基础模型,能够根据视觉与语言输入,生成动作输出的模型。其本质目标是将基础模型在数字世界中的智能延伸到物理世界,实现具体的、xx的任务执行能力。

VLA 统一框架描述了不同 VLA 模型共同遵循的通用架构:即视觉和语言输入经过一系列功能模块(VLA modules),逐层处理并生成更具体、可执行的动作信息(action token),最终转化为实际的动作输出。

VLA module 指 VLA 模型中支持端到端梯度传播的最大可微子网络,或不可微的功能模块(如 motion planning),承担特定的能力(例如场景感知、动作规划等),并在模型内部彼此协同工作。

Action token 则是不同 VLA modules 之间传递的动作表示,承载具体动作信息。可以理解为 VLA 模型生成的 “动作语言”,用于明确不同模块间的沟通内容与执行目标。

举个具体的例子,以完成 “端茶倒水” 任务为例:

  • 首先,一个 VLA module 处理视觉输入和语言指令,接受指令 “我渴了,请为我倒一杯茶”,识别场景中的茶壶、茶杯等物品,并规划出下一步的子任务目标,比如:“抓起茶壶把手”。这里生成的子任务描述即为一种 action token(此处为 language plan)。
  • 接着,另一个 VLA module 接收该 action token,进一步规划具体的抓取路径与运动轨迹,并生成更加具体的动作描述(例如 trajectory)。
  • 最终,这些更具体的 action tokens 被下游的模块转化为机器人可以直接执行的动作序列(即 raw actions),实现 “端茶倒水” 的实际行为。

这样的模块化结构和 action token 的概念,不仅明确了 VLA 系统的内部结构,也为深入分析和理解该类模型提供了统一的视角和框架。基于此,这篇综述发现当前的 VLA 模型主要使用了八种 action token,并进行了系统的分类梳理与分析。

综述论文还以时间轴的形式展示了基础模型、基于 action token 分类的 VLA 模型,以及相关数据工作的演进历程。其中呈现出的 U 形结构清晰地表明,VLA 模型的快速发展受到基础模型与数据资源持续进步的双重驱动。

八种 Action Token 的梳理分析

Language Description(语言描述)

用自然语言的形式描述要完成的动作,按照描述颗粒度主要分为子任务级别的 language plan(“端起茶杯”)和原子动作级别的 language motion(“手往前伸”)两种。

该类方法利用 LLM 和 VLM 在理解、推理、分解任务等方面的能力,使机器人能够以更 “类人” 的方式规划和执行复杂任务。

早期工作如 Language Planner、SayCan 等表明,LLM 可直接将高层指令拆解为语义明确的子任务(language plan),大幅降低人工设定需求。为了缓解仅使用 LLM 导致的缺乏环境感知的缺陷,他们引入视觉模块和动态反馈等显式的落地机制,提升了模型对实际场景的适应和操作能力。后续研究直接使用 VLM 进一步提升多模态理解和规划能力。此外,针对复杂和长时任务,部分研究(如 BUMBLE、ReflectVLM)引入了记忆与反思机制,使系统具备分阶段推理与跨场景适应能力。最近的 Hi Robot、pi0.5 等则进一步消除了下层简单策略的能力限制,扩展到能执行通用 language plan 的策略,实现了更强的任务泛化和动态修正能力。在细粒度 language description 的研究方面,RT-H、NaVILA 等工作将低层动作细化为 language motion,促进了跨任务的数据共享和人机交互。

这一范式展示出诸多优势。一是与基础模型高度兼容:语言描述与 LLM/VLM 的原生输出空间一致,能够充分发挥模型的理解、推理和规划能力,实现零样本(zero-shot)或少样本(few-shot)泛化,显著降低任务定制化成本。二是丰富的训练数据支持:借助海量图文与操作数据,语言描述能有效迁移现实世界知识,提升模型的泛化性与可扩展性。三是更强的长时规划能力:分层的语言指令有助于模型处理长链路、多阶段任务,支持复杂任务的结构化分解和执行。四是高度可解释性与可控性:自然语言表达易于人类理解和干预,方便实现人机协同、动态纠错与在线优化。

但当前也面临表达精度不足与推理时延等挑战。未来,研究趋势是将 language description 用于高层规划,底层控制则结合 affordance、trajectory、goal state 等精细表示,从而兼顾任务复杂性和动作精确性,推动xx智能系统在复杂环境下的实用落地。

Code(代码)

用代码的形式表达任务的实现逻辑,包含循环、分支等逻辑控制和机器人感知、控制的 API 调用。

代码是人类与计算机之间最直接也最高效的交流方式。文章系统梳理了近年来以 code 为 action token 的 VLA 研究进展,聚焦其如何从 “能运行的控制代码” 演进为 “具备逻辑结构、感知能力与任务泛化能力的机器人行为策略”。代码其核心思想是:将自然语言和视觉输入转化为结构清晰、具备可读性与可执行性的程序或伪代码,摆脱对神经网络隐式向量的依赖,用明确、透明的代码来驱动机器人行为。

code 的主要优势在于当前语言模型在代码生成方面已展现出极强的能力。生成的程序不仅能够自然地调用预定义的机器人操作 API,也可以集成感知基础模型提供的识别模块,还能灵活接入如 NumPy、PyTorch 等常用库进行空间计算与逻辑控制。这种模块化、可组合的特性,使得策略能够快速适配新任务,具备良好的扩展性与可调试性。同时,代码语言天然具备流程控制结构,如条件判断与循环语句,从而完成逻辑更复杂的任务规划。

但与此同时,code 也面临现实挑战。首先,它对 API 库的依赖极高,而 API 本身的覆盖范围往往受限。一旦机器人需要的功能未被定义,或已有接口无法适配当前任务需求,策略即失效。例如,如果现有控制 API 并不支持对 “湿滑地面”“易碎物体” 等复杂环境属性进行建模和调用,那么即使生成的代码逻辑正确,也无法稳健执行所需动作。其次,代码结构的固定性也带来了执行层的脆弱性。一方面,语言模型在生成代码时可能出现逻辑错误、结构冗余等问题,影响控制效率;但更严重的是,代码本身往往默认了若干环境前提条件。一旦实际场景违背这些假设(例如物体潮湿、位置偏移或不可见),系统可能触发不当操作,甚至导致物体损坏或设备安全风险。

因此,未来研究可以从两个维度进一步释放代码式策略的潜力。一方面,需要构建更完善、更语义丰富的机器人 API 库,使语言模型能够通过调用接口实现复杂任务的自动编排,尤其适用于多步骤、长时序的任务控制。另一方面,引入形式化验证机制以检测 API 调用的一致性与合法性,并配合运行时安全监控手段,降低执行层风险。同时,代码的可读性也为 “人机协同控制” 提供了天然接口 —— 人类可以参与策略微调、纠错甚至插入控制逻辑,为构建可信、可控的xx智能系统提供新的技术路径。

Affordance(可操作性)

一种基于空间的表示方式,刻画物体在当前任务中可以如何被交互使用。常见形式包括关键点(keypoint)、边界框(bounding box)、分割掩码(segmentation mask)或可操作图(affordance map)。

在xx智能系统中,如何将感知结果转化为可执行动作,始终是 “语言 - 感知 - 控制” 链条中最具挑战性的环节之一。近年来 VLA 兴起的一个关键方向是将 affordance(可操作性)作为结构化的 action token,用于连接高层感知理解与底层控制执行。所谓 affordance,指的是物体或区域 “可以被如何交互” 的结构化表示,例如杯沿可能是 “可抓取的”,抽屉把手可能是 “可拉动的”。相较于传统的坐标点或动作轨迹表示,affordance 更强调语义明确、空间对齐,并具备良好的任务适应性。当前的 VLA 研究中,affordance 动作表达的形式包括:关键点、边界框、分割掩码以及可操作性图,每种方式在任务类型、精度要求与环境复杂度之间展现出互补优势。

不同的表示形式各有侧重:关键点能够精确指示交互目标,如把手或按钮;边界框在多类检测模型和语言视觉模型支持下可高效实现实例定位;分割掩码为功能性区域提供像素级轮廓与几何细节,适用于复杂表面操作;而可操作性图则从全局视角提供稠密、概率化的交互区域分布,适合复杂场景下的空间推理与动作规划。

尽管具有结构清晰、跨平台迁移性强等优势,现有 affordance 动作表示仍面临三类核心挑战:一是空间表达维度不足,多数方法仍停留在 2D 或投影 3D 表达,难以胜任需要完整空间理解的真实操作任务;二是动态建模缺失,affordance 通常被视为静态属性,忽略了动作执行后的状态变化,无法处理例如 “打开瓶盖后变为可倒出” 的动态演化;三是感知鲁棒性有限,在遮挡、模糊等视觉干扰下容易出现误判,影响下游控制稳定性。

针对这些问题,文章总结出 affordance 动作表示未来的三个关键发展方向:

  • 构建原生三维表达形式,基于神经辐射场、高斯渲染等方法,实现对物体几何与空间布局的真实建模;
  • 引入时序建模机制,使模型能够感知并预测交互过程中的 affordance 演化,提高对长时序任务的适应能力; 
  • 增强策略鲁棒性与不确定性感知能力,不仅预测交互区域,还需识别模型自身置信度,提升决策安全性与可控性。

Trajectory(轨迹)

表示物体、末端执行器或场景随时间变化的连续空间状态序列,也就是 “从哪里到哪里怎么动”。

在 VLA 模型的研究中,一个核心挑战是附带动作标签的机器人数据集的稀缺性。近期研究表明,将 “轨迹(Trajectory)” 作为一种动作表征,是应对此挑战的有效范式。该方法通过利用无需动作标注的通用视频数据,用其中蕴含的运动轨迹来表示动作,从而显著拓宽了模型的训练数据来源。

该研究方向的核心在于将机器人动作编码为运动轨迹。这些表征主要分为三类:一是点轨迹(Point Trajectory),通过一系列时序下的离散坐标点来为机器人提供精确的路径引导;二是视觉轨迹(Visual Trajectory),它将运动路径直接渲染于图像之上,在视觉上下文中直观地呈现动作意图;三是光流(Optical Flow),作为一种更为稠密的表征,它描述场景中每个像素的运动矢量,从而捕捉了整体环境的动态信息。

基于轨迹的动作表征展现出多项关键优势。首先,正如前文所言,用轨迹作为动作表征可以有效地利用大量视频数据,拓宽训练数据来源。其次,也是至关重要的一点,轨迹在任务泛化上表现出卓越的能力。对于那些语义目标不同但底层运动模式相似的任务(例如 “擦拭表面” 与 “滑动滑块”),基于轨迹的策略能够实现更高效的零样本泛化。再次,与依赖隐空间表征的抽象方法相比,轨迹是一种外显且具备人类可解释性的动作形式,为模型的训练与调试提供了极大便利。

尽管前景广阔,该方法仍面临若干挑战。当前多数工作聚焦于二维轨迹,其固有的三维空间信息(尤其是物体姿态与旋转)的缺失,限制了其在复杂灵巧操作任务中的应用。同时,部分依赖大型生成模型的方法存在计算成本高、推理频率低的问题,难以满足机器人实时、平滑控制的需求。此外,纯轨迹表征在处理需要复杂交互逻辑、力控制或基于物体功能理解(affordance)的任务时,其语义丰富度尚显不足。

因此,未来的研究方向将主要聚焦于三个方面:一是探索包含完整六自由度(6-DoF)信息的三维空间轨迹表征;二是开发轻量化、高效率的轨迹生成与规划模型;三是构建结合了轨迹路径与语义概念的混合式动作表征,从而使机器人能够应对更广泛、更复杂的任务场景。

Goal State(目标状态)

对未来动作结果的视觉预测,如一张图片、点云或视频片段,直观地展示执行完某个动作序列后应该达到的目标样子,用作规划和执行的中间目标。

让机器人 “想清楚” 再行动。我们人类在执行任务前,常会先在脑中构想最终结果。受此启发,VLA 模型也开始采用预测的目标状态,即任务预期结果的视觉呈现,来作为中间的 “行动指令”。这就像在给机器人下达指令后,先让它 “想象” 出任务完成的样子,再根据这个 “想象” 来规划具体动作,从而弥合高层指令与低层执行之间的鸿沟。

这种方法通常采用分层架构:一个高层模型根据指令生成目标状态的图像或视频,随后低层模型依据这个视觉指引来生成最终的动作序列。目标状态主要分为单帧图像和多帧视频。单帧图像描绘任务完成后的静态场景,带来数据可扩展性高、能利用无动作视频训练等优势。而多帧视频则提供了更丰富的时间上下文和 “如何做” 的线索,能从大规模数据中生成、提取隐式动作信息,并增强模型在不同任务和机器人平台间的泛化能力。

目标状态的核心优势在于其极佳的数据可扩展性(通过自动化数据生成)、更广泛的数据源和更强的泛化能力(利用无动作视频和人类执行数据),以及增强的任务特异性(提供精确视觉指引),同时还具备鲁棒的可解释性和直观的评估方式。然而,目标状态也面临挑战:生成高质量、一致性的目标状态依然困难,可能出现过度具体或不准确的情况;此外,生成未来图像或视频会引入较高的推理延迟,影响实时控制。尽管如此,随着图像和视频生成技术的飞速发展,目标状态作为 VLA 模型中一个充满前景的行动指令,正不断提升机器人理解和执行复杂任务的能力。未来的研究将重点关注提高计算效率、增强环境鲁棒性,以及优化长程任务规划。

Latent Representation(隐式表示)

通过大规模数据预训练得到的一段隐向量序列,用来编码一定时间范围内与动作相关的信息。

如何让机器人像人一样,通过观察就能快速学习各种任务?近期的 VLA 研究开发了一种新的训练范式,不再大量依赖昂贵的、为机器人量身定制的训练数据,通过让 AI 模型观看多样的机器人视频数据集和海量的人类视频数据集(如 Ego4D 等),可以自动学习并提炼出一套通用的动作 “隐式表示(latent representation)”。

这一类方法的核心在于构建动作的隐式表示,根据编码的动作信息不同,主要分为以下三类:视觉变化信息,通过分析一段时间内视觉场景的变化(比如机械臂的移动),来推断其中发生的动作;动作块压缩信息,将一段完整的机器人动作序列(Action Chunk),直接压缩成一个高效、紧凑的 “动作 ID”;任务目标信息,将一系列的视觉观察,编码成一个具有高级语义的 “目标” 信息,指导后续行为。

这一 “潜在动作” 方法的价值是多方面的。首先,它极大地拓宽了数据来源,使得几乎所有机器人数据集和海量人类视频都能成为机器人的 “教科书”。其次,它显著提升了训练效率。例如,文中提到的 UniVLA 模型,采用该方法后,仅用 OpenVLA 所需 4.45% 的预训练时间,就达到了相当的性能,效率飞跃超过 20 倍。最关键的是,这种方法学习到的动作是 “身体无关” 的,意味着从人类视频中学到的操作技能,可以被有效迁移到拥有不同形态的机器人身上,展现了惊人的泛化能力。此外,潜在动作表示还有融合其他模态动作信息的潜力,比如触觉和听觉信息。

尽管有上述的种种优点,该方法也面临着挑战,主要在于其 “黑箱” 特性 —— 由于 “潜在动作” 由 AI 自主定义,其内部逻辑难以被人类完全理解和干预,这给调试和确保安全性带来了新的挑战。因此,确保这些潜在的动作表示具有良好的性质和质量变得尤为重要。未来的研究将聚焦于三大方向:如何让这套 “潜在动作” 的粒度更精细以支持复杂操作;如何确保其完备性以覆盖所有可能的任务场景;以及如何加强其与人类意图的对齐,确保机器人真正 “听得懂、干得对”。

Raw Action(原始动作)

可以被机器人直接执行的低层级控制指令,比如关节角度变化、末端位姿控制、轮子转速等。

近年来,大语言模型(LLM)所展现出的强大能力引发了广泛关注。正如 Richard Sutton 在《The Bitter Lesson》中所指出的,通向通用智能的长期路径并非依赖人类设计的领域知识,而是通过通用方法和扩展计算规模实现。LLM 的成功正源于其在预训练数据量和模型参数规模上的扩展(scaling law)。因此,一个自然而然的设想是:是否可以将 LLM 的成功经验推广到 VLA 模型中?

在所有的动作 token 表征方式中,raw action 是最直接的形式,它对应xx智能体的底层动作空间,例如机械臂的关节角度。这种表征天然具备无损性,既可直接从真实系统中采集,也可用于生成,省去了额外的动作格式映射步骤,因而非常适合 VLA 模型的端到端训练。随着数据规模和模型参数的不断增长,我们有理由期待 VLA 模型出现类似 LLM 的 scaling law,从而实现更强的泛化能力。

近年围绕 raw action token 的 VLA 模型的发展已初步展现出这一趋势。在数据层面,多个大规模机器人数据集陆续发布,如 RT 系列、Open-X Embodiment、DROID、AgiBot World,涵盖了跨本体、多任务的多样性数据。模型层面的发展也呈现出清晰的演进路径:从早期的简单多模态融合架构,发展到基于 Transformer 的自回归模型,再到近期基于基座 VLM 和扩散模型的动作块生成方法(Diffusion-based Action Chunking)。这些模型在参数规模和数据使用上不断扩展,并借助预训练的 VLM 提升了泛化能力,同时扩散模型结合动作块也显著增强了对精细动作分布的建模能力与动作生成频率。此外,LLM 中 “预训练 + 后训练” 的范式也在 VLA 中得到验证。研究表明,经过大规模数据预训练的 VLA 模型,在后训练阶段仅需少量新数据即可迁移至下游任务,大幅降低了微调与部署成本。

总体而言,基于 raw action 的 VLA 模型具有多方面优势:其表征无需人为设计或映射,最符合《The Bitter Lesson》中倡导的最少人类知识介入原则;其端到端可扩展结构便于借鉴 LLM/VLM 的成功范式;其预训练能力降低了后训练数据需求,使得在现实环境中的泛化部署成为可能。

然而,这一方向也面临若干挑战。首先,真实数据的获取成本高昂,当前最大规模的机器人数据集仍处于百万级别,远低于 LLM 所依赖的十亿级互联网语料,实现类似 scaling law 效应尚显不足。其次,大模型 VLA 的推理速度仍然受限,难以满足高实时性要求的精细操作任务。最后,实现单一模型的跨本体泛化能力仍是一个未解难题。未来的研究应聚焦于如何更高效地获取高质量数据、提升推理效率,并突破模型在异构机器人间的迁移能力等核心问题。

Reasoning(推理)

用自然语言表达的思考过程,解释 “为什么要做这个动作”,常用来辅助生成更合理的其他 action token。

机器人操作和自动驾驶等复杂的xx任务不仅需要长期规划和推理能力,更要求 AI 对空间、语义有深刻理解,并能在不断变化的真实世界环境中高效运行。仅仅依靠扩大模型参数规模,远不足以应对这些固有的复杂性。因此,为 VLA 模型注入强大的推理能力,已成为当前最迫切且有前景的解决方案。

我们所说的 VLA 中的推理,并非抽象概念,而是一个明确外化的、以自然语言形式呈现的深思熟虑过程。它扮演着关键的中间角色:当模型接收到高层指令时,推理步骤会引导其生成最终的目标 action token。这就像让人工智能拥有了 “思考” 的能力,能够一步步地权衡、判断,并将内部决策过程清晰地展现出来。

这种 “思考” 能力最初源于大型语言模型的 “思维链” 概念,即通过一系列中间步骤来解决复杂问题。如今,这一理念已成功拓展到 VLA 领域。早期,研究者常通过结合大型语言模型与额外视觉模块来实现xx推理。但现在,具备多模态先验知识的 VLM 已成为主流。VLM 能够简化模型架构,并通过专门的微调或再训练来适应xx推理的独特需求。一些方法通过自动化数据合成有效解决了高质量大规模推理数据集的获取难题,甚至将人类日常视频也纳入数据合成,拓宽了训练数据的来源。此外,一些 VLM 更是通过强化学习等方式,专门针对xx推理进行了深度优化。在自动驾驶这一高风险、高复杂度的应用场景中,这类模型将 “思维链” 应用于其场景描述、分析和规划等关键模块,充分展现了推理在处理复杂决策中的核心作用。

将推理融入 VLA 模型,带来了多重显著优势。它能有效弥合高层指令与底层行动的鸿沟,通过中间思考步骤提升模型对复杂指令的理解和分解能力,从而增强其在面对新场景和对象时的泛化性和对复杂任务的解决能力。此外,推理过程的外化极大地提高了模型的可解释性,使人类能清晰审查决策、定位错误并实时干预,从而深化人机协作。

然而,推理的应用也面临局限。最突出的是,推理过程往往涉及冗长序列,导致推理时间增加和执行速度降低,这对于需要实时响应的高频任务而言是关键瓶颈。同时,当前推理步骤的固定性以及高质量、大规模推理数据集构建的挑战,也限制了其灵活性和进一步发展。

VLA 中的数据来源

在 VLA 迅速发展的当下,“数据” 正成为决定模型能力边界的关键因素。因此,文章系统梳理了当前 VLA 模型所依赖的数据资源,并按照 “数据金字塔” 的框架,将其划分为三层:网络数据与人类视频、合成与仿真数据、真实机器人数据。这三类数据在模态组合、监督粒度和xx相关性上各具优劣,同时在性能与泛化能力之间形成了清晰的分工。

金字塔的底层由网络数据与人类视频构成。这类数据规模最大、获取成本最低,尽管不包含机器人可执行的动作标签,但它们为模型建立通用视觉语言理解能力提供了基础。例如,大量图文对支持模型学习物体、动作与场景的语义表征;而第一人称视角的人类演示视频(如厨房任务)则提供了丰富的多模态信息。虽然这些数据缺乏动作监督与精确标注,但其强语义密度使其成为 VLA 预训练中不可或缺的资源,帮助模型 “看懂世界”“听懂任务”,为后续xx接入与行为学习打下语义基础。此外,这类数据还广泛用于训练 trajectory,latent representation 等 action token。

金字塔的中层由合成与仿真数据构成。相比昂贵而稀缺的真实机器人数据,这类数据提供了高性价比且更多样化的数据;相比人类视频,它包含明确的动作标签。主流做法包括两类:离线数据合成与交互式仿真平台。离线数据合成方法如 MimicGen、DexMimicGen 和 RoboCasa,通过程序化修改、动力学扰动等手段,从少量演示中生成覆盖广泛任务与环境变化的大规模轨迹数据。而交互式仿真平台(如 Isaac Lab、Habitat、robosuite 等)则提供了一个可反复试验、高度可控的 “xx训练场”。研究者可以通过遥操作、算法规划或强化学习等方式持续生成行为数据,并通过程序生成器不断多样化环境配置。值得注意的是,越来越多的仿真平台开始融合高保真物理引擎与真实 3D 场景资产,使仿真交互更接近现实,适用于复杂任务的预训练。

金字塔的顶层是真实机器人数据,承载了物理世界中最具真实性的动作信息。相比仿真或人类演示,真机数据包含了现实世界中的动态变化、感知噪声与物理约束,是将策略 “从仿真走向真实” 的关键支撑。综述系统梳理了多个代表性数据集:多机器人数据(如 OXE、RoboMIND),单机器人数据集(如 RT-1、DROID、AgiBot World),以及自动驾驶任务中的时序轨迹(如 Waymo Open Dataset-Motion)。这些数据覆盖了各种场景中不同形态的机器人完成不同任务的真机轨迹,还在故障轨迹、力矩 / 声音模态等方面提供了学习样本,为策略训练带来了更强的现实鲁棒性与泛化数据支撑。

结语

VLA 模型正迅速成为通往xx智能的核心路径。这篇综述首次从 action token 视角系统梳理 VLA 技术路线,明确八类 token 的设计思路、优劣权衡与发展趋势,并指出当前研究中的关键挑战与未来方向。随着基础模型能力的持续跃升、数据的不断扩展、研究人员的不断努力,VLA 研究正在迈向通用智能的下一站。

在即将到来的 2025 世界人工智能大会(7 月 26-29 日)上,灵初智能将全面展示 VLA 技术的产业化成果,其发布的 Psi R1 模型能够实现 30 分钟连续麻将博弈,展现了机器人在开放环境下处理复杂任务的突破性能力,标志着xx智能从简单动作执行向真正的认知决策和长程操作的关键跃迁。这将为业界提供一个观察 VLA 技术从理论突破走向实际应用的重要窗口,共同推动xx智能技术在真实世界中的广泛落地。

#OmniAvatar

夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。

OmniAvatar已开源:

  • Model:https://huggingface.co/OmniAvatar/OmniAvatar-14B
  • Code:https://github/Omni-Avatar/OmniAvatar
  • Arxiv:https://arxiv/abs/2506.18866
  • Project Page:https://omni-avatar.github.io/

以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。

夸克AI实验室

,赞271

实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表现,并更好地平衡了视频质量、准确度、审美三要素。

此外,OmniAvatar专门针对长视频生成进行了优化,可以更好地保持人物一致性和时间连贯性。

模型能力

图片+音频=全身视频

当前,音频驱动人体运动的技术已取得显著进展,但大多数方法仍集中在面部运动,缺乏全身驱动的能力,且难以进行精确的提示词控制。

OmniAvatar以Wan2.1-T2V-14B为基础模型,利用LoRA方法进行微调,有效地引入了音频特征。这种结合不仅保留了Wan2.1-T2V-14B在视频生成方面的强大能力,还提高了模型对音频输入的适应性和生成质量。 

OmniAvatar架构图

接下来,我们将通过一些具体案例,更详细地展示模型在多种场景下的能力。

OmniAvatar能够根据输入的音频和提示词,生成虚拟人物视频,其中,人物的唇形运动与音频内容吻合,场景则反映了提示词内容:

以下视频来源于

夸克AI实验室

,时长00:10

通过调整提示词,还可实现对人物情绪的精确控制:

以下视频来源于

夸克AI实验室

,时长00:15

在带有镜头运动的场景中,OmniAvatar仍能够保持面部、动作和背景的自然流畅,展现了模型在动态场景下的强大适应能力:

以下视频来源于

夸克AI实验室

,时长00:12

对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性:

,时长00:25

像素级多层次音频嵌入策略

精准唇部运动+自然肢体动作

大多数现有方法通常依赖交叉注意力机制来引入音频特征,虽然效果良好,但会引入大量额外的计算开销,并且容易过度关注音频与面部特征之间的关系。

针对这一问题,团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法,不仅可以自然地将唇部运动与音频内容对齐,还能够确保音频信息在整个视频像素中均匀分布,从而使模型生成更协调、更自然的身体动作来匹配音频。

该策略首先使用Wav2Vec2模型提取音频特征,然后对这些特征进行分组打包和压缩,再通过音频打包模块映射到视频的潜在空间中。

接下来,为了确保模型在深层网络中能有效地学习和保留音频特征,OmniAvatar采用了一种多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中。为防止音频特征对潜在空间产生过度干扰,音频嵌入仅应用于模型的第二层至中间层之间的模块 。此外,这些层的权重不共享,使模型能够在不同层次上保持独立的学习路径。

基于LoRA的优化策略

平衡微调,兼顾质量与细节

目前,针对音频条件扩散模型的方法主要遵循两种策略:一种是训练完整的模型,另一种是仅微调特定层。

在进行完整训练时,团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看,由于模型过度拟合人类语音数据集,导致泛化能力差,容易生成不切实际或静态的内容,难以捕捉细节。但另一方面,仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差,唇形同步性能受损。

效果对比

为了解决这些挑战,团队提出了一种基于LoRA的平衡微调策略。该策略不同于以上两种方法,而是使用LoRA策略高效地适应模型。LoRA通过在注意力和前向传播(FFN)层的权重更新中引入低秩矩阵,使模型能够在不改变底层模型容量的情况下学习音频特征。

长视频生成

身份保留+时间一致性

长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,团队提出了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。

代码示例

身份保留。OmniAvatar引入了一个参考帧,作为人物身份的固定指导。具体来看,首先需提取参考帧的潜在表示;然后将这些表示多次重复,使其长度与视频帧数匹配;接下来,再在每个时间步,将这个重复的参考帧潜在表示与视频潜在表示进行连接。因此,通过参考帧设计,可有效锚定人物身份,确保在整个长视频序列中的人物一致性。

时间一致性。为了实现无缝的视频连续性,OmniAvatar采用了一种潜在重叠策略。首先,在训练时使用单帧和多帧前缀潜在变量的组合进行训练;其次,在推理过程中,对于第一批的帧,参考帧既作为前缀潜在变量,又作为身份指导;对于后续批次,则用前一组的最后帧作为潜在变量,参考帧仍保持固定用作身份指导。

One More Thing

OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。

#解道奥赛题成本5000美元

陶哲轩警告,AI下一步要规模化的「更便宜」

人工智能和数学是密不可分的。

AI 的发展离不开数学的进步,同时 AI 的进步也离不开解决数学问题的能力。

在刚结束不久的 IMO 竞赛中,谷歌的新一代 Gemini 进阶版模型成功解决了六道超高难度试题中的五道,达到了今年 IMO 的金牌水平(35/42),成为首个获得奥赛组委会官方认定为金牌的 AI 系统。

加州大学洛杉矶分校数学系终身教授,菲尔兹奖获得者,被称为「数学莫扎特」的华人数学家 陶哲轩,参加了今年度 IMO 竞赛的颁奖典礼。

他同样也对在 IMO 取得成绩的 AI 模型十分关注。

但他同样表达了一定程度的担忧,希望明年能够在更加受控的环境下对 AI 模型进行科学比较和评估。

陶教授认为:一些在标准考试条件下可能连铜牌都难以稳定获得的学生或队伍,在某些经过修改的赛制下,反而可能稳定地达到金牌水平。

因此,在没有采用统一、非参赛队自选的控制性测试方法的前提下,对于不同 AI 模型在类似 IMO 等竞赛中的表现,应当谨慎看待,避免作出过于简单化的「对等」比较。

陶教授对人工智能的发展和评估的关心是一贯的。就在刚刚,他在 mathstodon 上发表了对于人工智能发展现状的观点和对于未来的评估策略的建议。

人工智能技术现已迅速接近从定性到定量成果的转型阶段。

随着一项技术成熟,关注点往往会从定性的成就转移,例如谁第一个实现了某个目标,转向更定量的衡量标准,例如完成单个任务需要多少资源和专业知识,以及会产生多少环境影响和伤害风险。

这是一个必要的转变,以便将技术从概念验证扩展到大规模应用。

举两个例子:诸如莱特兄弟在 1903 年首次实现动力、可控、比空气重的飞行;林德伯格在 1927 年首次独自不间断跨大西洋飞行。

但真正让跨大西洋航空旅行变得低成本、安全且对发达国家中产阶级来说可以定期负担得起的,并不是这些初期的壮举,而是从上世纪 50 年代开始,长达数十年的喷气式航空技术的持续发展,以及与之配套的基础设施和后勤系统的稳步完善。这些工作虽枯燥,却至关重要。

相比之下,阿波罗计划虽曾在 1969 年成功实现了载人登月的里程碑,但代价极为高昂。与航空领域的发展不同,太空探索在成本降低方面并未取得显著进展。

如今,几乎任何一个具体的概念验证目标,只要投入足够的资源和专业团队,都有可能在未来几年内通过类似「登月计划」式的 AI 项目实现。

但真正要将这些技术大规模部署到现实世界中,关键问题已经从「能否做到」转向了「如何以更低成本、更高安全性和更强可扩展性实现」。

简而言之,就是人工智能需要「降本增效」。这与评估 AI 模型的方式密不可分。

在宣布某一目标完成时,显然有必要同步报告其所消耗的资源成本。但同样重要的是,也应报告失败案例,以更准确地评估成功率 —— 这是衡量预期成本的关键部分。

举例来说,如果某个先进的 AI 工具每次尝试解决一道奥赛级别的问题需要耗费约 1000 美元的算力资源,但成功率只有 20%,那么平均每成功解决一次问题的实际成本就是 5000 美元。如果只报告那 20% 的成功案例,就会对实际成本形成严重误导。

同理,如果这些成功案例是在有高薪专家全程监督、监控,甚至准备随时介入的前提下完成的 —— 即使最终没有触发人工干预,这部分「待命成本」也应计入整个过程的实际成本。

尽管未来的扩展规律(scaling laws)可能会有所变化,但可以预见的是,最耗费资源的 AI 系统依然会比那些廉价模型更强大。因此,在实际应用中,「轻量型」与「密集型」AI 工具各有其用武之地。

以陶教授最近完成的「等式理论项目(Equational Theories Project)」为例:在总共需要证明的 2200 万条蕴涵关系中,绝大多数是通过非常简单的暴力方法完成的;剩下的很大一部分则由中等强度的自动定理证明器(ATP)解决;再往后,一部分由人类参与者解决,最后少数几个疑难问题,则依赖多个研究人员与 ATP 工具协作攻克。

尽管并未大量使用像大型语言模型这样的现代 AI,但陶教授预计未来类似的大规模项目会呈现类似的发展路径:

项目的绝大部分由「廉价」AI 完成,而「昂贵」的高级 AI 则与人类专家协同作战。

展望未来,标准化的基准测试和竞赛将变得越来越重要,特别是那些要求提前披露资源使用和方法细节的评测机制。这对于准确衡量 AI 技术的「量变」进展至关重要。

这与陶教授在 IMO 竞赛后对 AI 公司自我披露竞赛结果担忧的观点是一脉相承的。

当前依赖自我报告成果的现状,在技术发展的「质变」初期阶段尚且可以接受,但随着 AI 进入广泛落地和实际部署阶段,这种方式就必须被更透明、可对比的标准化评估所取代。

陶哲轩教授的观点站在了历史的角度,但同样也有网友回望历史而对人工智能的普及暗含的风险而表示担忧。

完整内容请参阅原始推文:​​https://mathstodon.xyz/@tao/114910028356641733​​

#LOVON

港科大&北京人形提出:足式机器人开放世界全域目标追踪新范式!

本文一作彭道杰,香港科技大学广州在读博士生;共同一作曹嘉航,北京人形机器人创新中心实习生;共同一作张强香港科技大学广州在读博士生,北京人形机器人创新中心学术委员会主任;通讯导师马骏,香港科技大学广州&香港科技大学助理教授。

在复杂的开放环境中,让足式机器人像人类一样自主完成「先跑到椅子旁,再快速接近行人」这类长程多目标任务,一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常「迷路」或「认错对象」。

香港科技大学广州联合北京人形创新中心重磅推出的 LOVON(Legged Open-Vocabulary Object Navigator)框架,为这一难题带来了创新性的解决方案。它首次将大语言模型(LLMs)的任务规划能力、开放词汇视觉检测的泛化能力,以及精准的语言 - 运动映射模型融合在一起,让足式机器人在动态、非结构化环境中也能高效完成长程目标导航,实现了足式机器人在开放世界中对动态目标的长视野精准追踪,兼容 Unitree Go2、B2、H1-2 等主流平台,用「即插即用」的特性打破了传统机器人导航的场景限制。

  • 论文:《LOVON: Legged Open-Vocabulary Object Navigator》
  • LOVON 论文地址:  https://arxiv/pdf/2507.06747
  • 项目地址:https://daojiepeng.github.io/LOVON/
  • 代码地址:https://github/DaojiePENG/LOVON
  • 视频地址:https://www.bilibili/video/BV1xh3ezJEJn/

攻克开放世界导航难题,LOVON 强势登场

开放世界环境中的目标导航,对于机器人系统而言是一项艰巨且普遍存在的挑战。尤其是执行长视野任务时,不仅需要机器人具备开放世界物体检测能力,还需进行高级任务规划。传统方法往往难以有效整合这些关键组件,这极大地限制了它们应对复杂、长距离导航任务的能力。

LOVON 框架应运而生,它巧妙地将大型语言模型用于分层任务规划,并与开放词汇视觉检测模型深度融合,专为在动态、非结构化环境中实现高效的长距离目标导航而打造。面对真实世界中诸如视觉抖动、复杂环境以及目标临时丢失等棘手问题,LOVON 设计了专门的解决方案,例如用于视觉稳定的拉普拉斯方差滤波技术。同时,为机器人开发了一套功能性执行逻辑,确保 LOVON 在自主导航、任务适应以及稳健完成任务等方面具备强大的能力。

三大核心模块协同,构建智能导航闭环

LOVON 创新性地整合了三大核心模块,打通了「语言 - 视觉 - 运动」的闭环。

  • LLM 任务规划器:如同为机器人赋予了人类般的思考能力,能够将长视野任务进行拆解。比如,它可以把「先跑向椅子,再快速靠近行人」这样的复杂指令,细致地分解为一系列连续的子任务,并根据实际情况动态调整执行顺序,让机器人能够有条不紊地完成复杂任务。
  • 开放词汇视觉检测:突破了传统预定义类别的限制,使机器人能够识别从常见的 「背包」「盆栽」到「汽车」「宠物」等各类丰富多样的目标。这一特性让机器人能够轻松适配日常生活中的各种场景,无论是在室内环境中寻找特定物品,还是在户外环境中识别动态目标,都能应对自如。
  • 语言 - 运动模型(L2MM):该模块能够将文字指令与视觉反馈直接转化为精确的运动向量,从而精准地控制机器人的速度和方向。这意味着机器人可以根据接收到的指令,迅速做出反应,实现「说走就走,说停就停」的精准运动控制,大大提高了任务执行的效率和准确性。

抗干扰视觉处理,解决画面抖动难题

足式机器人在运动过程中,机身的抖动常常导致获取的视觉画面模糊不清,这使得目标检测频繁失效,成为影响机器人导航性能的一大障碍。为了解决这一「看不清楚」的老大难问题,LOVON 提出了基于拉普拉斯方差滤波技术。通过对图像清晰度特征进行深入分析,该技术能够自动识别并过滤掉模糊的图像帧,同时用最近的清晰帧进行替换。再配合滑动平均滤波,有效地将机器人有效检测帧的比例提升了 25%。

这一技术的应用,使得机器人在奔跑、上下楼梯等运动状态下,依然能够稳定地锁定目标,为后续的导航决策提供可靠的视觉信息。

自适应执行逻辑,赋予机器人「随机应变」能力

在复杂多变的真实世界中,机器人可能会面临各种突发情况,如目标突然丢失、指令发生更新或者受到外力干扰等。LOVON 的自适应执行逻辑为机器人应对这些情况提供了有力支持。当目标丢失时,机器人会自动切换至「搜索模式」,通过左右旋转扫描周围环境,迅速重新定位目标;当接收到新的指令时,能够无缝衔接并执行新任务,确保任务的连贯性;即便在受到外力碰撞等干扰时,也能快速重新规划路径,继续朝着目标前进。

这种「随机应变」的能力,让机器人在真实世界的复杂场景中能够保持稳定的任务执行能力,极大地提升了其适应性和可靠性。

从仿真到真实世界:多项指标刷新纪录

经过严格测试,LOVON 在仿真与真实环境中均展现出超越传统方法的性能:

GymUnreal 仿真环境:在停车场、城市街道、雪地村庄等多种复杂仿真场景中,LOVON 展现出了令人瞩目的性能。其成功率(SR)高达 1.00,大幅超越了传统方法,例如 EVT 的 0.94。而且,LOVON 在训练效率上也具有显著优势,仅需 1.5 小时即可完成训练,相比同类最优模型 TrackVLA 的 360 小时,效率提升了惊人的 240 倍。这表明 LOVON 不仅在任务执行的准确性上表现出色,还能在更短的时间内完成模型训练,为实际应用节省了大量的时间和资源。

真实世界:在 Unitree Go2、B2、H1-2 等不同足式机器人上,LOVON 实现了四大突破:

  • 开放世界适配:它能够轻松识别从大型汽车到小型背包等各类大小不一、形态各异的目标,在完全陌生的环境中也能快速适应并执行任务,体现出了卓越的开放世界适配能力;
  • 多目标长程追踪:在多目标长视野追踪任务中,LOVON 能够按照指令依次完成「找椅子→找行人→找背包」等复杂任务,整个过程流畅无中断,展现出了出色的任务规划和执行能力;
  • 动态环境鲁棒性:在动态跟踪场景中,无论是在平坦道路上,还是在螺旋楼梯、杂草丛等复杂地形中,LOVON 都能稳定地跟随移动目标,例如在遛狗场景中准确跟随移动的人和宠物;
  • 抗干扰能力:即便目标位置发生移动或者机器人自身受到碰撞等干扰,LOVON 依然能够快速重新锁定目标并继续完成任务,彰显了其强大的抗干扰能力。

更为重要的是,LOVON 具备出色的「即插即用」特性,无需进行复杂的定制化改造,即可轻松部署于 Unitree Go2、B2、H1 - 2 等多种主流足式机器人平台,为家庭服务、工业巡检、野外科研等多个领域的实际应用提供了坚实的技术支撑。

推动足式机器人应用变革,开启智能服务新篇章

LOVON 框架的出现,犹如为足式机器人导航领域注入了一股强大的创新力量。它不仅填补了足式机器人开放词汇长视野导航的技术空白,更通过「通用框架 + 轻量化部署」的创新设计理念,为先进机器人技术从实验室走向广泛实际应用搭建了一座坚实的桥梁。

随着 LOVON 的不断推广和应用,我们有理由相信,足式机器人将在更多领域发挥重要作用,为人们的生活和工作带来更多便利和创新。无论是在智能家居环境中协助人们完成日常任务,还是在工业生产中实现高效的巡检和操作,亦或是在野外科研探索中提供可靠的支持,LOVON 都有望成为推动足式机器人应用变革的关键技术,开启智能服务的崭新篇章。

想了解更多关于 LOVON 的详细信息,可访问 LOVON 项目主页:https://daojiepeng.github.io/LOVON/ ,一同探索足式机器人导航的未来新趋势。

#西门子开启AI制造新纪元

150PB工业数据+智能体革命

那是 1964 年,德国南部的小城爱尔兰根,阳光洒落在西门子数据中心的窗格上,一台名为 Zuse Graphomat Z64 的绘图仪静静运转着。

它并不懂何为艺术,却在工业数学家 Georg Nees 的指令下,画出了世界上最早一批由计算机生成的图像。

1965年,德国斯图加特大学的研究画廊举办了全球首个在爱尔兰根西门子公司数字计算机上通过算法生成的图形作品展览Computer grafik(算法艺术),Georg Nees 是唯一参展的艺术家,这是当时展出的作品之一。

一段代码、一卷纸带、一组图形库,借由 ALGOL 语言缓缓运行。方格、曲线,轮廓与空白——工业数学家的灵魂在矩形与曲线中悄然跃动,没有人会想到,它会成为人工智能与工业融合的漫长序章。

次年,西门子在爱尔兰根设立研究中心。超过 7 个足球场大的封闭园区,成为无数推动工业 4.0 技术的母体。

60 年过去,城市依旧宁静,工厂早已焕然一新。在西门子爱尔兰根工厂中,超 100 项人工智能应用嵌入制造流程,数字孪生技术成为理解现实的镜像。

机器人能识别陌生零件,借助虚拟物料进行训练,还能将直径仅为几十分之一毫米的导线,精准插入同样微小的孔中。

爱尔兰根工厂的半导体生产洁净室

每天,这座「全球灯塔工厂」生成的数据浩如烟海,源源不断汇入一场更为深远的竞争:

谁能让 AI 听懂机器语言,稳稳落地于最复杂的工业体系?

从智能体到工业基础模型:

西门子打造工业 AI「操作系统」

人机之间最自然的沟通方式,或许始于一种新的「伙伴」关系。西门子称它为 Industrial Copilot。

这位摘下今年「工业界奥斯卡」桂冠的「伙伴」,正步入智能体时代——

你向它发问,它回应的,不只是一个「答案」,而是一个「行动」,如同经验老道的匠人。

Industrial Copilot摘下今年「工业界奥斯卡」赫尔墨斯奖

在德国蒂森克虏伯工厂的一隅,电池测试机静静运转着。玻璃箱里,电池单元在传送带上缓缓滑过,红绿灯交替闪烁,传感器与摄像头捕捉每一刻的细节。

过去,每个动作都需要 PLC 工程师逐行编写代码,甚至要拆解其他供应商提供的程序模块。稍有经验不足,便如坠迷雾。

蒂森克虏伯的工程师们正在使用西门子工业Copilot为这台用于测试电动汽车电池组的机器编写自动化代码。

如今,只需一句自然语言指令,Copilot 便可生成 150 行自动化代码,并无缝对接 TIA 博途系统。开发效率提升近一半,代码部署时间缩短三成。

从设计、规划,到工程、运营和服务,西门子工业智能体正悄然贯穿整个工业脉络。而这套工业智能体系统的灵魂,在于一套如「指挥中心」的「指挥家」( Orchestrator )——

它会遵循业务 SOP 拆解不同任务,准确调度、协调多种智能体,让它们串联、协作,最终完成任务。

Industrial Copilot 则扮演「前台」,提供访问接口,负责人类语言与工业语言的转换。

,时长02:41

Industrial Copilots AI Agents

想象一个常见的场景:「帮我新增一批订单,交付时间提前三天。」你只需对 Industrial Copilot 说出这句话,屏幕显示智能体开始运转。

后台的「指挥家」迅速解析这条需求,根据 SOP 拆解任务、规划流程,并调度多个「小智能体」协同作业——

检查设备运行状态、调整产线参数、核算物料库存、启动生产。

生产完成后,智能体还会自动规划 AGV 小车的数量、速度和路径,将产品送至指定仓位。

在整个过程中,机械臂无需重新编程,便可听从智能体的指令,自动执行分拣、装配等操作。

你能在屏幕上实时看到任务进度、数据流转,甚至一键生成工作报告。

西门子工业智能体系统架构

显然,它不只是一个「超级助理」,更是一个能运筹帷幄的「工业现场指挥家」。而真正的认知核心,是被西门子称作「工业基础模型」(Industrial Foundation Model,IFM )的新事物——

它并非单一模型构成的孤峰,而是一组模型汇聚而成的群山( industrial foundation models ),扎根于 150PB 经过验证的工业数据,浇筑于西门子百年来积淀的工程知识之上。

这些模型各有所长。时间序列基础模型 GTT 精于预测性维护、异常检测与工艺调优。另有模型擅长图纸和 3D 模型,有的通晓 PLC 编程。但都共通一理:深谙工程语义,工业逻辑推理,可嵌入真实生产流程,接受工业的约束。

工业基础模型( IFM )的核心,在于对多模态工业数据的深刻理解。这也是它与当下主流多模态大模型路径的根本分野——

后者更擅长处理泛化的消费者数据,而工业世界充斥着机器语言。

图纸上的几何结构、流程图中的控制逻辑、PLC 发出的电压脉冲、传感器记录下的时间序列……它们无声,却自有严密的语法和秩序。

一个小数点的漂移,一次联动的迟滞,便足以导致系统的紊乱、生产的中断,乃至安全事故的发生。

因此,西门子试图突破文本范式的边界,构建一种能读懂机器语言、能适应严苛工业约束的模型——这,正是工业基础模型( IFM )的出发点,也是它与生俱来的宿命。

护城河:

数据为基,know-how 为魂

4 月初,Industrial Copilot 与工业基础模型( IFM )亮相汉诺威工业博览会,那并非一次炫技,而是对现实的回应:

曾亲手绘图、调试、维护系统的工程专家,很多人已年过六旬,即将退休。该如何留住他们的专业知识?

这一切,靠的不是聊天机器人。至少不是当下这些通用模型所能胜任的。无论是 ChatGPT,还是市面上各类 AI 助手,都无法触及西门子所展现的这些能力。

并非模型不够聪明,而是它们尚未学会如何「生活在工厂里」。而这,正是西门子的护城河——

既有规模惊人的高质量数据资产,更有百年基业下的行业 know-how。

例如,训练工业基础模型( IFM )所依托的语料库,其深度与广度在整个工业世界中都堪称罕见。

高达150PB 的优质工业数据,像一条贯穿时空的脉络,横越产品设计、仿真、制造等多个阶段,从 CAD 图纸到控制逻辑、从传感器序列到操作日志的多模态输入。

哪怕是单一模态的时间序列基础模型 GTT ,数据量已扩展至 1,240 亿。

如此「大手笔」的背后,是一座旁人无法复制的「数据底座」:西门子的工业软件与硬件产品,服务于全球 40 多个行业、40 多万家客户。

作为全球领先的工业软件供应商之一,西门子的版图几乎囊括了 CAD、EDA、CAE、PLM、MES/MOM 等所有关键工业软件品类,打通从设计、仿真到制造、运维的完整生命周期。

而且,西门子的工业软件早已深入流程工业、离散制造等多个垂直场景,包括食品加工、化工流程、生物制药等对行业 know-how 要求极高的复杂系统。

至于硬件世界,西门子已构筑起完整、端到端的设备体系。

从 PLC 控制器、SCADA 系统到工业边缘计算设备,它能够将车间里的每一丝动态都转化为可被采集、可被推理的数字信号。其中,仅 PLC 控制器就运行于全球三分之一的工厂。

但,光有数据还不够。整个 AI 模型生命周期中,最被津津乐道的「建模」,其实不过是十分之一的工作。真正耗时且关键的,是那九成隐藏在背后的工作:数据清理、接口调试、部署与运维。相比于互联网应用,这套流程要复杂得多,需要极为深厚的行业 know-how。

就说构建工业智能体,第一步就是拆解具体任务。而这一步,就已经高度依赖非公开、非通用的工业 SOP 知识;训练 GTT 捕捉多变量之间的动态关系,你也得明白模具温度、电机电流、注射压力和成型时间之间,存在动态耦合。

比起建模,数据采集和清洗看似「体力活」,其实是最具经验门槛的一环。

不同的应用场景,采集方式和频率有着完全不同的诉求。

有的直接从 PLC 拉数,有的依赖传感器实时回传,还有的要通过边缘设备汇总上传;而数据的刷新频率,更是从毫秒级的实时采集,到分钟级、小时级的周期性采集,差异极大。

再往下,通信协议的兼容性也是绕不开的挑战。

Modbus、OPC UA、CAN ……这些协议五花八门,要让它们「说同一种语言」,考验你对现场的工艺理解与系统级的适配能力。

一旦数据打通,质量问题又接踵而来。

缺失值怎么补?异常点怎么识别?低质量数据如何甄别?数据质量不过关,AI 无异于「建在流沙上」。

当你构建了 AI 模型之后,距离完成还差很远 ——

怎么把模型部署到产线中?怎么确保它能稳定运行十年?更重要的是,客户能不能在无需数据科学家介入的前提下,自行维护、使用、调优?

能否破解这些问题,才是工业 AI 成败的分水岭。

比如,一个任务可能需要多个模型协同完成:异常检测、状态分类、时间预测……它们使用的算法不同,数据处理逻辑各异,部署门槛高。

要让它们「跑」起来,首先要理解每个模型的训练逻辑、算法结构与输入输出机制,并实现它们在系统中的无缝联动。

更大的挑战,往往出现在模型上线之后。

三个月后,你可能会发现某个模型突然「罢工」了:传感器产生了微小漂移、环境温度波动、机械老化……这些变化会导致数据分布偏移,模型的预测准确率急剧下降。

而一旦分布发生漂移,就意味着必须重新训练模型——过去,这通常意味着甲方数据科学家的再次介入,流程长、成本高。

西门子提供贯穿整个 AI 应用价值链或生命周期的服务,让数据科学家以一种兼容工业环境的方式,将某些软件包集成到模型中。如果监控系统发现模型性能不够好,工厂的自动化工程师只需通过几次点击,就可以在已经收集到的数据上重新训练模型。

所有这些积淀,并非成立仅 20 余年的数字公司或互联网企业所能比肩。西门子 AI 技术负责人 Robert Lohmeyer 曾说,未来 25 年也难以复制。

半个世纪:

为 AI 写下最硬核的工业注脚

直到今天,几乎没有哪一种工业 AI 解决方案,是西门子无法构建的。

像 Industrial Copilot 和工业基础模型( IFM )这样令人惊叹的技术成果,也绝非凭空出现,而是沿着一条数十年未曾中断的路径生长而出——其根系,深植于上世纪对神经网络的执着探索中。

那是 1973 年。世界尚未为「人工智能」划出清晰的轮廓,西门子却悄然取得了自己的第一项 AI 专利,开启一场长期主义的孤独远征。

20 多年后,在 AI 遭遇信任断崖、被视为「科技泡沫」的年代,西门子却推出了全球首个基于神经网络的钢铁焊接控制系统。

后来,潮水终于来了。ChatGPT 横空出世,一夜之间改变了人类对智能的理解。

当许多西方公司还在激烈争论「是否使用」时,西门子已默默完成切换——发布不到半年,几乎每一位员工都能在安全合规的边界下自由使用 ChatGPT 。DeepSeek 发布后两三天,西门子便已投入使用。

这种对新技术的响应速度,并非一时兴起的果敢,而是源于一种深入骨髓的本能——不断向未来靠拢。

如今,西门子正投入大量资源,为员工和一线工人提供系统性的技能再培训,努力让人与 AI 并肩同行。AI 的最大挑战不在于数据安全,而在于文化认同,西门子数字化工业集团 CEO 奈柯曾说,如果企业文化无法接纳 AI ,AI 就无法真正发挥作用。

这份对未来的投入,并不止于应用层面的拥抱,还包括在 AI 基础研究上的持续耕耘。

超过 1,500 名 AI 专家,其中 250 人专注于基础研究,辅以大量经验丰富的数据科学家,共同构建起一座通往下一代工业文明的「大脑」。而这背后,是一套早已被时间验证的技术版图——

西门子在全球工业 AI 领域的专利持有量居领先地位。在欧洲,更稳居 AI 专利申请首位;

500+ 活跃的 AI 专利家族,不仅代表着技术积累,更彰显算法、工业方法论与系统集成的可变现能力,构筑起西门子在 AI 深水区的坚实护城河。

最近几个月的战略动作,更勾勒出这家百年工业巨头的布局野心。

原 AWS 生成式 AI 副总裁 Vasi Philomin 加盟西门子,担任执行副总裁,全面负责 AI 与数据技术战略,推动包括工业基础模型( IFM )在内的核心能力建设。西门子正以更强势的姿态,抢占技术制高点。

工业软件领域的并购步伐也在加速。今年 3 月至 5 月期间,西门子连续完成 5 项重大收购,其中两笔交易震动行业。

其一,以高达百亿美元的价格收购了工业仿真与 AI 驱动优化领域的领军企业 Altair 。这也是西门子史上第二大规模的收购。

其二,完成对 Dotmatics 的收购,将 AI 驱动的工业软件版图延伸至生命科学领域,打开面向生物医药与健康产业的新局面。

爱尔兰根的阳光依旧温暖,Z64 绘图仪虽已沉寂,但它描绘的第一道曲线,如破晓的微光,映照着西门子深耕 AI 的漫漫长路。

它不擅编织炫目的童话,却将智能深植于原子与代码的土壤——让算法穿透自动化表层,叩响自决策的大门;使封闭的系统学会呼吸,令尘封的经验获得传承;让未来更加激动人心。

在这条「长坡厚雪」的征程上,西门子每一步都带着时间的沉淀。当浮躁的科技喧嚣退去,唯有对行业的深刻理解才能定义真正的制造未来。

此刻,最懂工业的巨人,正用 AI 重写下一纪元的制造语法。

在明天开幕的 WAIC 2025 上,西门子 Industrial Copilot 智能体系统将迎来中国首秀。在西门子展台现场(上海世博展览馆 H2-B701 展位),观众将有机会通过实际场景体验这位「工业现场指挥家」驱动自主生产的独特魅力。