罗福莉认为,2026年是大模型战争的第二幕——从Pre-train主导的Chat时代,转向Post-train主导的Agent时代。1T基座模型是入场券,而Agent框架的自进化、群体智能、以及RL的scaling将是决胜关键。AGI进度已到20%,今年可达60%-70%,两年内可实现。
出生于四川宜宾
ACL顶会发表8篇论文(2篇一作),一夜走红
加入阿里达摩院,主导VECO模型
加入幻方量化/DeepSeek,参与DeepSeek-V2
DeepSeek-R1"奇袭"成功,见证范式转变
朋友圈官宣加入小米MiMo团队
首次公开演讲《Xiaomi MiMo:小米基座大模型》
发布MiMo-V2-Pro等系列模型,接受首次深度访谈
"感觉每天可能都在否定昨天的自己。"
"环境比经验更重要。"
"平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。"
| 天数 | 冲击层次 | 核心发现 |
|---|---|---|
| Day 1 | 有灵魂、有温度 | 精细编排的Context,search.md、时间感知、情商 |
| Day 2 | 替代工作 | 构建User Agent、团队管理、数字分身 |
| Day 3 | 促进研究 | 1-2小时完成原本需要数周的研究任务 |
"我第一次感受到:原来一套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板。"
把MiMo-V2-Flash(未针对性训练)甚至3B端侧模型接入OpenClaw,"依然能做我自己认为不可能是一个非常小的模型能做出来的事情。"
结果:团队群消息10分钟不看就999+,"大家在群里边玩的非常happy"。
核心发现:群体智能 > 个人智能。一个人改框架进步慢,100个人同时改进,"几小时就迭代一轮"。
研究效率提升:"三四周做完了以前三四十周才能做到的事。"
| 因素 | 说明 |
|---|---|
| 开发者更多 | 中国开发者更急迫用Code提升效率,"效率的提升,是我们血液里边的东西" |
| 模型性价比 | "花10块钱的API就能帮你干完1000块钱的事",国内便宜好用的模型多 |
| 模型水平握手 | 国内模型刚靠近Claude 4.5 Sonnet,OpenClaw框架设计弥补了模型短板,两者"握手" |
Skills定义了一套执行规范,这是预训练数据中没有的"另类信息":
"它提供了一种交互的方式,让人去主动贡献数据,贡献让模型执行任务成功率更高的方式。"
三层进化尚未大规模发生:
| 模型 | 定位 | 关键参数 |
|---|---|---|
| MiMo-V2-Flash | 极致性价比 | 总参309B,激活15B,100-150 TPS |
| MiMo-V2-Pro | 旗舰语言模型 | 总参1T,Hybrid Attention 7:1,60-100 TPS |
| MiMo-V2-Omni | 全模态理解 | 支持音视频联合理解,原生多模态训练 |
| MiMo-V2-TTS | 语音生成 | 离散化tokenizer,上亿小时数据训练 |
"MLA在设计之初是为了达到很好的访存跟计算的比例,在当时H系列芯片上,实现既不浪费算力、又打破访存瓶颈。这样设计出来的模型架构,没有任何可发挥的空间。"
而Hybrid Attention + MTP更简洁,"留有更多富余度来做后续在不同场景的适应和增强。"
| 模型 | Full : Sliding | 设计目标 |
|---|---|---|
| Flash | 5:1 | Long Context效率与成本平衡 |
| Pro | 7:1 | 更极致的稀疏比,更大模型可更稀疏 |
核心发现:层数比系数比更重要。更大模型可以吃更大的sparse比例。
多教师在线策略蒸馏:
类比组织管理:"让大家互相MOPD——互相蒸馏,我蒸馏你的长处、你蒸馏我的长处,互相这样快速提升。"
| 时代 | 定价逻辑 | 说明 |
|---|---|---|
| Chat时代 | 按推理成本定价 | 模型结构强,用户感受模型强 |
| Agent时代 | 按产生的价值定价 | Context好不好、模型对Context理解能力 |
| 年份 | 关键事件 | 范式 |
|---|---|---|
| 2022 | ChatGPT发布 | 4K Context,激发预训练智能 |
| 2023 | 开源追赶:Llama、Qwen、DeepSeek | 预训练数据 + 架构创新 |
| 2024 | o1、R1"奇袭" | Reasoning通过Code/Math泛化 |
| 2025 | 交错年:Chat深耕 vs Agent转型 | MiniMax最早全面拥抱Agent |
| 2026 | OpenClaw、Claude Opus 4.6 | Agent时代全面开启 |
| 维度 | 中国 | 美国 |
|---|---|---|
| Pre-train代差 | 基本没有,非常接近 | |
| Agent Post-train | 加速追赶中 | Claude领先约2-3个月 |
| 关键变量 | 技术敏捷性、拥抱新范式 | 先发优势、闭源框架 |
"从终局来倒推:最终要大规模产生经济价值,必须要依赖于算力。如果芯片是分散的,那么推理有可能是芯片厂商做,也有可能是大模型厂商做,它们用的模型难道是同一个吗?我认为一定是不一样的。"
核心逻辑:开源加速AGI,对Agent框架、芯片、能源都有促进作用。
| 维度 | 传统大厂 | MiMo团队 |
|---|---|---|
| 职级 | 有严格职级体系 | 无职级 |
| 小组 | 预训练组、后训练组... | 无小组 |
| Deadline | 明确发布目标 | 无Deadline,"模型训好了再发" |
| 团队规模 | 数百人 | ~100人(含实习生),核心二三十人 |
| 训练1T模型 | 大团队协作 | 几个人即可 |
"这些能力真的都可以被快速习得,只要被放在好的环境里,围绕着一个更高标准的目标来驱动。最多一两个月,慢的话三四个月,确实都可以被快速习得——所以,环境比经验更重要。"
| 时代 | 研究:预训练:后训练 | 变化 |
|---|---|---|
| Chat时代 | 3:5:1 | 预训练占绝对主导 |
| Agent时代 | 3:1:1 | 预训练与后训练1:1 |
顶尖团队应该都已经是1:1了。
一套复杂的Agent框架可以弥补大量模型短板。3B模型在OpenClaw框架下能做出"不可能"的事情。但长期看,顶尖模型 + 顶尖框架需要共同进化。
100个人同时改进一个开源框架,几小时迭代一轮。个人想象力局限,群体想象力是乘积效应。开源是AGI的前兆。
Agent范式下,Post-train周期拉长,投入算力与Pre-train相当。卡比例从3:5:1变为3:1:1。
无职级、无小组、无Deadline。"规范和约束本身是压制创造力的"。几个人可以训练1T模型。
Code在每个范式都戳中要点:预训练(长上下文)、Reasoning(可验证)、Agent(长程任务)。"做Code是一个非常优雅的路径。"
"我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!"
研究员的工作本身也可能被AI替代。"它可能真的能依靠于它自己产生更强的智能进化——它自己左脚踩右脚就提升了。"
这是罗福莉的第一次长时间技术访谈,也是理解2026年AI范式巨变的最佳一手资料。从中可以看到:
正如罗福莉所说:"接下来两三个月会非常精彩。"这不仅是模型竞争的精彩,更是整个AI产业从Chat向Agent跃迁的历史性时刻。