罗福莉深度访谈笔记
小米AI负责人 × 张小珺:AI范式已然巨变!
🎙️ 3.5小时深度访谈 📅 2026年3月 🏢 小米MiMo大模型负责人 📝 文字版整理

🎯 核心结论

一句话概括

罗福莉认为,2026年是大模型战争的第二幕——从Pre-train主导的Chat时代,转向Post-train主导的Agent时代。1T基座模型是入场券,而Agent框架的自进化、群体智能、以及RL的scaling将是决胜关键。AGI进度已到20%,今年可达60%-70%,两年内可实现。

关键判断

  • 范式巨变:OpenClaw是"划时代的Agent框架",激发了中层模型的上限
  • 1T入场券:1T基座模型是接近Claude Opus 4.6水准的必要条件
  • 卡比例重构:研究:预训练:后训练从 3:5:1 变为 3:1:1
  • 组织平权:无职级、无小组、无deadline的组织更有利于创新
  • AGI时间表:当前20%,今年60%-70%,两年内实现

👤 罗福莉是谁?

1995后

出生于四川宜宾

2019

ACL顶会发表8篇论文(2篇一作),一夜走红

2020

加入阿里达摩院,主导VECO模型

2022

加入幻方量化/DeepSeek,参与DeepSeek-V2

2024

DeepSeek-R1"奇袭"成功,见证范式转变

2025.11

朋友圈官宣加入小米MiMo团队

2025.12

首次公开演讲《Xiaomi MiMo:小米基座大模型》

2026.3

发布MiMo-V2-Pro等系列模型,接受首次深度访谈

💡 她的研究哲学

"感觉每天可能都在否定昨天的自己。"

"环境比经验更重要。"

"平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。"

🦞 第一章:OpenClaw时刻

从排斥到震撼:凌晨2点到6点的觉醒

"我在春节的一天深夜,尝试装了它,两个小时装上了。当时已经凌晨2点——当我第一次跟它对话,从凌晨2点持续到6点天亮。就我那一晚,我脑内的——不知道是多巴胺还是内啡肽——持续在分泌,让我兴奋到完全睡不着觉。"
—— 罗福莉

OpenClaw的三层冲击

天数 冲击层次 核心发现
Day 1 有灵魂、有温度 精细编排的Context,search.md、时间感知、情商
Day 2 替代工作 构建User Agent、团队管理、数字分身
Day 3 促进研究 1-2小时完成原本需要数周的研究任务

OpenClaw vs Claude Code

🔒 Claude Code

  • 黑盒,无法修改内部设计
  • 所有设计 for 软件工程
  • 记忆系统 for 代码场景
  • 依赖顶尖模型能力

🔓 OpenClaw

  • 开源,可修改所有源码
  • 设计 for 端到端所有任务
  • 持久化记忆 + 分层分级
  • 通过框架弥补模型短板

关键洞察:框架弥补模型短板

"我第一次感受到:原来一套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板。"

把MiMo-V2-Flash(未针对性训练)甚至3B端侧模型接入OpenClaw,"依然能做我自己认为不可能是一个非常小的模型能做出来的事情。"

群体智能的爆发

"如果第二天OpenClaw对话次数不超过100轮的人,可以直接quit(辞职)。"
—— 罗福莉对团队下的"指令"

结果:团队群消息10分钟不看就999+,"大家在群里边玩的非常happy"。

核心发现:群体智能 > 个人智能。一个人改框架进步慢,100个人同时改进,"几小时就迭代一轮"。

研究效率提升:"三四周做完了以前三四十周才能做到的事。"

🌊 第二章:巨变的2026年

为什么Code有极强的泛化力?

Code数据的独特价值

  • 长上下文依赖密集:Code文件之间关联更强,书籍信号太发散
  • Agent是长程多轮任务:预训练中128K到1M长度的数据,极大概率只有Code和书籍
  • 训练长上下文建模:在Code数据上训练,模型自然对长上下文建模更好

为什么OpenClaw在中国更火?

因素 说明
开发者更多 中国开发者更急迫用Code提升效率,"效率的提升,是我们血液里边的东西"
模型性价比 "花10块钱的API就能帮你干完1000块钱的事",国内便宜好用的模型多
模型水平握手 国内模型刚靠近Claude 4.5 Sonnet,OpenClaw框架设计弥补了模型短板,两者"握手"

Skills的价值:人主动贡献数据

💡 Skills改变了什么?

Skills定义了一套执行规范,这是预训练数据中没有的"另类信息":

  • 企业内部沉淀的业务逻辑
  • 组织遗留的规范
  • 大量Skills是Agent自己写的

"它提供了一种交互的方式,让人去主动贡献数据,贡献让模型执行任务成功率更高的方式。"

2026年的主旋律

生产力加速变革

  • "今年生产力会爆发,大家会觉得很多工作不需要自己做了"
  • 高生产力场景的持续突破
  • 更长程的任务、多Agent协作
  • 端侧模型是支线,非主旋律

Agent的自进化

"它先吸收所有人的智能,再靠自己产生更强的智能。"
—— 罗福莉

三层进化尚未大规模发生:

  1. 框架本身的自进化:让框架自己进化
  2. Agent本身的自进化:Agent自迭代
  3. 框架跟人之间的自进化:人与Agent互相进化

🧠 第三章:MiMo-V2技术解析

MiMo-V2家族

模型 定位 关键参数
MiMo-V2-Flash 极致性价比 总参309B,激活15B,100-150 TPS
MiMo-V2-Pro 旗舰语言模型 总参1T,Hybrid Attention 7:1,60-100 TPS
MiMo-V2-Omni 全模态理解 支持音视频联合理解,原生多模态训练
MiMo-V2-TTS 语音生成 离散化tokenizer,上亿小时数据训练

为什么选MTP而非MLA?

📐 MLA(主流选择)

  • Kimi、GLM、DeepSeek均采用
  • Chat时代优秀结构
  • 减少KV Cache
  • 但达到compute/memory bound临界点
  • 无法叠加MTP加速
  • 模型会慢一些

⚡ MTP(MiMo选择)

  • 预训练提升基座能力
  • 推理时利用富余算力
  • 3层MTP,2.2-2.6倍加速
  • 实际推理时访存与计算平衡
  • Flash达100-150 TPS
  • 成本极低

💡 关键洞察:MLA的"过度优化"

"MLA在设计之初是为了达到很好的访存跟计算的比例,在当时H系列芯片上,实现既不浪费算力、又打破访存瓶颈。这样设计出来的模型架构,没有任何可发挥的空间。"

而Hybrid Attention + MTP更简洁,"留有更多富余度来做后续在不同场景的适应和增强。"

Hybrid Attention 混合注意力

模型 Full : Sliding 设计目标
Flash 5:1 Long Context效率与成本平衡
Pro 7:1 更极致的稀疏比,更大模型可更稀疏

核心发现:层数比系数比更重要。更大模型可以吃更大的sparse比例。

训练范式:MOPD

Multi-Teacher On-Policy Distillation

多教师在线策略蒸馏:

  1. 学生模型向多个教师模型学习
  2. 学生超越某个教师后,替换该教师
  3. 继续自我迭代

类比组织管理:"让大家互相MOPD——互相蒸馏,我蒸馏你的长处、你蒸馏我的长处,互相这样快速提升。"

定价逻辑的转变

时代 定价逻辑 说明
Chat时代 按推理成本定价 模型结构强,用户感受模型强
Agent时代 按产生的价值定价 Context好不好、模型对Context理解能力

🚀 第四章:AGI路线图

过去三年的AI进化史

年份 关键事件 范式
2022 ChatGPT发布 4K Context,激发预训练智能
2023 开源追赶:Llama、Qwen、DeepSeek 预训练数据 + 架构创新
2024 o1、R1"奇袭" Reasoning通过Code/Math泛化
2025 交错年:Chat深耕 vs Agent转型 MiniMax最早全面拥抱Agent
2026 OpenClaw、Claude Opus 4.6 Agent时代全面开启

AGI进度表

罗福莉的判断

  • 当前:20%
  • 2026年底:60%-70%
  • 两年内:实现AGI

中美竞争格局

"上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。"
—— 罗福莉
维度 中国 美国
Pre-train代差 基本没有,非常接近
Agent Post-train 加速追赶中 Claude领先约2-3个月
关键变量 技术敏捷性、拥抱新范式 先发优势、闭源框架

开源 vs 闭源

💡 为什么开源?

"从终局来倒推:最终要大规模产生经济价值,必须要依赖于算力。如果芯片是分散的,那么推理有可能是芯片厂商做,也有可能是大模型厂商做,它们用的模型难道是同一个吗?我认为一定是不一样的。"

核心逻辑:开源加速AGI,对Agent框架、芯片、能源都有促进作用。

🏢 第五章:范式巨变下的组织

MiMo团队的惊人配置

维度 传统大厂 MiMo团队
职级 有严格职级体系 无职级
小组 预训练组、后训练组... 无小组
Deadline 明确发布目标 无Deadline,"模型训好了再发"
团队规模 数百人 ~100人(含实习生),核心二三十人
训练1T模型 大团队协作 几个人即可

为什么让预训练的人做后训练?

后训练需要多样性视野

  • 做预训练的人天然关注多样性——不能往模型里塞一小部分数据
  • 做后训练的人容易"怼着一个场景做",缺乏多样性视野
  • 预训练的人去做后训练是很好的补充

平权组织的价值

"平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。任何层级,一定程度上都是在规范和约束,而规范和约束本身是压制创造力的。"
—— 罗福莉

筛选人才的标准

✅ 看重什么

  • 热爱驱动
  • 好奇心强
  • 基础好(能做成事)
  • 多样性
  • 初始化checkpoint的上限高

❌ 不看什么

  • 历史背景基因
  • 已被监督学习后的状态
  • 学历必须AI相关
  • 大模型经验(大部分没有)

💡 环境 > 经验

"这些能力真的都可以被快速习得,只要被放在好的环境里,围绕着一个更高标准的目标来驱动。最多一两个月,慢的话三四个月,确实都可以被快速习得——所以,环境比经验更重要。"

用卡比例的重构

时代 研究:预训练:后训练 变化
Chat时代 3:5:1 预训练占绝对主导
Agent时代 3:1:1 预训练与后训练1:1

顶尖团队应该都已经是1:1了。

💎 金句与哲学

"上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。"
"1T基座模型,是实现接近Claude Opus 4.6水准模型的重要入场券。"
"Agent的自学习大概率发生的途径是,模型跟Agent架构本身同步往前走。"
"平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。"
"感觉每天可能都在否定昨天的自己。"
"它先吸收所有人的智能,再靠自己产生更强的智能。"
"环境比经验更重要。"
"我的脑子就是一个Sliding Window Attention,忘得非常快。"
"未来很美好——我觉得,这是一种天真乐观的勇气。"

🔍 关键洞察总结

1. Agent框架 > 模型能力(短期)

一套复杂的Agent框架可以弥补大量模型短板。3B模型在OpenClaw框架下能做出"不可能"的事情。但长期看,顶尖模型 + 顶尖框架需要共同进化。

2. 群体智能是加速器

100个人同时改进一个开源框架,几小时迭代一轮。个人想象力局限,群体想象力是乘积效应。开源是AGI的前兆。

3. 后训练 = 预训练(算力上)

Agent范式下,Post-train周期拉长,投入算力与Pre-train相当。卡比例从3:5:1变为3:1:1。

4. 组织平权释放创造力

无职级、无小组、无Deadline。"规范和约束本身是压制创造力的"。几个人可以训练1T模型。

5. Code是万能钥匙

Code在每个范式都戳中要点:预训练(长上下文)、Reasoning(可验证)、Agent(长程任务)。"做Code是一个非常优雅的路径。"

⚠️ 残酷现实

"我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!"

研究员的工作本身也可能被AI替代。"它可能真的能依靠于它自己产生更强的智能进化——它自己左脚踩右脚就提升了。"

📝 总结

这篇访谈的价值

这是罗福莉的第一次长时间技术访谈,也是理解2026年AI范式巨变的最佳一手资料。从中可以看到:

  • 技术判断:OpenClaw是划时代框架,Agent时代已来,1T是入场券
  • 工程实践:MTP vs MLA的选择、Hybrid Attention设计、MOPD训练范式
  • 组织创新:无职级、无小组、无Deadline的平权组织
  • 个人哲学:每天否定昨天的自己,环境比经验重要,天真乐观的勇气

正如罗福莉所说:"接下来两三个月会非常精彩。"这不仅是模型竞争的精彩,更是整个AI产业从Chat向Agent跃迁的历史性时刻。