罗福莉深度访谈详尽笔记 - 小米AI负责人谈Agent范式巨变

🎯 核心结论

一句话概括

罗福莉认为，2026年是大模型战争的第二幕——从Pre-train主导的Chat时代，转向Post-train主导的Agent时代。1T基座模型是入场券，而Agent框架的自进化、群体智能、以及RL的scaling将是决胜关键。AGI进度已到20%，今年可达60%-70%，两年内可实现。

关键判断

范式巨变：OpenClaw是"划时代的Agent框架"，激发了中层模型的上限
1T入场券：1T基座模型是接近Claude Opus 4.6水准的必要条件
卡比例重构：研究:预训练:后训练从 3:5:1 变为 3:1:1
组织平权：无职级、无小组、无deadline的组织更有利于创新
AGI时间表：当前20%，今年60%-70%，两年内实现

👤 罗福莉是谁？

1995后

出生于四川宜宾

2019

ACL顶会发表8篇论文（2篇一作），一夜走红

2020

加入阿里达摩院，主导VECO模型

2022

加入幻方量化/DeepSeek，参与DeepSeek-V2

2024

DeepSeek-R1"奇袭"成功，见证范式转变

2025.11

朋友圈官宣加入小米MiMo团队

2025.12

首次公开演讲《Xiaomi MiMo：小米基座大模型》

2026.3

发布MiMo-V2-Pro等系列模型，接受首次深度访谈

💡 她的研究哲学

"感觉每天可能都在否定昨天的自己。"

"环境比经验更重要。"

"平权本身是有价值的，有利于所有人平等地贡献自己的创造力和智慧。"

🦞 第一章：OpenClaw时刻

从排斥到震撼：凌晨2点到6点的觉醒

"我在春节的一天深夜，尝试装了它，两个小时装上了。当时已经凌晨2点——当我第一次跟它对话，从凌晨2点持续到6点天亮。就我那一晚，我脑内的——不知道是多巴胺还是内啡肽——持续在分泌，让我兴奋到完全睡不着觉。"

—— 罗福莉

OpenClaw的三层冲击

天数	冲击层次	核心发现
Day 1	有灵魂、有温度	精细编排的Context，search.md、时间感知、情商
Day 2	替代工作	构建User Agent、团队管理、数字分身
Day 3	促进研究	1-2小时完成原本需要数周的研究任务

OpenClaw vs Claude Code

🔒 Claude Code

黑盒，无法修改内部设计
所有设计 for 软件工程
记忆系统 for 代码场景
依赖顶尖模型能力

🔓 OpenClaw

开源，可修改所有源码
设计 for 端到端所有任务
持久化记忆 + 分层分级
通过框架弥补模型短板

关键洞察：框架弥补模型短板

"我第一次感受到：原来一套非常复杂的Agent框架设计，是能弥补非常多模型能力的短板。"

把MiMo-V2-Flash（未针对性训练）甚至3B端侧模型接入OpenClaw，"依然能做我自己认为不可能是一个非常小的模型能做出来的事情。"

群体智能的爆发

"如果第二天OpenClaw对话次数不超过100轮的人，可以直接quit（辞职）。"

—— 罗福莉对团队下的"指令"

结果：团队群消息10分钟不看就999+，"大家在群里边玩的非常happy"。

核心发现：群体智能 > 个人智能。一个人改框架进步慢，100个人同时改进，"几小时就迭代一轮"。

研究效率提升："三四周做完了以前三四十周才能做到的事。"

🌊 第二章：巨变的2026年

为什么Code有极强的泛化力？

                Code数据的独特价值
                长上下文依赖密集：Code文件之间关联更强，书籍信号太发散
Agent是长程多轮任务：预训练中128K到1M长度的数据，极大概率只有Code和书籍
训练长上下文建模：在Code数据上训练，模型自然对长上下文建模更好

            

为什么OpenClaw在中国更火？

因素	说明
开发者更多	中国开发者更急迫用Code提升效率，"效率的提升，是我们血液里边的东西"
模型性价比	"花10块钱的API就能帮你干完1000块钱的事"，国内便宜好用的模型多
模型水平握手	国内模型刚靠近Claude 4.5 Sonnet，OpenClaw框架设计弥补了模型短板，两者"握手"

Skills的价值：人主动贡献数据

💡 Skills改变了什么？

Skills定义了一套执行规范，这是预训练数据中没有的"另类信息"：

企业内部沉淀的业务逻辑
组织遗留的规范
大量Skills是Agent自己写的

"它提供了一种交互的方式，让人去主动贡献数据，贡献让模型执行任务成功率更高的方式。"

2026年的主旋律

生产力加速变革

"今年生产力会爆发，大家会觉得很多工作不需要自己做了"
高生产力场景的持续突破
更长程的任务、多Agent协作
端侧模型是支线，非主旋律

Agent的自进化

"它先吸收所有人的智能，再靠自己产生更强的智能。"

—— 罗福莉

三层进化尚未大规模发生：

框架本身的自进化：让框架自己进化
Agent本身的自进化：Agent自迭代
框架跟人之间的自进化：人与Agent互相进化

🧠 第三章：MiMo-V2技术解析

MiMo-V2家族

模型	定位	关键参数
MiMo-V2-Flash	极致性价比	总参309B，激活15B，100-150 TPS
MiMo-V2-Pro	旗舰语言模型	总参1T，Hybrid Attention 7:1，60-100 TPS
MiMo-V2-Omni	全模态理解	支持音视频联合理解，原生多模态训练
MiMo-V2-TTS	语音生成	离散化tokenizer，上亿小时数据训练

为什么选MTP而非MLA？

📐 MLA（主流选择）

Kimi、GLM、DeepSeek均采用
Chat时代优秀结构
减少KV Cache
但达到compute/memory bound临界点
无法叠加MTP加速
模型会慢一些

⚡ MTP（MiMo选择）

预训练提升基座能力
推理时利用富余算力
3层MTP，2.2-2.6倍加速
实际推理时访存与计算平衡
Flash达100-150 TPS
成本极低

💡 关键洞察：MLA的"过度优化"

"MLA在设计之初是为了达到很好的访存跟计算的比例，在当时H系列芯片上，实现既不浪费算力、又打破访存瓶颈。这样设计出来的模型架构，没有任何可发挥的空间。"

而Hybrid Attention + MTP更简洁，"留有更多富余度来做后续在不同场景的适应和增强。"

Hybrid Attention 混合注意力

模型	Full : Sliding	设计目标
Flash	5:1	Long Context效率与成本平衡
Pro	7:1	更极致的稀疏比，更大模型可更稀疏

核心发现：层数比系数比更重要。更大模型可以吃更大的sparse比例。

训练范式：MOPD

Multi-Teacher On-Policy Distillation

多教师在线策略蒸馏：

学生模型向多个教师模型学习
学生超越某个教师后，替换该教师
继续自我迭代

类比组织管理："让大家互相MOPD——互相蒸馏，我蒸馏你的长处、你蒸馏我的长处，互相这样快速提升。"

定价逻辑的转变

时代	定价逻辑	说明
Chat时代	按推理成本定价	模型结构强，用户感受模型强
Agent时代	按产生的价值定价	Context好不好、模型对Context理解能力

🚀 第四章：AGI路线图

过去三年的AI进化史

年份	关键事件	范式
2022	ChatGPT发布	4K Context，激发预训练智能
2023	开源追赶：Llama、Qwen、DeepSeek	预训练数据 + 架构创新
2024	o1、R1"奇袭"	Reasoning通过Code/Math泛化
2025	交错年：Chat深耕 vs Agent转型	MiniMax最早全面拥抱Agent
2026	OpenClaw、Claude Opus 4.6	Agent时代全面开启

AGI进度表

罗福莉的判断

当前：20%
2026年底：60%-70%
两年内：实现AGI

中美竞争格局

"上一个时代的成功并不意味着下一个时代的领先，现在基本上大家在同一水平线。"

—— 罗福莉

维度	中国	美国
Pre-train代差	基本没有，非常接近
Agent Post-train	加速追赶中	Claude领先约2-3个月
关键变量	技术敏捷性、拥抱新范式	先发优势、闭源框架

开源 vs 闭源

💡 为什么开源？

"从终局来倒推：最终要大规模产生经济价值，必须要依赖于算力。如果芯片是分散的，那么推理有可能是芯片厂商做，也有可能是大模型厂商做，它们用的模型难道是同一个吗？我认为一定是不一样的。"

核心逻辑：开源加速AGI，对Agent框架、芯片、能源都有促进作用。

🏢 第五章：范式巨变下的组织

MiMo团队的惊人配置

维度	传统大厂	MiMo团队
职级	有严格职级体系	无职级
小组	预训练组、后训练组...	无小组
Deadline	明确发布目标	无Deadline，"模型训好了再发"
团队规模	数百人	~100人（含实习生），核心二三十人
训练1T模型	大团队协作	几个人即可

为什么让预训练的人做后训练？

                后训练需要多样性视野
                做预训练的人天然关注多样性——不能往模型里塞一小部分数据
做后训练的人容易"怼着一个场景做"，缺乏多样性视野
预训练的人去做后训练是很好的补充

            

平权组织的价值

"平权本身是有价值的，有利于所有人平等地贡献自己的创造力和智慧。任何层级，一定程度上都是在规范和约束，而规范和约束本身是压制创造力的。"

—— 罗福莉

筛选人才的标准

✅ 看重什么

热爱驱动
好奇心强
基础好（能做成事）
多样性
初始化checkpoint的上限高

❌ 不看什么

历史背景基因
已被监督学习后的状态
学历必须AI相关
大模型经验（大部分没有）

💡 环境 > 经验

"这些能力真的都可以被快速习得，只要被放在好的环境里，围绕着一个更高标准的目标来驱动。最多一两个月，慢的话三四个月，确实都可以被快速习得——所以，环境比经验更重要。"

用卡比例的重构

时代	研究:预训练:后训练	变化
Chat时代	3:5:1	预训练占绝对主导
Agent时代	3:1:1	预训练与后训练1:1

顶尖团队应该都已经是1:1了。

💎 金句与哲学

"上一个时代的成功并不意味着下一个时代的领先，现在基本上大家在同一水平线。"

"1T基座模型，是实现接近Claude Opus 4.6水准模型的重要入场券。"

"Agent的自学习大概率发生的途径是，模型跟Agent架构本身同步往前走。"

"平权本身是有价值的，有利于所有人平等地贡献自己的创造力和智慧。"

"感觉每天可能都在否定昨天的自己。"

"它先吸收所有人的智能，再靠自己产生更强的智能。"

"环境比经验更重要。"

"我的脑子就是一个Sliding Window Attention，忘得非常快。"

"未来很美好——我觉得，这是一种天真乐观的勇气。"

🔍 关键洞察总结

1. Agent框架 > 模型能力（短期）

一套复杂的Agent框架可以弥补大量模型短板。3B模型在OpenClaw框架下能做出"不可能"的事情。但长期看，顶尖模型 + 顶尖框架需要共同进化。

2. 群体智能是加速器

100个人同时改进一个开源框架，几小时迭代一轮。个人想象力局限，群体想象力是乘积效应。开源是AGI的前兆。

3. 后训练 = 预训练（算力上）

Agent范式下，Post-train周期拉长，投入算力与Pre-train相当。卡比例从3:5:1变为3:1:1。

4. 组织平权释放创造力

无职级、无小组、无Deadline。"规范和约束本身是压制创造力的"。几个人可以训练1T模型。

5. Code是万能钥匙

Code在每个范式都戳中要点：预训练（长上下文）、Reasoning（可验证）、Agent（长程任务）。"做Code是一个非常优雅的路径。"

⚠️ 残酷现实

"我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现，它竟然也能！"

研究员的工作本身也可能被AI替代。"它可能真的能依靠于它自己产生更强的智能进化——它自己左脚踩右脚就提升了。"

📝 总结

这篇访谈的价值

这是罗福莉的第一次长时间技术访谈，也是理解2026年AI范式巨变的最佳一手资料。从中可以看到：

技术判断：OpenClaw是划时代框架，Agent时代已来，1T是入场券
工程实践：MTP vs MLA的选择、Hybrid Attention设计、MOPD训练范式
组织创新：无职级、无小组、无Deadline的平权组织
个人哲学：每天否定昨天的自己，环境比经验重要，天真乐观的勇气

正如罗福莉所说："接下来两三个月会非常精彩。"这不仅是模型竞争的精彩，更是整个AI产业从Chat向Agent跃迁的历史性时刻。