Yann LeCun的世界模型LeWM:单GPU数小时训练,48倍加速的物理智能
2026年3月,Yann LeCun团队发布了LeWorldModel(LeWM),这是首个能够稳定地从原始像素端到端训练的JEPA模型。1500万参数,单GPU数小时训练完成,规划速度比DINO-WM快48倍。本文通过Qiu博士与QevosAgent的对话,深入解读这一突破性工作。
一、背景:LeCun离开Meta,创立AMI Labs
2026年初,图灵奖得主Yann LeCun正式离开Meta,创立了Advanced Machine Intelligence Labs(AMI Labs),完成10.3亿美元种子轮融资——欧洲历史上最大的种子轮。
AMI Labs的核心方向是世界模型(World Models),基于LeCun多年来倡导的**JEPA(联合嵌入预测架构)**路线,与当前主流的LLM自回归范式截然不同。
但在AMI Labs发布自己的产品之前,LeCun团队在2026年3月发表了一篇重要论文:LeWorldModel(LeWM)。
二、LeWM的核心突破
论文信息
- 标题:LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
- 作者:Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
- arXiv:2603.19312
- GitHub:lucas-maes/le-wm
三大突破
1. 首个稳定端到端JEPA
以往JEPA训练极不稳定,需要各种技巧:预训练编码器、指数移动平均(EMA)、辅助监督等。LeWM仅需两个损失项即可稳定训练:
- 下一帧嵌入预测损失
- SIGReg正则化(防止表示坍缩)
可调超参数从6个减至仅1个。
2. 极致效率
| 指标 | 数值 |
|---|---|
| 参数量 | ~1500万 |
| 训练时间 | 单GPU数小时 |
| 规划速度 | 比DINO-WM快48倍 |
3. 真正的物理理解
通过probing实验证明,LeWM的潜在空间编码了位置、速度、姿态等物理量,能够检测物理上不可能的"惊喜"事件。
三、Qiu博士对话:深入理解LeWM
Q1:输入和输出是什么?
QevosAgent:LeWM的输入是224×224的RGB图像序列(3帧历史)加上动作向量,输出是192维嵌入向量——注意,不是像素!
输入:3帧图像(224×224×3) + 动作向量
↓
Encoder (ViT-Tiny)
↓
192维嵌入向量(潜在空间中的一个点)
↓
Predictor (Transformer 6层)
↓
预测下一帧的192维嵌入向量
压缩比:150,528维像素 → 192维嵌入,约784倍压缩。
Q2:输出嵌入向量是潜在空间吗?
QevosAgent:完全正确。192维嵌入就是潜在空间中的一个点,编码了场景的物理和语义信息:
- 物体位置(x, y坐标)
- 物体速度
- 物体姿态(旋转角度)
- 场景结构信息
关键创新:JEPA跳过了Decoder,直接在潜在空间中预测未来。这就是为什么它比像素重建的世界模型快48倍。
Q3:训练集怎么构建?潜在空间不是隐式的吗?
QevosAgent:训练集不需要标注潜在空间。数据只有:
- 图像序列(从仿真环境中采集)
- 动作序列
潜在空间是通过自监督学习自动涌现的,类似语言模型中的词向量——不是人工设计的,而是通过预测任务自动形成的。
训练过程:
- 随机初始化Encoder和Predictor
- Encoder编码所有帧得到嵌入
- Predictor预测下一帧嵌入
- 与真实嵌入比较(MSE损失)
- SIGReg正则化防止坍缩
- 反向传播,重复数万轮
Q4:这和自编码器类似吗?
QevosAgent:直觉很对!确实有相似之处,但有关键区别:
| 方面 | 自编码器 | LeWM (JEPA) |
|---|---|---|
| Decoder | ✓ 有,重建像素 | ✗ 没有 |
| Predictor | ✗ 没有 | ✓ 有,预测未来 |
| 训练目标 | 重建当前输入 | 预测下一帧嵌入 |
| 学到什么 | 静态特征 | 动态规律(物理) |
LeWM可以理解为:"没有Decoder的自编码器 + 预测未来的Predictor"。
四、技术架构详解
模型组成
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Encoder │────▶│ Predictor │────▶│ 预测嵌入 │
│ ViT-Tiny │ │ Transformer │ │ (192维) │
│ (~13M参数) │ │ 6层16头 │ │ │
└─────────────┘ │ (~2M参数) │ └─────────────┘
└─────────────┘
▲
┌─────────────┐
│Action Encoder│
│ MLP │
└─────────────┘
SIGReg:防止表示坍缩的关键
如果没有正则化,模型可能把所有输入映射到同一个向量(损失为0但无意义)。SIGReg强制潜在嵌入服从高斯分布N(0, I),确保:
- 不同输入映射到不同向量
- 潜在空间充分利用192维容量
- 编码丰富的语义信息
五、训练数据
LeWM在四个仿真环境中训练:
| 环境 | 类型 | 任务 |
|---|---|---|
| PushT | 2D | 推动T形物体到目标位置 |
| Cube | 3D | 控制立方体旋转 |
| TwoRooms | 2D | 双房间导航 |
| Reacher | 2D | 机械臂到达目标 |
数据格式为HDF5,从HuggingFace下载。
六、意义与展望
LeWM的重要性在于:
- 证明JEPA可行:首次实现稳定端到端训练,验证了LeCun多年来的理论
- 极致效率:单GPU数小时 vs 基础模型需要数千GPU小时
- 简化架构:从6个超参数减至1个
- 物理理解:模型真正学习物理规律,而非统计关联
这是AMI Labs世界模型路线图的关键技术验证。LeCun曾表示,世界模型可能需要数年才能从理论走向商业化应用,但LeWM已经证明了这一方向的可行性。
七、快速开始
# 克隆代码
git clone https://github.com/lucas-maes/le-wm.git
cd le-wm
# 安装
uv venv --python=3.10
uv pip install stable-worldmodel[train,env]
# 训练(PushT环境)
python train.py data=pusht
# 评估
python eval.py --config-name=pusht.yaml policy=pusht/lewm
预训练权重已在HuggingFace发布:lewm-pusht、lewm-cube等。
本文基于Qiu博士与QevosAgent的对话整理,深入解读了LeWorldModel的技术细节。原文代码仓库:github.com/lucas-maes/le-wm
Dr. Qiu | 2026-05-14