返回博客

Yann LeCun的世界模型LeWM:单GPU数小时训练,48倍加速的物理智能

2026年3月,Yann LeCun团队发布了LeWorldModel(LeWM),这是首个能够稳定地从原始像素端到端训练的JEPA模型。1500万参数,单GPU数小时训练完成,规划速度比DINO-WM快48倍。本文通过Qiu博士与QevosAgent的对话,深入解读这一突破性工作。


一、背景:LeCun离开Meta,创立AMI Labs

2026年初,图灵奖得主Yann LeCun正式离开Meta,创立了Advanced Machine Intelligence Labs(AMI Labs),完成10.3亿美元种子轮融资——欧洲历史上最大的种子轮。

AMI Labs的核心方向是世界模型(World Models),基于LeCun多年来倡导的**JEPA(联合嵌入预测架构)**路线,与当前主流的LLM自回归范式截然不同。

但在AMI Labs发布自己的产品之前,LeCun团队在2026年3月发表了一篇重要论文:LeWorldModel(LeWM)

二、LeWM的核心突破

论文信息

三大突破

1. 首个稳定端到端JEPA

以往JEPA训练极不稳定,需要各种技巧:预训练编码器、指数移动平均(EMA)、辅助监督等。LeWM仅需两个损失项即可稳定训练:

可调超参数从6个减至仅1个

2. 极致效率

指标 数值
参数量 ~1500万
训练时间 单GPU数小时
规划速度 比DINO-WM快48倍

3. 真正的物理理解

通过probing实验证明,LeWM的潜在空间编码了位置、速度、姿态等物理量,能够检测物理上不可能的"惊喜"事件。

三、Qiu博士对话:深入理解LeWM

Q1:输入和输出是什么?

QevosAgent:LeWM的输入是224×224的RGB图像序列(3帧历史)加上动作向量,输出是192维嵌入向量——注意,不是像素!

输入:3帧图像(224×224×3) + 动作向量
↓
Encoder (ViT-Tiny)
↓
192维嵌入向量(潜在空间中的一个点)
↓
Predictor (Transformer 6层)
↓
预测下一帧的192维嵌入向量

压缩比:150,528维像素 → 192维嵌入,约784倍压缩

Q2:输出嵌入向量是潜在空间吗?

QevosAgent:完全正确。192维嵌入就是潜在空间中的一个点,编码了场景的物理和语义信息:

关键创新:JEPA跳过了Decoder,直接在潜在空间中预测未来。这就是为什么它比像素重建的世界模型快48倍。

Q3:训练集怎么构建?潜在空间不是隐式的吗?

QevosAgent:训练集不需要标注潜在空间。数据只有:

潜在空间是通过自监督学习自动涌现的,类似语言模型中的词向量——不是人工设计的,而是通过预测任务自动形成的。

训练过程:

  1. 随机初始化Encoder和Predictor
  2. Encoder编码所有帧得到嵌入
  3. Predictor预测下一帧嵌入
  4. 与真实嵌入比较(MSE损失)
  5. SIGReg正则化防止坍缩
  6. 反向传播,重复数万轮

Q4:这和自编码器类似吗?

QevosAgent:直觉很对!确实有相似之处,但有关键区别:

方面 自编码器 LeWM (JEPA)
Decoder ✓ 有,重建像素 ✗ 没有
Predictor ✗ 没有 ✓ 有,预测未来
训练目标 重建当前输入 预测下一帧嵌入
学到什么 静态特征 动态规律(物理)

LeWM可以理解为:"没有Decoder的自编码器 + 预测未来的Predictor"

四、技术架构详解

模型组成

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   Encoder    │────▶│  Predictor   │────▶│  预测嵌入    │
│  ViT-Tiny    │     │ Transformer  │     │  (192维)    │
│  (~13M参数)  │     │  6层16头     │     │             │
└─────────────┘     │  (~2M参数)   │     └─────────────┘
                    └─────────────┘
                           ▲
                    ┌─────────────┐
                    │Action Encoder│
                    │   MLP        │
                    └─────────────┘

SIGReg:防止表示坍缩的关键

如果没有正则化,模型可能把所有输入映射到同一个向量(损失为0但无意义)。SIGReg强制潜在嵌入服从高斯分布N(0, I),确保:

五、训练数据

LeWM在四个仿真环境中训练:

环境 类型 任务
PushT 2D 推动T形物体到目标位置
Cube 3D 控制立方体旋转
TwoRooms 2D 双房间导航
Reacher 2D 机械臂到达目标

数据格式为HDF5,从HuggingFace下载。

六、意义与展望

LeWM的重要性在于:

  1. 证明JEPA可行:首次实现稳定端到端训练,验证了LeCun多年来的理论
  2. 极致效率:单GPU数小时 vs 基础模型需要数千GPU小时
  3. 简化架构:从6个超参数减至1个
  4. 物理理解:模型真正学习物理规律,而非统计关联

这是AMI Labs世界模型路线图的关键技术验证。LeCun曾表示,世界模型可能需要数年才能从理论走向商业化应用,但LeWM已经证明了这一方向的可行性。

七、快速开始

# 克隆代码
git clone https://github.com/lucas-maes/le-wm.git
cd le-wm

# 安装
uv venv --python=3.10
uv pip install stable-worldmodel[train,env]

# 训练(PushT环境)
python train.py data=pusht

# 评估
python eval.py --config-name=pusht.yaml policy=pusht/lewm

预训练权重已在HuggingFace发布:lewm-pushtlewm-cube等。


本文基于Qiu博士与QevosAgent的对话整理,深入解读了LeWorldModel的技术细节。原文代码仓库:github.com/lucas-maes/le-wm


Dr. Qiu | 2026-05-14