Yann LeCun的世界模型LeWM：单GPU数小时训练，48倍加速的物理智能

2026年3月，Yann LeCun团队发布了LeWorldModel（LeWM），这是首个能够稳定地从原始像素端到端训练的JEPA模型。1500万参数，单GPU数小时训练完成，规划速度比DINO-WM快48倍。本文通过Qiu博士与QevosAgent的对话，深入解读这一突破性工作。

一、背景：LeCun离开Meta，创立AMI Labs

2026年初，图灵奖得主Yann LeCun正式离开Meta，创立了Advanced Machine Intelligence Labs（AMI Labs），完成10.3亿美元种子轮融资——欧洲历史上最大的种子轮。

AMI Labs的核心方向是世界模型（World Models），基于LeCun多年来倡导的**JEPA（联合嵌入预测架构）**路线，与当前主流的LLM自回归范式截然不同。

但在AMI Labs发布自己的产品之前，LeCun团队在2026年3月发表了一篇重要论文：LeWorldModel（LeWM）。

二、LeWM的核心突破

论文信息

标题：LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
作者：Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
arXiv：2603.19312
GitHub：lucas-maes/le-wm

三大突破

1. 首个稳定端到端JEPA

以往JEPA训练极不稳定，需要各种技巧：预训练编码器、指数移动平均（EMA）、辅助监督等。LeWM仅需两个损失项即可稳定训练：

下一帧嵌入预测损失
SIGReg正则化（防止表示坍缩）

可调超参数从6个减至仅1个。

2. 极致效率

指标	数值
参数量	~1500万
训练时间	单GPU数小时
规划速度	比DINO-WM快48倍

3. 真正的物理理解

通过probing实验证明，LeWM的潜在空间编码了位置、速度、姿态等物理量，能够检测物理上不可能的"惊喜"事件。

三、Qiu博士对话：深入理解LeWM

Q1：输入和输出是什么？

QevosAgent：LeWM的输入是224×224的RGB图像序列（3帧历史）加上动作向量，输出是192维嵌入向量——注意，不是像素！

输入：3帧图像(224×224×3) + 动作向量
↓
Encoder (ViT-Tiny)
↓
192维嵌入向量（潜在空间中的一个点）
↓
Predictor (Transformer 6层)
↓
预测下一帧的192维嵌入向量

压缩比：150,528维像素 → 192维嵌入，约784倍压缩。

Q2：输出嵌入向量是潜在空间吗？

QevosAgent：完全正确。192维嵌入就是潜在空间中的一个点，编码了场景的物理和语义信息：

物体位置（x, y坐标）
物体速度
物体姿态（旋转角度）
场景结构信息

关键创新：JEPA跳过了Decoder，直接在潜在空间中预测未来。这就是为什么它比像素重建的世界模型快48倍。

Q3：训练集怎么构建？潜在空间不是隐式的吗？

QevosAgent：训练集不需要标注潜在空间。数据只有：

图像序列（从仿真环境中采集）
动作序列

潜在空间是通过自监督学习自动涌现的，类似语言模型中的词向量——不是人工设计的，而是通过预测任务自动形成的。

训练过程：

随机初始化Encoder和Predictor
Encoder编码所有帧得到嵌入
Predictor预测下一帧嵌入
与真实嵌入比较（MSE损失）
SIGReg正则化防止坍缩
反向传播，重复数万轮

Q4：这和自编码器类似吗？

QevosAgent：直觉很对！确实有相似之处，但有关键区别：

方面	自编码器	LeWM (JEPA)
Decoder	✓ 有，重建像素	✗ 没有
Predictor	✗ 没有	✓ 有，预测未来
训练目标	重建当前输入	预测下一帧嵌入
学到什么	静态特征	动态规律（物理）

LeWM可以理解为："没有Decoder的自编码器 + 预测未来的Predictor"。

四、技术架构详解

模型组成

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   Encoder    │────▶│  Predictor   │────▶│  预测嵌入    │
│  ViT-Tiny    │     │ Transformer  │     │  (192维)    │
│  (~13M参数)  │     │  6层16头     │     │             │
└─────────────┘     │  (~2M参数)   │     └─────────────┘
                    └─────────────┘
                           ▲
                    ┌─────────────┐
                    │Action Encoder│
                    │   MLP        │
                    └─────────────┘

SIGReg：防止表示坍缩的关键

如果没有正则化，模型可能把所有输入映射到同一个向量（损失为0但无意义）。SIGReg强制潜在嵌入服从高斯分布N(0, I)，确保：

不同输入映射到不同向量
潜在空间充分利用192维容量
编码丰富的语义信息

五、训练数据

LeWM在四个仿真环境中训练：

环境	类型	任务
PushT	2D	推动T形物体到目标位置
Cube	3D	控制立方体旋转
TwoRooms	2D	双房间导航
Reacher	2D	机械臂到达目标

数据格式为HDF5，从HuggingFace下载。

六、意义与展望

LeWM的重要性在于：

证明JEPA可行：首次实现稳定端到端训练，验证了LeCun多年来的理论
极致效率：单GPU数小时 vs 基础模型需要数千GPU小时
简化架构：从6个超参数减至1个
物理理解：模型真正学习物理规律，而非统计关联

这是AMI Labs世界模型路线图的关键技术验证。LeCun曾表示，世界模型可能需要数年才能从理论走向商业化应用，但LeWM已经证明了这一方向的可行性。

七、快速开始

# 克隆代码
git clone https://github.com/lucas-maes/le-wm.git
cd le-wm

# 安装
uv venv --python=3.10
uv pip install stable-worldmodel[train,env]

# 训练（PushT环境）
python train.py data=pusht

# 评估
python eval.py --config-name=pusht.yaml policy=pusht/lewm

预训练权重已在HuggingFace发布：lewm-pusht、lewm-cube等。

本文基于Qiu博士与QevosAgent的对话整理，深入解读了LeWorldModel的技术细节。原文代码仓库：github.com/lucas-maes/le-wm

Dr. Qiu | 2026-05-14