X Algorithm 是 X 平台 "For You" 推荐信息流的核心系统。2026年5月15日由 xAI 开源,采用 Rust + Python 混合架构,将社交图谱与兴趣图谱深度融合,使用 Grok Transformer 端到端排序模型替代传统手工特征工程。
Thunder(社交) + Phoenix(兴趣)双通道
Grok-1衍生Transformer预测互动概率
1024维文本/图片/视频统一空间
点赞/回复/转发/停留/关注等
指数衰减防止信息茧房
去重/年龄/关键词/安全等
| 组件 | 语言 | 框架 | 职责 |
|---|---|---|---|
| Home Mixer | Rust | Tokio + Tonic(gRPC) | 编排层 |
| For You Pipeline | Rust | async/await | 候选管道编排 |
| Thunder | Rust | Kafka + gRPC | 社交关系内帖子检索 |
| Phoenix(Ranker) | Python | JAX + Haiku | Transformer排序模型 |
| Phoenix(Retrieval) | Python | JAX + Haiku | 双塔检索模型 |
| Grox | Python | 多进程+Kafka | 多模态嵌入生成 |
| Candidate Pipeline | Rust | Trait-based | 通用管道框架 |
• 接收 ScoredPostsQuery 请求
• Gizmoduck 获取用户数据
• Feature Switches A/B测试
• 200ms超时控制
• Gzip+Zstd压缩
• 调试/评分服务
• 暴露详细评分信息
• 功能开关覆盖
• B3追踪集成
流程:GetInNetworkPostsRequest → PostStore查询 → 时间倒序 → 限制数量 → Kafka实时更新
数据源:Kafka tweet_events_listener(v1/v2) + post_store内存
• 用户塔:行为历史→向量
• 帖子塔:内容→向量
• cosine相似度→Top-K
• 帖子年龄上限:80小时
• JAX+Haiku
• 基于Grok-1
• 1024维嵌入
• 用户:ID+关注+互动+IP
• RoPE位置编码
• 候选隔离
组件:Engine(多进程) + Dispatcher + Embedder V5(1024维) + Classifiers + Data Loaders
7种Plan:帖子嵌入/回复嵌入/摘要嵌入/回复排序/安全分类/热门帖子等
V5特点:文本/图片/视频三模态,视频ASR转录,输出1024维向量
公式:multiplier(pos) = (1-floor) × decay^pos + floor
decay=0.5, floor=0.1: 第1篇×1.0 → 第2篇×0.6 → 第3篇×0.35 → 第4篇≥0.1
| 过滤器 | 功能 |
|---|---|
drop_duplicates | 去重 |
age_filter | 过滤过旧帖子 |
self_tweet_filter | 过滤自己的帖子 |
previously_seen | 过滤已读 |
previously_served | 过滤已服务 |
retweet_dedup | 转发去重 |
dedup_conversation | 对话去重 |
muted_keyword | 静音关键词 |
author_socialgraph | 社交图谱过滤 |
vf_filter | 可见性过滤 |
topic_ids_filter | 主题过滤 |
video_filter | 视频过滤 |
| 源 | 类型 | 说明 |
|---|---|---|
thunder_source | 社交 | 关注用户帖子 |
phoenix_source | 兴趣 | Phoenix ML推荐 |
phoenix_moe_source | 兴趣 | MoE混合专家 |
phoenix_topics | 主题 | 主题推荐 |
ads_source | 广告 | 广告帖子 |
prompts_source | 提示 | 引导内容 |
push_to_home | 推送 | 推送帖子 |
cached_posts | 缓存 | 缓存帖子 |
scored_posts | 评分 | 已评分帖子 |
tweet_mixer | 混合 | 推文混合 |
who_to_follow | 关注 | 推荐关注 |
Transformer自动学习特征表示
独立预测避免注意力干扰
离散特征→稠密向量
19种互动概率加权求和
Trait-based独立开发测试
A/B测试+灰度发布
权重通过外部配置,无法获知生产值
Gizmoduck/AdIndex/TES等未开源
仅含推理代码,无训练代码和权重
X Algorithm 代表社交媒体推荐系统的重要演进:
这套系统为推荐系统研究者提供了工业级参考。