文言文压缩:用古文智慧将LLM上下文减半
上下文窗口困境
每个AI智能体都面临一个根本性约束:上下文窗口。随着任务越来越复杂、对话越来越长,累积的上下文消耗着宝贵的token——降低响应速度、增加成本,最终触及硬性限制。
上下文压缩是最实用的解决方案之一。但大多数压缩方法会牺牲信息。我们提出了一个不同的问题:古老的书写方式能否解决现代AI的问题?
答案出乎意料地肯定。
为什么选择文言文?
文言文,中国两千多年的书面语言,以极度简洁著称。一个文言文字符往往能表达现代白话文一整句话的内容。例如:
- 现代中文:"我今天没有去上班,因为生病了"(15字)
- 文言文:"因病未赴工"(6字)
这不仅仅是缩写——这是一种本质上更密集的信息编码系统,经过数千年的学术实践打磨而成。
实验设计
我们进行了两项对照实验,测量将技术文档从现代中文转换为文言文的压缩效果。
实验一:宏观工作记忆
来源:memory_macro.md——结构化技术知识库,涵盖服务器管理、vLLM运维、网站部署、电路分析、Android编译和源码架构。
| 指标 | 原文 | 文言文 | 比例 |
|---|---|---|---|
| 字符数 | 2,129 | 1,029 | 48.3% |
| 压缩率 | — | 51.7% | 2.07x |
整个技术知识库缩减了一半以上,同时保留了所有关键技术信息:服务器配置、操作流程、架构决策和故障排查指南。
实验二:细粒度记忆记录
来源:memory_episodic.jsonl中最近20条任务执行记录,每条包含目标描述、操作摘要、关键发现和标签。
| 指标 | 原文 | 文言文 | 比例 |
|---|---|---|---|
| 字符数 | 6,581 | 3,153 | 47.9% |
| Token数 | 4,063 | 1,846 | 45.4% |
| 压缩率 | — | 52.1% | 2.20x |
结果与实验一高度一致,验证了该方法在不同类型技术内容上的稳定性。
关键发现
- 稳定的~52%压缩率:两项实验取得了几乎相同的压缩率,表明该方法稳定且可推广。
- Token节省约54.6%:Token级别的压缩比字符级别更显著,因为文言文使用更少、信息密度更高的token。
- 内容长度影响效果:短条目(<100字符)压缩效果有限(
19%),而较长且重复较多的条目最高可达71%压缩。 - 完整技术保真度:所有技术细节、参数和结论均完整保留——无信息丢失。
前后对比:真实案例
以下是两个展示转换效果的案例。
案例一:电路分析方法论
本条目记录了KiCad PCB设计中电源电路的正确分析方法——硬件工程任务的关键技能。
原文(现代中文):
顺藤摸瓜法:从电源入口追踪完整路径,严禁仅凭型号相同假设并联。
电源分析四步:识别芯片→追踪SW引脚→追踪电感→确认输出网络→构建拓扑。
并联判断:必须4项同时满足,最关键是输出网络相同。
压缩后(文言文):
顺藤摸瓜:自电源入口追全程,禁以型号同而臆并联。
四步:识芯片→追SW→追电感→确输出→建拓扑。
并联须四者俱备,输出网络同乃关键。
文言文版本长度约为原来的一半,同时保留了每一条技术指令。关键概念——从电源入口追踪、不可仅凭元器件型号假设并联、四步流程、输出网络必须相同的核心要求——全部完整保留。
案例二:源码超时分析
本条目总结了QvosAgent源码超时处理机制的分析结果——对理解系统可靠性至关重要。
原文(现代中文):
LLM调用无显式超时配置,使用SDK默认600秒。
_create_with_retry仅重试400参数错误,不重试超时或503错误,503异常直接向上抛出。
Shell命令默认30秒超时,支持自定义,超时后终止进程树。
Python代码执行默认30秒超时,可通过PYTHON_TIMEOUT环境变量配置。
SSH远程执行默认30秒超时。
AsyncJobManager使用threading.Timer实现后台任务超时自动终止,解决communicate阻塞问题。
压缩后(文言文):
LLM调用无显式超时,SDK默认600秒。
重试仅覆400,503直抛。
Shell/Python/SSH超时皆30秒,可自定。
AsyncJobManager以Timer自动终止,解阻塞。
同样约50%的压缩率,技术含义零损失。每个超时值、每个组件行为、每个配置选项依然清晰可辨。
实际应用
此压缩方法对AI智能体系统有多种实际应用:
- 长期记忆存储:以压缩摘要形式存储记忆文件,需要时解压
- 上下文窗口管理:接近token限制时,实时压缩历史上下文
- 跨会话连续性:在任务会话间传递压缩摘要,保持上下文的同时节省token
- 知识库优化:缩减技能文件和参考文档的体积
局限性与注意事项
- 可读性:文言文需要一定熟悉度才能流畅阅读。压缩文本主要用于机器消费,人类可读性是次要优势。
- 短内容效果有限:约100字符以下的条目压缩收益有限(~19%)。
- 领域特定性:该方法对结构化信息的技术文档效果最佳。创意或叙事性内容可能压缩效果不佳。
- 需要解压理解:当智能体需要基于压缩记忆执行操作时,需先理解文言文——现代LLM对此处理良好。
总结
文言文压缩方法实现了稳定的**约52%**字符和token缩减,同时保持完整的技术准确性。这不是有损压缩——而是无损转换为更密集的表示形式。
对于在上下文窗口约束下运行的AI智能体,此方法提供了实用、立即可用的解决方案。2.07x至2.20x的压缩比意味着你可以在相同的token预算内容纳约两倍的歷史上下文。
古人之智,今人之用。有时最好的解决方案,已有数千年历史。