AI 编码越用越贵？我把 token 砍掉了 82%（附实测数据）

上一篇我说，省 token 不在砍文档，在把工具用对。有人接着问：那到底怎么用对？

这篇上实测。先甩个数字：我翻了下本地的 rtk gain——这是个统计 token 节省的工具——六千多条命令，累计省下 740 万 token，82%。不是估的，是它一条条记下来的。

这篇就拆开讲：这 82% 是怎么省出来的。

省 token，省在”进上下文之前”

先说清楚省在哪。

省 token 的大头，不在你”干了多少活”，在每一轮对话往 AI 上下文里塞了多少东西。模型每轮都要把整个上下文重新算一遍——上下文越肥，每一轮越贵。

所以核心就一句话：让进上下文的东西尽量少、尽量精。

我手上三个抓手：压规则文件、用对插件、模型分层。它们有个共性——都省在”进上下文之前”，不靠你少干活。下面一个个拆。

省 token 省在「进上下文之前」：要喂给 AI 的一堆（几百行命令输出、整库代码、几万字对话历史、臃肿规则文件）先过三道闸——压规则文件、插件自动压、模型分层，真正进上下文的瘦一大圈，每一轮都省

抓手一：先把你的 CLAUDE.md 压瘦

最容易被忽略、又最该先做的，是压你的 CLAUDE.md。

CLAUDE.md（规则文件、指令文件，叫法不一）是每次对话都会被塞进上下文的东西。它常驻。你写了多少行，每一轮就重复付多少行的 token。

我自己的 CLAUDE.md 一度写得又臭又长，从用户级到项目级，密密麻麻叮嘱了一大堆。后来回头一看，里头全是重复的唠叨、过时的约定，和一堆”写了跟没写一样”的正确废话。狠心砍掉将近一半，只留真正每次都用得上的硬规则。说到底，同一句话叮嘱三遍，AI 也不会更照办，纯是每轮多花 token。

就这一下，每一轮对话都省。因为它常驻，省的不是一次，是往后每一次。

对话上下文同理：一个聊到几万字的窗口，该清就清，别让早上的事拖到晚上还在每轮重算。

抓手二：装几个自动干这事的插件

光靠手动还不够。我装了几个自动压上下文的插件，数据说话。

RTK（Rust Token Killer）——命令代理。你让 AI 跑 git status、ps aux、跑测试，那些输出动辄几百上千行，全塞进上下文巨贵。RTK 在输出进 AI 之前就把它压掉。我的 rtk gain：六千多条命令省了 740 万 token、82%。省得最狠的是那些高频又没营养的输出——ps aux 几百行的进程列表，AI 看了纯属遭罪，省 99%；测试日志省 88%；连读文件平均也省两成。

claude-mem——记忆插件。把跨会话的工作压成结构化记忆，下次不用重新跟它解释项目背景。本会话实测省了 86%。全自动，基本不用我管。

codegraph——代码图谱。它给整个项目的函数、类型、调用关系建了个索引。AI 要找某个函数，查索引就行，不用把一堆文件通读一遍。我的 aitm 项目，它索引了 246 个文件、3562 个符号。”查索引”和”把 246 个文件从头读一遍”，差的不是一星半点——前者像翻书的目录，后者像为了回答一个问题先把整本书背下来。

这三个的共性：自动、常驻、省在进上下文之前。装好基本就忘了它，它一直在帮你省。

三个自动帮手的实测数据：RTK 命令代理省 82%（六千多条命令累计省 7.4M token）、claude-mem 记忆压缩省 86%（跨会话不用重讲背景）、codegraph 代码图谱索引 3562 个符号（查索引不通读 246 文件）

抓手三：别用最贵的模型干所有活

最后一个，模型分层。

探索、搜索、读文件这种粗活，交给便宜的小模型；真正要动脑的写代码、做判断，才上最强那档。尤其派 subagent 的时候——一个任务拆几个子 agent，粗活那些用小模型，这是省额度的主战场。

我把这套判断标准直接写进了 CLAUDE.md，让 AI 每次自己照着分，不用我每回交代。

这事也不限于 Claude Code。换任何 AI 平台，道理一样：摸清每个模型的能力和价钱，该用哪档用哪档，把贵的算力用在刀刃上。

还有一招：让重复进去的部分打折

前面三个抓手，都是在”减少进上下文的量”。还有一个角度不一样——prompt caching，它不减量，是让重复进去的部分按折扣计费。

系统提示、不变的规则文件、固定的项目背景，这些每轮都一样的东西，第一次进去算全价，之后命中缓存就打折——而且不是线性的折扣，用好了省得明显。

诀窍是别让该缓存的东西老变：固定不变的放上下文前面、稳住，每轮变动的放后面。结构越稳，缓存命中率越高，折扣吃得越满。

这招我没有像 RTK 那样的实测数字（它省在计费这头，不在 token 数量上），但原理简单、几乎零成本，顺手就能用上。

几句实话：这不是免费午餐

得把代价也说清楚，不然就成种草文了。

codegraph 要先建索引，项目大了索引也花时间；claude-mem 的记忆偶尔召回得不那么准，得自己留个心眼；压 CLAUDE.md 更有个度——把真正每次都要用的硬规则也压没了，AI 跑偏返工，那是捡芝麻丢西瓜。

还有，别误会”省 token”是让你少干活。恰恰相反，它砍的是”本来就该省的浪费”——重复的上下文、通读整库、大炮打蚊子。活该干的还得干。

省下来意味着什么，得看你怎么计费（上篇讲过）：包月省的是额度窗口，按量省的是真金白银。两种我都在用，所以这些方法对我是双重的省。

最后

绕回开头那个 82%。它不是什么神技，是上面这些小事垒出来的：压规则文件、装几个自动插件、分层用模型。每一项单看不起眼，叠在一起，就是六千多条命令省下的 740 万 token。

今天你能做两件事，十分钟就能开始：

一，打开你的 CLAUDE.md，把重复的、过时的、写了等于没写的删掉，看看能从多少行压到多少行。

二，装个 RTK，跑几天，看它的 gain 给你省了多少——那数字大概率会让你愣一下。

省 token 这事我先聊到这。下次想聊聊，模型分层的细节：怎么判断哪个模型该干什么活，怎么写 CLAUDE.md 让 AI 照着分。还有上下文管理的细节，什么时候该清、怎么精准读文件。感兴趣的话，留言告诉我。