目录

上一篇我说,省 token 不在砍文档,在把工具用对。有人接着问:那到底怎么用对?

这篇上实测。先甩个数字:我翻了下本地的 rtk gain——这是个统计 token 节省的工具——六千多条命令,累计省下 740 万 token,82%。不是估的,是它一条条记下来的。

这篇就拆开讲:这 82% 是怎么省出来的。

省 token,省在”进上下文之前”

先说清楚省在哪。

省 token 的大头,不在你”干了多少活”,在每一轮对话往 AI 上下文里塞了多少东西。模型每轮都要把整个上下文重新算一遍——上下文越肥,每一轮越贵。

所以核心就一句话:让进上下文的东西尽量少、尽量精。

我手上三个抓手:压规则文件、用对插件、模型分层。它们有个共性——都省在”进上下文之前”,不靠你少干活。下面一个个拆。

省 token 省在「进上下文之前」:要喂给 AI 的一堆(几百行命令输出、整库代码、几万字对话历史、臃肿规则文件)先过三道闸——压规则文件、插件自动压、模型分层,真正进上下文的瘦一大圈,每一轮都省

抓手一:先把你的 CLAUDE.md 压瘦

最容易被忽略、又最该先做的,是压你的 CLAUDE.md

CLAUDE.md(规则文件、指令文件,叫法不一)是每次对话都会被塞进上下文的东西。它常驻。你写了多少行,每一轮就重复付多少行的 token。

我自己的 CLAUDE.md 一度写得又臭又长,从用户级到项目级,密密麻麻叮嘱了一大堆。后来回头一看,里头全是重复的唠叨、过时的约定,和一堆”写了跟没写一样”的正确废话。狠心砍掉将近一半,只留真正每次都用得上的硬规则。说到底,同一句话叮嘱三遍,AI 也不会更照办,纯是每轮多花 token。

就这一下,每一轮对话都省。因为它常驻,省的不是一次,是往后每一次。

对话上下文同理:一个聊到几万字的窗口,该清就清,别让早上的事拖到晚上还在每轮重算。

抓手二:装几个自动干这事的插件

光靠手动还不够。我装了几个自动压上下文的插件,数据说话。

RTK(Rust Token Killer)——命令代理。你让 AI 跑 git statusps aux、跑测试,那些输出动辄几百上千行,全塞进上下文巨贵。RTK 在输出进 AI 之前就把它压掉。我的 rtk gain:六千多条命令省了 740 万 token、82%。省得最狠的是那些高频又没营养的输出——ps aux 几百行的进程列表,AI 看了纯属遭罪,省 99%;测试日志省 88%;连读文件平均也省两成。

claude-mem——记忆插件。把跨会话的工作压成结构化记忆,下次不用重新跟它解释项目背景。本会话实测省了 86%。全自动,基本不用我管。

codegraph——代码图谱。它给整个项目的函数、类型、调用关系建了个索引。AI 要找某个函数,查索引就行,不用把一堆文件通读一遍。我的 aitm 项目,它索引了 246 个文件、3562 个符号。”查索引”和”把 246 个文件从头读一遍”,差的不是一星半点——前者像翻书的目录,后者像为了回答一个问题先把整本书背下来。

这三个的共性:自动、常驻、省在进上下文之前。装好基本就忘了它,它一直在帮你省。

三个自动帮手的实测数据:RTK 命令代理省 82%(六千多条命令累计省 7.4M token)、claude-mem 记忆压缩省 86%(跨会话不用重讲背景)、codegraph 代码图谱索引 3562 个符号(查索引不通读 246 文件)

抓手三:别用最贵的模型干所有活

最后一个,模型分层。

探索、搜索、读文件这种粗活,交给便宜的小模型;真正要动脑的写代码、做判断,才上最强那档。尤其派 subagent 的时候——一个任务拆几个子 agent,粗活那些用小模型,这是省额度的主战场。

我把这套判断标准直接写进了 CLAUDE.md,让 AI 每次自己照着分,不用我每回交代。

这事也不限于 Claude Code。换任何 AI 平台,道理一样:摸清每个模型的能力和价钱,该用哪档用哪档,把贵的算力用在刀刃上。

还有一招:让重复进去的部分打折

前面三个抓手,都是在”减少进上下文的量”。还有一个角度不一样——prompt caching,它不减量,是让重复进去的部分按折扣计费。

系统提示、不变的规则文件、固定的项目背景,这些每轮都一样的东西,第一次进去算全价,之后命中缓存就打折——而且不是线性的折扣,用好了省得明显。

诀窍是别让该缓存的东西老变:固定不变的放上下文前面、稳住,每轮变动的放后面。结构越稳,缓存命中率越高,折扣吃得越满。

这招我没有像 RTK 那样的实测数字(它省在计费这头,不在 token 数量上),但原理简单、几乎零成本,顺手就能用上。

几句实话:这不是免费午餐

得把代价也说清楚,不然就成种草文了。

codegraph 要先建索引,项目大了索引也花时间;claude-mem 的记忆偶尔召回得不那么准,得自己留个心眼;压 CLAUDE.md 更有个度——把真正每次都要用的硬规则也压没了,AI 跑偏返工,那是捡芝麻丢西瓜。

还有,别误会”省 token”是让你少干活。恰恰相反,它砍的是”本来就该省的浪费”——重复的上下文、通读整库、大炮打蚊子。活该干的还得干。

省下来意味着什么,得看你怎么计费(上篇讲过):包月省的是额度窗口,按量省的是真金白银。两种我都在用,所以这些方法对我是双重的省。

最后

绕回开头那个 82%。它不是什么神技,是上面这些小事垒出来的:压规则文件、装几个自动插件、分层用模型。每一项单看不起眼,叠在一起,就是六千多条命令省下的 740 万 token。

今天你能做两件事,十分钟就能开始:

一,打开你的 CLAUDE.md,把重复的、过时的、写了等于没写的删掉,看看能从多少行压到多少行。

二,装个 RTK,跑几天,看它的 gain 给你省了多少——那数字大概率会让你愣一下。

省 token 这事我先聊到这。下次想聊聊,模型分层的细节:怎么判断哪个模型该干什么活,怎么写 CLAUDE.md 让 AI 照着分。还有上下文管理的细节,什么时候该清、怎么精准读文件。感兴趣的话,留言告诉我。