第六章 · Token即流量

6.5 Vibe Coding 的成本思维

意图的性价比

把前几节的知识串联起来,我们得到一个核心结论:Token 是要钱的,上下文窗口是有限的。

这意味着你在和 AI 对话时,每次"说话"都涉及成本。不是在花钱的意义上——很多个人用户是订阅制的,不按 Token 计费——而是在"效率"的意义上。你消耗的每一个 Token 都在占用上下文窗口,都在消耗 AI 的处理资源,都在影响最终的产出质量。

所以,"会说"和"不会说"之间的差距,比你想的大得多。

这引出一个关键概念:意图的性价比——你用多少 Token 传达了多少有效信息。同样一个需求,表达方式不同,AI 的理解质量、回复质量、迭代次数,可能天差地别。

高性价比 Vibe vs 挥霍型 Vibe

我们来对比两种极端的对话风格,看看它们在 Token 消耗和产出质量上的实际差距。

挥霍型 Vibe:低信息密度

用户:"嗯……我想做一个 App……嗯就是一个那个……就是那种记录习惯的工具。你知道吧,就是每天打卡的那种。对对对,类似那种。但是呢我还想它有统计数据……就比如柱状图啊什么的……你觉得我应该用什么做?"

这条提示词的问题分析:

  • 填充词(嗯、那个、就是、你知道吧)占用了约 30% 的 Token,却传递了零信息量。
  • 描述模糊:"记录习惯的工具"——是手机 App 还是网页?复杂程度如何?用户群体是谁?
  • 缺少技术约束:没有指定平台、技术栈、设计偏好。
  • 向 AI 提问"你觉得我应该用什么做"——把决策权交给了 AI,结果 AI 会给你一堆选项,你又得再花几轮去筛选。

AI 可能的回应: 先猜你在说什么,给你 3~5 个技术选项,解释各自的优缺点。你看了之后说"那就用 React 吧",AI 又问具体需求。一轮、两轮、三轮——到第五轮才真正开始写代码。前几轮的 Token 几乎全部浪费在"对齐需求"上。

消耗估算:

  • 第 1 轮提示:约 120 Token(含大量填充词)
  • AI 回应:约 500 Token(推荐技术栈)
  • 第 2 轮:"选 React……" 约 80 Token
  • AI 回应:约 400 Token(确认选型)
  • 第 3 轮:"具体功能是……" 约 200 Token
  • ...
  • 到真正产出可用代码:至少 4~5 轮,累计消耗 3000~5000 Token。

高性价比 Vibe:高信息密度

用户:"请帮我用 HTML + CSS + JS 做一个习惯打卡工具,功能包括:添加习惯、每日打卡、过去 7 天的热力图。全部放在一个文件中。"

这条提示词的优势:

  • 问题描述、技术约束、功能清单、文件结构,全部在 60 个汉字内说清楚了。
  • 零填充词,每个字都有信息量。
  • 指定了具体的技术栈(HTML + CSS + JS),AI 不需要猜测。
  • 明确约束条件(全部放在一个文件中),减少后续的调整轮次。
  • 需求边界清晰(三个功能,不包含用户系统、数据导出等扩展功能)。

AI 可能的回应: 直接生成一个完整的可运行的 HTML 文件,包含全部三个功能。你测试一下,然后说"把热力图改成周视图",第二轮就搞定了。

消耗估算:

  • 第 1 轮提示:约 60 Token
  • AI 回应:约 800 Token(完整的代码文件)
  • 第 2 轮:修改需求,约 30 Token
  • AI 回应:约 500 Token(修改后的代码)
  • 总计:约 1400 Token,2 轮搞定。

对比总结:

维度挥霍型 Vibe高性价比 Vibe
达到可用结果所需轮次4~5 轮2 轮
总 Token 消耗3000~5000约 1400
时间成本15~25 分钟5~8 分钟
你的体验烦躁、反复解释流畅、一次到位

你可能觉得这是"写提示词的技巧",但我更愿意把它称为成本思维——你在用最少的 Token 传递最大的信息量。

更多实战对比

为了让这个对比更具体,再看几个常见的场景。

场景 1:修复 Bug

挥霍型:

"我的代码报错了,你看一下……就是那个什么……TypeError……我也不知道怎么回事,你帮我看看?"

AI 需要先问你是什么代码、什么错误信息、在什么环境下运行。几轮下来才进入正题。

高性价比:

"以下代码在 Python 3.12 中执行时报 TypeError: 'NoneType' object is not subscriptable。代码如下:[代码]。请定位 bug 并给出修复。"

AI 可以直接定位问题——收到了完整的上下文:语言版本、错误类型、错误信息、源代码。不需要追问。

场景 2:重构代码

挥霍型:

"帮我重构一下这段代码,感觉写得不太好,但是我也说不上来哪里不好……就是觉得有点乱……你帮我优化优化?"

AI 不知道你"优化"的标准是什么——可读性?性能?可维护性?它只能猜,猜错了你又要纠正。

高性价比:

"请重构以下 Python 函数,目标是:1)提升可读性——拆分超过 20 行的函数;2)增加类型注解;3)保持功能完全不变。代码如下:[代码]。"

AI 明确知道三个具体目标,可以一次性完成重构,不需要反复确认。

场景 3:学习新技术

挥霍型:

"我想学 React,但是不太懂,你能教我吗?"

AI 不知道你的背景、学习目标、时间预算,只能从最基础开始讲——你可能只需要了解某个特定概念。

高性价比:

"我有 Vue 的开发经验,想快速上手 React。请用 500 字以内对比 React 和 Vue 的核心差异,然后给我一个最简单的计数器组件示例。"

AI 知道你的背景(有 Vue 经验),知道你的目标(快速上手),知道输出格式要求(500 字 + 代码示例)。一次就能给出恰好满足需求的内容。

培养"信息密度"直觉

如何判断自己的提示词信息密度够不够?一个简单的检查方法:

把你写好的提示词大声读一遍。如果你会想"这句话其实说了跟没说一样",那就删掉它。

删除不会增加成本的废话,补充 AI 需要知道的关键信息——技术栈、功能边界、约束条件、输出格式。你不需要说很多,但需要让每一句话都"有重量"。

以下是常见的"废话"类型,以及它们的替换方案:

废话类型 1:过度礼貌

  • 原文:"你好,请问能不能麻烦你帮我一个忙?如果你有时间的话,我想请你帮我写一段代码……非常感谢!"
  • 简化:"请帮我写一段代码……"
  • 节省:约 70% 的 Token。AI 不需要情感铺垫,直接说需求就好。

废话类型 2:模糊的程度词

  • 原文:"代码有点慢" / "功能不太对" / "界面不太好看"
  • 简化:"代码执行耗时约 3.2 秒,期望降到 0.5 秒以内" / "排序功能输出的结果是 [2,1,3],期望是 [1,2,3]" / "按钮间距当前 40px,改为 16px"
  • 节省:减少 2~3 轮纠错对话,大量 Token。

废话类型 3:多余的背景故事

  • 原文:"我跟你说,这个项目是我去年开始做的,当时是为了参加一个比赛,后来比赛取消了,但是我觉得这个 idea 挺好的,就继续做了……"
  • 简化:"以下是一个个人项目的代码:[代码]。请帮我……"
  • 节省:约 80% 的背景信息 Token。AI 不需要知道你为什么做这个项目,只需要知道项目当前的状态和你的需求。

废话类型 4:对话历史中的反复试错

  • 原文(第 5 轮):"不对,我刚才说的不是这个意思。我是想说那个功能……"
  • 优化方案:在第 3 轮发现方向不对时,及时总结并开启新对话,而不是继续在原有对话中修正。
  • 节省:避免累积大量无用 Token。

成本公式:理解 Token 消耗的数学

为了让你对成本有更精确的理解,这里给出一个简单的公式:

单轮对话成本 = 输入 Token × 输入单价 + 输出 Token × 输出单价

总成本 = Σ 每轮对话成本 + 重启对话的摘要成本

举一个具体的例子(以 Claude 4 Sonnet 约 15元/百万 Token 计算):

场景 A:不做成本管理

  • 一个包含 20 轮对话的长对话
  • 平均每轮输入:20K Token(累积上下文)
  • 平均每轮输出:5K Token
  • 总输入:约 400K Token(但实际有很多重复累积)
  • 总输出:约 100K Token
  • 总成本:约 7.5 元
  • 时间投入:约 1.5 小时
  • 产出质量:后期明显下降(上下文溢出)

场景 B:做成本管理

  • 3 个独立的短对话,每个 5~7 轮
  • 平均每轮输入:8K Token(精简上下文)
  • 平均每轮输出:3K Token
  • 总输入:约 150K Token
  • 总输出:约 50K Token
  • 总成本:约 3 元
  • 时间投入:约 45 分钟
  • 产出质量:全程高质量(上下文充足)

投资回报率分析:

  • 场景 B 比场景 A 省了 60% 的成本
  • 省了 50% 的时间
  • 产出质量更高
  • 你的体验更好

这还只是单次任务的对比。如果你每天做 3~5 个这样的任务,一个月下来,成本差距是几百元,时间差距是几十个小时。

成本的另一种理解:迭代次数

除了"每轮对话省 Token"之外,还有另一种成本视角更值得关注:减少迭代次数。

一段低信息密度的提示,AI 可能生成一个方向错误的结果。你发现不对,再描述一遍,AI 又生成一个接近但仍不对的结果。再纠正一次……三轮、四轮、五轮过去了。每一轮都在消耗 Token,每一轮都在占据上下文窗口。

而一段高信息密度的提示——把需求、边界、优先级一次说清楚——AI 第一轮就给出一个基本可用的结果。你微调一下,第二轮就确定了。

两轮 Vibe 搞定和五轮 Vibe 才搞定,差距不是 2.5 倍——因为每一轮的提示词都可能越来越长(上下文在累积),实际差距可能接近 4 倍。

这里有一个"迭代衰减曲线"的概念:

情况 A:高密度提示(2 轮)

  • 第 1 轮:60 Token 提示 → 800 Token 回应(基本正确)
  • 第 2 轮:30 Token 微调 → 300 Token 回应(最终版本)
  • 总计:90 Token 输入 + 1100 Token 输出 = 1190 Token

情况 B:低密度提示(5 轮)

  • 第 1 轮:120 Token 提示(含填充词)→ 500 Token 回应(方向错误)
  • 第 2 轮:150 Token 纠正 → 400 Token 回应(部分正确)
  • 第 3 轮:200 Token 再次纠正 → 500 Token 回应(接近但仍有偏差)
  • 第 4 轮:180 Token 微调 → 400 Token 回应(基本可用)
  • 第 5 轮:80 Token 最终微调 → 300 Token 回应(最终版本)
  • 总计:730 Token 输入 + 2100 Token 回应 = 2830 Token

对比:

  • 情况 A 的 Token 消耗是情况 B 的 42%
  • 情况 A 的时间消耗是情况 B 的 40%
  • 情况 A 的上下文更精简,AI 的理解更准确

长期项目的成本管理策略

如果你在做的是一个长期项目(一个 App、一个网站、一个工具),成本管理的维度更复杂:

策略一:分阶段投资

不是每个阶段的成本投入都应该一样:

  • 探索阶段(技术选型、架构设计):投入高精度模型 + 详细对话,因为决策质量影响整个项目。
  • 开发阶段(功能实现):使用中等模型 + 高密度提示,追求效率。
  • 调试阶段(修 Bug):优先使用快速模型验证思路,确认后再用强模型解决。
  • 优化阶段(重构、性能优化):需要强模型 + 完整的上下文。

策略二:建立"知识资产"

为长期项目维护一份"AI 知识库"——记录项目中已经做出的决策、已经解决的难点、已经踩过的坑。每次开启新对话前,先加载相关知识。

这样做的本质是:把一次性的高 Token 消耗(建立知识库)转化为多次的低 Token 消耗(加载摘要),降低总体成本。

策略三:善用工具链

  • Claude Code / Cursor 等 IDE 内置 AI:自动管理上下文,只把相关代码传给模型。
  • Git:每次完成一个功能就提交。如果 AI 在后续的对话中"失忆",可以随时查看 git log 回顾。
  • 文档:关键决策写下来。不依赖 AI 的记忆。

从"省 Token"到"省时间"

最后,我想强调一个观点:省 Token 不是最终目的,省时间才是。

有些时候,一个"挥霍型"的对话反而更高效——比如你刚开始探索一个新领域,不知道什么技术栈适合。这时候"先聊聊、再试试"的试错策略,虽然 Token 消耗多,但帮你找到了正确方向,实际可能是更省时间的。

成本思维不是让你斤斤计较每一个 Token,而是让你有意识地在不同阶段选择不同的策略:

  • 探索阶段:可以"挥霍"一些 Token,多用几轮对话来明确需求、对齐理解。这些"浪费"是为了后面的"节省"。
  • 执行阶段:切换到"高性价比"模式,用高密度提示一次到位。
  • 收尾阶段:轻量级模型 + 精简提示,快速完成。

这就是成本思维的本质——不是一味地省钱,而是知道什么时候该花、什么时候该省。

本节要点
  • 高性价比 Vibe = 精准描述 + 最小上下文。挥霍型 Vibe = 模糊需求 + 反复试错。
  • 同样的需求,高性价比提示比挥霍型提示省 60% 的 Token、50% 的时间。
  • 提升信息密度的简单方法:删除填充词、量化模糊描述、省略不必要背景。
  • 最有效的降本方式是减少迭代次数——花更多时间想清楚再开口,比快速开口然后反复修正更高效。
  • 短期看"省 Token",长期看"省时间"。在探索阶段可以适当挥霍,在执行阶段要精打细算。
  • 长期项目需要分阶段投资、建立知识资产、善用工具链来管理系统性成本。
Vibe 练习

回顾你最近和 AI 的一次对话(或者创建一个新的需求),做一次"成本复盘":

把这个需求的描述改写成尽可能简洁的版本,然后比较两版 AI 的输出质量。第二版有没有比第一版更接近你想要的?两个版本各花了几轮对话才达到同样的效果?计算两个版本的总 Token 消耗差异。

然后做一次更深入的练习:

找到你最近一个长期项目(或复杂功能),分析你在不同阶段使用的 AI 策略:

1. 探索阶段:你花了多少轮对话来明确需求?

2. 执行阶段:你的提示词信息密度如何?

3. 如果重新做这个项目,你会怎么优化成本结构?

这个练习做 3 次之后,你会自然养成"高信息密度表达"的习惯。

6.5 Vibe Coding 的成本思维 - 和风 VibeCoding | 和风 - 惠风和畅