
第一次意识到这个 session 不一样,是在我看到家庭日历的主界面截图的时候。
那不是一个 Google Calendar clone。那是一个 AI agent feed——顶部是个性化问候,下面是空的 bento stats 卡片,底部是一个输入框写着「告诉我新的事情…」。距离我们写第一行代码还不到 24 小时。
$92。这是这个产品的全部开发成本。
账单
23 小时 9 分钟。44 个 subagent 被派出去执行各种任务。35 个 git commit。103 个测试全部通过。
让我拆解一下这 $92 的构成。
总共消耗了 1.15 亿个 token。但其中 95%——1.09 亿个——是 cache read。Prompt caching 是长 session 的命。如果没有缓存,同等工作量的成本大概是 3-5 倍,也就是 $300-$400。
这个数字说明了一件事:AI 开发的成本不在于模型有多贵,而在于你能不能复用 context。 每个 tick 启动时需要重新加载项目的代码和状态——如果这部分 context 能从缓存里读,成本就是几美分;如果每次都重新计算,成本就是几美元。
中途改方向
这个项目的前半段其实走错了方向。
最初的 spec 是做一个 Google Calendar 翻版:月视图、周视图、点击格子加事件。前一个阶段花了 21 轮迭代,做出了登录、数据存储、智能解析、消息推送等一整套功能。
然后我打开页面看了一眼——不对。
家庭日历的核心问题不是「事件存在哪里」,而是「家人凭什么每天打开它」。一个需要你主动去查的 Calendar,跟纸质墙历的差距不大。真正的价值是 agent 主动帮你记、提醒你、跨渠道通知你。
所以方向转了:主界面从 Calendar 变成 agent feed。Calendar 降级为次级页面。
这个决定是在 loop 之外做的。OPC loop 执行计划,不生成计划。 如果方向是错的,loop 会非常高效地往错误方向走。方向要在 loop 开始之前想清楚。
更大的账单
$92 是一个小项目。更大的项目呢?
Pi-Math——一个数学教育平台——花了 $347。47 小时,76 个 subagent,3 次 context 爆仓。「爆仓」是什么意思?AI 的工作记忆(context window)被填满了,系统强制压缩,AI 丢失了大量工作上下文。就像你写了一篇五百页的论文,突然被人压缩成了两页摘要——你知道自己在做什么,但细节全丢了。
每次爆仓之后,AI 需要花好几个 tick 重新理解项目状态。这就是为什么 $347 不是 $92 的线性倍数——爆仓导致的重复工作是隐性成本。

两个项目的成本放在一起看:
| 项目 | 时长 | 成本 | Subagent | 测试 |
|---|---|---|---|---|
| 家庭日历 | 23h | $92 | 44 | 103 |
| Pi-Math | 47h | $347 | 76 | 200+ |
一个 senior engineer 的日薪大概是 $800。$92 买到了一个功能完整、有测试覆盖的产品。如果按人力成本算,同样的工作可能需要一到两周,$4,000-$8,000。
但这个比较有一个前提:方向必须是对的。 如果方向错了,$92 也是浪费。Loop 不会告诉你方向错了——它只会沿着你给的方向跑。
Loop 的成本边界
跑了两个产品之后,Loop 的适用边界变得很清晰。
适合有清晰 spec 的实现任务。 「写这些测试」「实现 LLM Pool 的三路 fallback」「把主页从 Calendar 改成 Agent Feed」——这些都有具体的完成标准,Loop 可以一步步逼近。
适合需要 review-implement 闭环的任务。 Review 找问题 → implement 修 → re-review 确认——这个循环是 Loop 的甜区。$92 的家庭日历里,review agent 发现 E2E 测试在调真实 LLM(意味着测试稳定性取决于 API key 是否有效、网络是否通畅、LLM 是否心情好),然后 implement agent 把它改成了 mock。这个问题是写测试的 agent 自己不会发现的。
不适合需要实时 UI 预览的迭代。 「调整这个按钮的位置」这种任务你要看效果,Loop 给不了你即时反馈。
不适合需要外部账号操作的步骤。 创建 Vercel 数据库、配置 Google OAuth——这些 UI 操作没法自动化。
最重要的一条:Loop 的 ROI 在前两个小时最高,之后递减。 前两个小时搭好骨架、跑通主流程;之后的时间是打磨细节。打磨的边际收益越来越低,直到撞上天花板——上一集说的那个 94% 的墙。
$92 不是免费的。但如果你知道什么时候该启动 Loop、什么时候该停下来自己看一眼,它是目前性价比最高的开发方式。
硅基团队 S1: AI 能写代码,凭什么信它? ← S1E05: 睡觉的时候让 AI 替我干活 | S1E07: 当工具开始检查自己 →