Skip to content
Touchskyer's Thinking Wall
S1E06
5 min read

硅基团队 S1E06: $92 买了一个产品

硅基团队 S1E06

第一次意识到这个 session 不一样,是在我看到家庭日历的主界面截图的时候。

那不是一个 Google Calendar clone。那是一个 AI agent feed——顶部是个性化问候,下面是空的 bento stats 卡片,底部是一个输入框写着「告诉我新的事情…」。距离我们写第一行代码还不到 24 小时。

$92。这是这个产品的全部开发成本。

账单

23 小时 9 分钟。44 个 subagent 被派出去执行各种任务。35 个 git commit。103 个测试全部通过。

让我拆解一下这 $92 的构成。

总共消耗了 1.15 亿个 token。但其中 95%——1.09 亿个——是 cache read。Prompt caching 是长 session 的命。如果没有缓存,同等工作量的成本大概是 3-5 倍,也就是 $300-$400。

这个数字说明了一件事:AI 开发的成本不在于模型有多贵,而在于你能不能复用 context。 每个 tick 启动时需要重新加载项目的代码和状态——如果这部分 context 能从缓存里读,成本就是几美分;如果每次都重新计算,成本就是几美元。

中途改方向

这个项目的前半段其实走错了方向。

最初的 spec 是做一个 Google Calendar 翻版:月视图、周视图、点击格子加事件。前一个阶段花了 21 轮迭代,做出了登录、数据存储、智能解析、消息推送等一整套功能。

然后我打开页面看了一眼——不对。

家庭日历的核心问题不是「事件存在哪里」,而是「家人凭什么每天打开它」。一个需要你主动去查的 Calendar,跟纸质墙历的差距不大。真正的价值是 agent 主动帮你记、提醒你、跨渠道通知你。

所以方向转了:主界面从 Calendar 变成 agent feed。Calendar 降级为次级页面。

这个决定是在 loop 之外做的。OPC loop 执行计划,不生成计划。 如果方向是错的,loop 会非常高效地往错误方向走。方向要在 loop 开始之前想清楚。

更大的账单

$92 是一个小项目。更大的项目呢?

Pi-Math——一个数学教育平台——花了 $347。47 小时,76 个 subagent,3 次 context 爆仓。「爆仓」是什么意思?AI 的工作记忆(context window)被填满了,系统强制压缩,AI 丢失了大量工作上下文。就像你写了一篇五百页的论文,突然被人压缩成了两页摘要——你知道自己在做什么,但细节全丢了。

每次爆仓之后,AI 需要花好几个 tick 重新理解项目状态。这就是为什么 $347 不是 $92 的线性倍数——爆仓导致的重复工作是隐性成本。

三个项目的开发成本对比

两个项目的成本放在一起看:

项目时长成本Subagent测试
家庭日历23h$9244103
Pi-Math47h$34776200+

一个 senior engineer 的日薪大概是 $800。$92 买到了一个功能完整、有测试覆盖的产品。如果按人力成本算,同样的工作可能需要一到两周,$4,000-$8,000。

但这个比较有一个前提:方向必须是对的。 如果方向错了,$92 也是浪费。Loop 不会告诉你方向错了——它只会沿着你给的方向跑。

Loop 的成本边界

跑了两个产品之后,Loop 的适用边界变得很清晰。

适合有清晰 spec 的实现任务。 「写这些测试」「实现 LLM Pool 的三路 fallback」「把主页从 Calendar 改成 Agent Feed」——这些都有具体的完成标准,Loop 可以一步步逼近。

适合需要 review-implement 闭环的任务。 Review 找问题 → implement 修 → re-review 确认——这个循环是 Loop 的甜区。$92 的家庭日历里,review agent 发现 E2E 测试在调真实 LLM(意味着测试稳定性取决于 API key 是否有效、网络是否通畅、LLM 是否心情好),然后 implement agent 把它改成了 mock。这个问题是写测试的 agent 自己不会发现的。

不适合需要实时 UI 预览的迭代。 「调整这个按钮的位置」这种任务你要看效果,Loop 给不了你即时反馈。

不适合需要外部账号操作的步骤。 创建 Vercel 数据库、配置 Google OAuth——这些 UI 操作没法自动化。

最重要的一条:Loop 的 ROI 在前两个小时最高,之后递减。 前两个小时搭好骨架、跑通主流程;之后的时间是打磨细节。打磨的边际收益越来越低,直到撞上天花板——上一集说的那个 94% 的墙。

$92 不是免费的。但如果你知道什么时候该启动 Loop、什么时候该停下来自己看一眼,它是目前性价比最高的开发方式。


硅基团队 S1: AI 能写代码,凭什么信它? ← S1E05: 睡觉的时候让 AI 替我干活 | S1E07: 当工具开始检查自己 →

留言