Google 这次把 Gemini API 的账单算盘彻底重打了一遍。以前那种“一锤子买卖”的计费方式,现在被拆成了五档,意图很明显:谁也别想再为不需要的性能付冤枉钱。
说实话,看到这个变化,我第一反应是 Google 终于想通了。以前大家用大模型,要么就是“有速度没脑子”,要么就是“有脑子太贵”。现在,他们把这两者强行拆开卖,逼着你自己掂量:我这事儿,等得起吗?
1. Standard(标准档):老生常谈的“默认值”
这一档没啥新鲜事,就是基础款。适合那些对延迟不敏感、也不在乎几分钱一字的常规应用。如果你只是想跑个简单的问答,或者测试一下模型效果,选这个最稳妥。
2. Flexible(灵活档):给“非实时”任务省下的真金白银
这是我觉得最实用的一档。Google 敢把价格直接砍半(比 Standard 便宜 50%),赌的就是你愿意等。
- 能等多久? 1 到 15 分钟。
- 适合谁? 那些跑个报表、做个离线分析、或者训练数据预处理的任务。
- 我的建议: 如果你半夜要跑个批处理任务,别犹豫,直接切这个档。哪怕它慢点,只要结果出来就行,这 50% 的差价足够买杯咖啡了。
3. Batch(批量档):批量数据的“价格屠夫”
如果说 Flexible 是省钱的开始,那 Batch 就是针对海量数据的“价格屠夫”。同样便宜 50%,但代价是你要等更久——最久能等到 24 小时。
- 适合谁? 处理 TB 级的数据、跑大规模知识库查询。
- 实际场景: 比如你要分析过去一个月的所有客服录音转写,或者处理几百万条用户评论。这时候,时间已经不是问题,省钱才是王道。
4. Cache(缓存档):为“重复劳动”买的保险
这一档的逻辑有点不一样,它不按调用次数算钱,而是按你存了多少 Token、存了多久来收费。
- 核心逻辑: 如果你同一个 Prompt 反复问同一个模型,或者你的业务里有很多重复的长视频分析,用这个档最划算。
- 适用场景: 比如那种高频调用的聊天机器人,或者需要分析长视频的监控系统。只要你的上下文被缓存住了,第二次调用就能省下不少钱。
- 我的观察: 这一招其实挺狠的,它鼓励你把常用的 Prompt 和模型版本“存”在云端,别每次都重新生成。
5. Priority(优先档):给“命根子”业务买的保险
这一档就是给那些“慢一秒就是事故”的场景准备的。价格直接比 Standard 贵 75% 到 100%,但响应速度是毫秒级的。
- 适合谁? 实时客服、游戏里的 NPC 互动、金融风控系统。
- 我的纠结: 说实话,看到这个价格我就犹豫了。为了省那几秒钟的等待时间,多付一倍的钱,值吗?
- 如果是那种用户稍微等两秒就会关掉页面的场景,那必须得上 Priority。
- 但如果是内部测试,或者对延迟容忍度高的业务,我反而觉得有点“杀鸡用牛刀”。
总结一下我的想法
Google 这次调整,其实是在逼开发者做选择题:你要速度,还是要钱包?
以前大家总觉得大模型是“按量付费”,用多少算多少。现在 Google 把“闲时资源”和“实时资源”彻底切分开。
- 初创团队可以趁现在,用 Flexible 或 Batch 档位低成本地试错,不用怕把服务器烧穿了。
- 大企业也能通过 Cache 优化长上下文成本,同时为关键业务保留 Priority 的通道。
不过,我也发现一个潜在的问题:“等待”的边界在哪里?
Flexible 说等 15 分钟,Batch 说等 24 小时。如果我的任务本来就得跑 30 分钟,那这个延迟承诺还有意义吗?这里面的技术实现细节,可能还得看 Google 后续怎么优化。
总的来说,这次更新让大模型服务的定价逻辑更“接地气”了。不再是一味地堆算力,而是让你根据业务场景自己买单。虽然选择多了,但作为开发者,我们反而得花更多时间去权衡:到底值不值得等?
注:以上分析基于 Google 近期发布的策略调整,具体价格可能随时间变动,使用前建议查阅官方最新文档。
