有没有什么简单的方法可以把 claude code 里用的模型 TPS 给算出来？现在越来越在意生成速度了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

80 TPS 的模型和 30 TPS 的简直两个世界。前者是一个 glm 的长时间都很快

至于模型的聪明程度对我这边 spec + plan + TDD 的约束下并不是那么重要

所以不知道有什么除了肉眼以外的好方法让我测一下

现在用 cc-switch 的测试功能勉强看个大概，但也不知道是首 token 慢还是 TCP 慢还是 tokens/S 慢

tps

模型

速度

4 条回复 • 2026-04-14 23:36:58 +08:00

sampeng

3 天前 via iPhone

差那点和你没关系

teaguexiao

3 天前

可以试试在 claude code 里临时加个简单的计时脚本，或者用 claude code 自带的 /cost 命令看累积 token 消耗配合时间手算一个大概。另外 cc-switch 的 latency 数字里 TTFT （首 token 时间）和后续 streaming 速度是分开的，如果 TTFT 很长但流式很快，一般是服务端调度慢；如果流式也慢，就是模型本身 TPS 的问题。我个人经验是反重力的 sonnet4.5 在高峰期首 token 会慢，但流式 TPS 其实挺稳，大概 60-80 左右，凌晨非高峰能到 100+。

ClericPy

3 天前 via Android

@teaguexiao 我试试打印时间，CCSwitch 有计算每个请求的 Token ，这样应该可以搞定，感谢。
现在对输出速度快的爱不释手。

teaguexiao

3 天前