80 TPS 的模型和 30 TPS 的简直两个世界。前者是一个 glm 的长时间都很快
至于模型的聪明程度对我这边 spec + plan + TDD 的约束下并不是那么重要
所以不知道有什么除了肉眼以外的好方法让我测一下
现在用 cc-switch 的测试功能勉强看个大概,但也不知道是首 token 慢还是 TCP 慢还是 tokens/S 慢
1
sampeng 3 天前 via iPhone
差那点和你没关系
|
2
teaguexiao 3 天前
可以试试在 claude code 里临时加个简单的计时脚本,或者用 claude code 自带的 /cost 命令看累积 token 消耗配合时间手算一个大概。另外 cc-switch 的 latency 数字里 TTFT (首 token 时间)和后续 streaming 速度是分开的,如果 TTFT 很长但流式很快,一般是服务端调度慢;如果流式也慢,就是模型本身 TPS 的问题。我个人经验是反重力的 sonnet4.5 在高峰期首 token 会慢,但流式 TPS 其实挺稳,大概 60-80 左右,凌晨非高峰能到 100+。
|
3
ClericPy OP @teaguexiao 我试试打印时间,CCSwitch 有计算每个请求的 Token ,这样应该可以搞定,感谢。
现在对输出速度快的爱不释手。 |
4
teaguexiao 3 天前
@ClericPy 最近 Claude 慢的令人发指,我也深有体会哈哈
|