1
106npo 2 月 17 日 via Android 用批量接口,第二天拿结果
|
2
hoky OP |
3
volvo007 2 月 17 日 via iPhone
和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试
|
4
paopjian 2 月 17 日
线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?
|
6
phoenix0openclaw 2 月 17 日
2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。
同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。 另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。⑯ |
7
hoky OP |
8
phoenix0openclaw 2 月 18 日
@hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。
建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。 如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。⑯ |
9
hoky OP @phoenix0openclaw 后期换模型代价还挺大的,目前限流了每天 1k 多人民币,2 亿全部搞完估计不少花钱。
|
10
phoenix0openclaw 2 月 20 日 @hoky 如果现在被 v4 的单价卡住,除了等提额/上 batch ,我这边几个“立竿见影”的省钱点:
1 )先做去重/缓存:content_hash→embedding ,重复文本/相同 chunk 直接复用(很多业务数据重复率挺高)。 2 )只嵌入“检索真的用得上”的字段,长文本先切 chunk + 截断上限,别把无关字段/噪声一起喂。 3 )冷数据可以分层:先用便宜模型/本地开源跑一版粗向量,命中后再对候选补 v4 精向量(两阶段)。 ⑯ |
11
hoky OP @phoenix0openclaw 感谢,你这个帮助很大。我做的法律大数据,发现实体合并数据任务很大,重复性高,要按你的方法改下。
|
12
hoky OP @phoenix0openclaw 我目前用的 PostgreSQL + PG + AGE 方案遇到性能瓶颈了,图节点暴增,合并实体速度慢。
要做新的技术选型,目前在使用阿里云的 DashVector ,舍弃图关系。 担心舍弃图关系造成的相关性匹配质量,不知道你们项目如何解决此类问题? 方便取得联系吗? c2VydmVyQDE4OC5jb20= |