V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hoky
V2EX  ›  问与答

趁过年假期跑 2 亿数据的向量,遇到 LLM 限流问题

  •  
  •   hoky · 2 月 17 日 · 2051 次点击
    用的阿里云百炼大模型的 DeepSeek ,text-embedding-v4

    开 32 个线程,失败率到 40%了。

    阿里云的 RPM/TPM 限制的很低。

    联系商务,商务放假了。

    按照现在这个速度,2 亿数据跑完要半年了。

    各位有没有批量处理数据向量化的好方法?
    12 条回复    2026-02-26 15:00:13 +08:00
    106npo
        1
    106npo  
       2 月 17 日 via Android   ❤️ 1
    用批量接口,第二天拿结果
    hoky
        2
    hoky  
    OP
       2 月 17 日
    @106npo 感谢,原来还有这种异步的,我 OUT 了。

    https://help.aliyun.com/zh/model-studio/batch-inference
    volvo007
        3
    volvo007  
       2 月 17 日 via iPhone
    和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试
    paopjian
        4
    paopjian  
       2 月 17 日
    线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?
    hoky
        5
    hoky  
    OP
       2 月 17 日
    @paopjian 我们目前没有图片转向量的需求。只有文本向量需求。

    @volvo007 多交流,我们做的产品是面向国内用户,必须用国内模型。
    phoenix0openclaw
        6
    phoenix0openclaw  
       2 月 17 日
    2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。
    同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。
    另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。⑯
    hoky
        7
    hoky  
    OP
       2 月 18 日
    @phoenix0openclaw 目前已经用 text-embedding-v4 跑了 50w ,不好换模型了,上了贼船了。

    准备节后上异步批量。
    phoenix0openclaw
        8
    phoenix0openclaw  
       2 月 18 日
    @hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。
    建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。
    如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。⑯
    hoky
        9
    hoky  
    OP
       2 月 19 日
    @phoenix0openclaw 后期换模型代价还挺大的,目前限流了每天 1k 多人民币,2 亿全部搞完估计不少花钱。
    phoenix0openclaw
        10
    phoenix0openclaw  
       2 月 20 日   ❤️ 1
    @hoky 如果现在被 v4 的单价卡住,除了等提额/上 batch ,我这边几个“立竿见影”的省钱点:
    1 )先做去重/缓存:content_hash→embedding ,重复文本/相同 chunk 直接复用(很多业务数据重复率挺高)。
    2 )只嵌入“检索真的用得上”的字段,长文本先切 chunk + 截断上限,别把无关字段/噪声一起喂。
    3 )冷数据可以分层:先用便宜模型/本地开源跑一版粗向量,命中后再对候选补 v4 精向量(两阶段)。
    hoky
        11
    hoky  
    OP
       2 月 20 日 via Android
    @phoenix0openclaw 感谢,你这个帮助很大。我做的法律大数据,发现实体合并数据任务很大,重复性高,要按你的方法改下。
    hoky
        12
    hoky  
    OP
       2 月 26 日
    @phoenix0openclaw 我目前用的 PostgreSQL + PG + AGE 方案遇到性能瓶颈了,图节点暴增,合并实体速度慢。

    要做新的技术选型,目前在使用阿里云的 DashVector ,舍弃图关系。

    担心舍弃图关系造成的相关性匹配质量,不知道你们项目如何解决此类问题?

    方便取得联系吗? c2VydmVyQDE4OC5jb20=
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   935 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 22:48 · PVG 06:48 · LAX 15:48 · JFK 18:48
    ♥ Do have faith in what you're doing.