V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
archxm
V2EX  ›  程序员

RAG 难以让人满意啊

  •  
  •   archxm · 9 小时 15 分钟前 · 4963 次点击
    • 文档是日常工作的运维知识点。
      • 比如设置 ssh 免密登陆、设置 sudo 权限、git 的常用操作、等等。
      • 暂时用这些文档来,后续想把公司业务流程放进去。
    • 先后试了 obsidian 和 anythingllm ,都不能达到目的。
    • 我想要的是:我输入一个关键词,它能找到相关文档。
    • 当然,这是初步需求。
    • 后续需求,大概是,进行适当联想和总结。
    • 现状是,比如我让它给我找 ssh 内容,压根就不准。
    • 我想,现在这些 ai 产品,大概率就是骗投资的。
    • 类似秦国时期的商鞅变法,先做宣传:
      • 谁把这根柱子从西门搬到东门,谁就得 10 根金条。
      • 这种蠢事,就很容易得到宣传,先把气氛搞起来。
    • 我认为, 如今的 ai ,或者说:大模型,确实是可以提升生产力的。
    • 但是,这玩意盈利模式,不清晰。
      • 结局就是,普遍做做样子,东西搞出来,投资人满意,赏你个三瓜两枣。
      • 但是实际使用,很难用。
    • 最近公司不太忙,待会我找个 python 库,再搭一个看看。
    72 条回复    2026-04-17 18:42:14 +08:00
    YanSeven
        1
    YanSeven  
       9 小时 0 分钟前   ❤️ 1
    agent 可能更合适一点了现在,譬如检索。顶尖的 agent ,譬如 claude code ,codex 已经很精确了。底层也不复杂,不需要什么向量数据库。
    fennu2333
        2
    fennu2333  
       8 小时 50 分钟前   ❤️ 1
    你的需求似乎也不复杂,不想用太多 token 的话向量数据库混合索引的简单 naive rag ,愿意用 token 的话好好组织文件结构用 agentic 搜索应该问题都不大
    archxm
        3
    archxm  
    OP
       8 小时 49 分钟前
    @YanSeven 我用的本地模型,试了 qwen 和 llama ,感觉 llama 稍微好点。但整体还是难以让人满意。
    比如,我文档里,有 logrotate.md ,介绍了日志压缩的一些知识点,logrotate 的一些配置。我在问答里,要求找日志压缩,它告诉我说我库里没这方面的内容。
    archxm
        4
    archxm  
    OP
       8 小时 47 分钟前
    @fennu2333 需求当然简单,但这是初始需求,先探索一下,后续会把业务文档放进去,那个就量大了。
    文档不用能外面的 ai ,数据不能外传,所以用的本地模型,暂时用的小模型,比如 3b 这种。
    其实我这种需求,直接用 es 做索引不就行了吗,试一试 LLM 是因为,这不感觉它挺强的吗,必然要尝试新技术。
    sunzhuo
        5
    sunzhuo  
       8 小时 46 分钟前   ❤️ 1
    notebooklm 试了吗?我用过完全没有幻觉。
    meteor957
        6
    meteor957  
       8 小时 40 分钟前 via Android   ❤️ 1
    数据最好是结构化的,chunk 切分合理。我发现召回的 chunk 和文档整体的关联也很困难,比如人物的第一次出场是第几章。
    Actrace
        7
    Actrace  
       8 小时 34 分钟前
    试试 vxai.link
    clemente
        8
    clemente  
       8 小时 30 分钟前
    rag 是为了省成本的用法.
    coder01
        9
    coder01  
       8 小时 27 分钟前   ❤️ 1
    腾讯的 ima 呢?
    Edwardlyz
        10
    Edwardlyz  
       8 小时 18 分钟前
    试试 Engram 吧,等等 deepseek
    elevioux
        11
    elevioux  
       8 小时 16 分钟前   ❤️ 1
    其实吧,现在 LLM 的上下文已经足够,为什么要切呢,直接喂整页就好了。只要 LLM 能根据问题,定位到所需的一页或几页即可。
    nomansky
        12
    nomansky  
       8 小时 14 分钟前
    还不如先调用 bash mcp 'grep -i ssh*.md' 一波,
    zhaoziling
        13
    zhaoziling  
       8 小时 10 分钟前   ❤️ 1
    @archxm 你这种情况,我碰到过类似的,你没法用外面的 AI ,本地模型又是比较小的,只能自己累一点搞复杂一点,首先你的数据是否有结构化的可能,不然不好弄,自己能总结出来或者喂一部分典型样例给 AI 让 AI 总结出来,然后用 AI 对数据进行结构化处理,再整体转成向量化数据库,用的时候配合余弦相似度和元数据索引,效果还可以,向量化用的模型需要你自己好好挑一下,国内有几款比国外的更适配中文
    woshishui2022
        14
    woshishui2022  
       8 小时 2 分钟前
    用本地搭建的 3b 小模型的使用效果;来评价现在的商用大模型?
    再固执的程序员也得承认 AI 有用,而且代码写的很好吧;时代已经来了,抗拒也没用啊
    lu5je0
        15
    lu5je0  
       7 小时 51 分钟前   ❤️ 7
    看了半天,你用的本地 3b 模型。你搁着拿着自己焊的三轮车评价保时捷呢
    archxm
        16
    archxm  
    OP
       7 小时 48 分钟前
    @sunzhuo notebooklm 是谷歌的吧?我想试,但提示说我所在区域不支持使用。再次询问谷歌 ai ,说让我在外区重新注册账号,太麻烦了,不现实,再说公司内部文档,不方便透露出去,不能调用外部 api
    archxm
        17
    archxm  
    OP
       7 小时 47 分钟前
    @elevioux 不做模型嵌入是吧?
    Livid
        18
    Livid  
    MOD
    PRO
       7 小时 46 分钟前   ❤️ 1
    archxm
        19
    archxm  
    OP
       7 小时 46 分钟前
    @woshishui2022 总得有个深入浅出吧?难道我一开始就花 10 几万,买台高端机器,部署 35b 的大模型吗?
    Livid
        20
    Livid  
    MOD
    PRO
       7 小时 44 分钟前   ❤️ 1
    NLEmbedding + Gemma4 的效果,全部跑在本地 Mac 上。

    GPLer
        21
    GPLer  
       7 小时 44 分钟前   ❤️ 1
    都不说 claude 、gpt 、gemini 御三家了,要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧,3b 测了跟没测有什么区别。😅
    archxm
        22
    archxm  
    OP
       7 小时 43 分钟前
    @lu5je0 公司电脑弱,用的 3b ,感觉 qwen 不如 llama 。
    家里的高配电脑能跑 35b ,昨晚也试了,总体感觉也是,不堪用。
    GPLer
        23
    GPLer  
       7 小时 43 分钟前   ❤️ 5
    @archxm 你的观点是 RAG 不行,我的观点是 3B 不行,没人说一定要一开始就大投入,但你不应该因为 3B 不行就说 RAG 不行。
    archxm
        24
    archxm  
    OP
       7 小时 42 分钟前
    @Livid #18 厉害了,大佬研究的挺深的
    GPLer
        25
    GPLer  
       7 小时 42 分钟前
    @archxm 新出的 qwen3.6-35b 再试试?
    cat9life
        26
    cat9life  
       7 小时 39 分钟前   ❤️ 2
    @archxm #19 哥们,越争辩越暴漏了你真的不了解。3b 连测试的必必要性都没有。Livid 建议的 Gemm4 27b 感觉各方面就很均衡
    archxm
        27
    archxm  
    OP
       7 小时 39 分钟前
    @Livid #20
    @GPLer #21 我也就 20 几个 markdown ,都是日常 linux 的运维经验,每个文档也就 3k 左右,这个数据量,3b 也该够了吧?实际上,家里电脑跑 27b 似乎也是效果一般。
    archxm
        28
    archxm  
    OP
       7 小时 38 分钟前
    @cat9life 家里电脑可以跑 27b ,晚上再试
    GPLer
        29
    GPLer  
       7 小时 33 分钟前   ❤️ 3
    @archxm 3b 模型只能日常对话,基本上没有实用价值,数据量和模型大小没有直接关系,跟上下文长度以及长文本能力有关,3b 也许长文本能力还行,但是模型能力不行也没用。
    27b 风评还是不错的,如果效果一般可能是 RAG 配置问题,可以先不用 RAG ,试试都放到一个文件夹里,然后用 opencode 等 agent 平台配置模型,然后将目录所在位置告诉它,测试这种情况下的问答效果,速度会慢很多,但是大模型自己探索后应该能答对,如果这样子可以,后面可以让模型写个 skills ,将检索的技巧做成技能。
    qppq54s
        30
    qppq54s  
       7 小时 30 分钟前   ❤️ 1
    确实难以让人满意,后面真能让人满意了估计又会迎来一波 ai 的爆发
    GPLer
        31
    GPLer  
       7 小时 28 分钟前   ❤️ 2
    @GPLer 另外 目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ,如果要测试最好在这三个里选,测试下来稠密模型效果比激活参数小的 MoE 模型好很多。
    archxm
        32
    archxm  
    OP
       7 小时 25 分钟前
    @qppq54s 整体看,我是看好 ai 的,确实能提高生产力,比搜索引擎方便。
    但如果想要对 ai 进行二次加工,我觉得还是有很多活要干的。
    fkmc
        33
    fkmc  
       7 小时 25 分钟前
    fastgpt 云服务 先体验下
    chioplkijhman
        34
    chioplkijhman  
       7 小时 13 分钟前   ❤️ 1
    我用向量召回+重排,效果也不好。我也在怀疑 RAG
    dsd2077
        35
    dsd2077  
    PRO
       6 小时 46 分钟前 via Android   ❤️ 1
    楼主看看这个,这是我们自己实现的 RAG 系统,采用向量+FTS 双重检索,准确率非常的高。更别说那些大厂做的产品了。
    sampeng
        36
    sampeng  
       6 小时 38 分钟前 via iPhone   ❤️ 1
    obsidian+claude code 。大力出奇迹
    deepbytes
        37
    deepbytes  
       6 小时 22 分钟前 via iPhone
    只要你学得够慢,你就不用学。
    ai 时代发展前期,迭代太快,像龙虾之后又来个爱马仕,再迭代 2 个月,再出个占用更低内存,不用 token ,全依赖本地模型,你怎么办……
    Lemonadeccc
        38
    Lemonadeccc  
       6 小时 18 分钟前
    感觉再过几个月 rag 也没啥用了
    huaweii
        39
    huaweii  
       6 小时 12 分钟前 via Android   ❤️ 2
    rag 的核心是 chunck/sectionization 和 embedding 。

    都是需要根据实际使用场景定制才有好的召回效果。当然更灵活的是 agentic rag 但是一样需要定制。

    不在乎隐私的试试 notion 。

    obsidian 和 anythingllm 这种你要把它们当成一个项目开发的大框架,仔细配置和定制,才能有你这种复杂的使用效果。
    coefu
        40
    coefu  
       5 小时 32 分钟前   ❤️ 2
    RAG 有门槛的,要一些工程优化的手段。准不准的关键在 rerank 。 当然了,细节上肯定是有语义丢失的,要想更精准,还是要新东西支持。RAG 本身就是个过渡方案。一两年之后,还有没有人继续用都是个问题。

    给你介绍几个路线,免得被说嘴炮了:
    1 ,又多又准,又省资源的路线: https://github.com/EverMind-AI/MSA ,这个技术可以将知识放到内存,省显存方案

    2 ,又快又准: https://github.com/mempalace/mempalace ,启动 token O(1) 级别的快,还能记的准。

    1 ,难一点,2 ,简单一点。
    hefish
        41
    hefish  
       5 小时 28 分钟前
    我用 maxkb ,社区版。
    laminux29
        42
    laminux29  
       5 小时 25 分钟前   ❤️ 2
    RAG 这种需求非常难做。

    如果想把所有文档全量导入 AI ,现有 AI 没有这么大的上下文窗口。前面有人提到 Google 的 NotebookLLM 效果好,是因为它的窗口比其他主流 AI 大,但也只是大一些。当文档数量超出某个数量级,它也会出现问题。

    如果做剪枝,比如提取关键字、向量化、分块、甚至引入复杂的搜索引擎与工作流,都容易出现丢失信息与精度不够的问题。

    这种情况下,要确保精度,只能学习人类,把文档一页一页地拆解,拆解后的内容与规范文档一段一段地喂给 AI ,这样做虽然精度足够了,但 tokens 与任务完成时间又会爆炸。如果不介意浪费 tokens ,不介意任务运行时间,可以使用这条途径。
    Lykos
        43
    Lykos  
       5 小时 11 分钟前
    @GPLer #31 大佬,跑这三个模型,大概要什么配置啊?
    Suger828
        44
    Suger828  
       5 小时 10 分钟前
    @dsd2077 图片看不到
    zxjxzj9
        45
    zxjxzj9  
       5 小时 0 分钟前   ❤️ 2
    现在真的应该用 RAG 的是那种超长上下文模型的内部研究. 就目前的个人来说 RAG 确实是上不去下不来,因为 rerank 和嵌入太费劲了,对个人用户来说投入太大.如果公司的文档有个目录,还不如让 ai 直接理解目录层级的语义来 grep 搜索,比 RAG 好用多了.
    merkle2222
        46
    merkle2222  
       4 小时 57 分钟前
    本来就是有这个缺陷,先做一轮 gerp + 数据清洗,效果会很大提升。
    Godykc
        47
    Godykc  
       4 小时 44 分钟前
    做过跟楼主一样的事,本地 ollama 跑了个 8b 的 qwen 搞 rag
    实际是这玩意连函数调用都不支持,效果当然跟智障没啥区别
    所以得先搞定模型再谈后面的
    dsd2077
        48
    dsd2077  
    PRO
       4 小时 39 分钟前
    @Suger828 #44 我这里看起来是正常的也
    GPLer
        49
    GPLer  
       4 小时 38 分钟前
    @Lykos 我自己有一张 3090 24g ,35b 和 27b Q4 用 Ollama 勉强能跑,但是上下文开不高,还是推荐 5090 32g 或 4090 48g ,另外 mac m5 max 64g 版本也是不错的选择,算下来整机成本大概 3w ~ 4w 左右,再往上家用就太贵了。

    本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ,但是 qwen 官方量化的 q4 有问题,权重和 fp8 一样大,只能等 qwen3.6 27b 再看看了。

    目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型,48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文,非代码类任务用用还行。

    ---

    另外如果不要求长上下文的话,27b 模型 16g + gguf 极限量化应该也能跑,35b 模型内存+显存混合使用应该也能跑,不过我没试过,所以不做推荐

    ---

    丐的方案也有,比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ,但是这些方案要么太老要么功耗太高又没质保,并且我没试过,所以就不推荐了。
    HENQIGUAI
        50
    HENQIGUAI  
       4 小时 25 分钟前
    @archxm #27 你要是这么点文档数量的话根本没必要上 RAG,徒增复杂度,还不如直接拼接成一个完整的 markdown 然后直接上传给 gemini 或者 notebooklm 就完事了
    Censhuang
        51
    Censhuang  
       4 小时 10 分钟前 via iPhone
    老哥的工程化能力不够,简单的还是不行。今年有个大学要求低算力资源+离线+低参数模型+知识图谱搜索。那你说说这大学怕不是来许愿的。
    xuwuruoshui
        52
    xuwuruoshui  
       3 小时 43 分钟前
    就算自己实现一个 rag 都不至于这样吧,dense sparse 都有,搜索关键词,应该直接分词就能出来了。具体不准在哪里?比如你问 ssh ,他回答的什么
    cfer
        53
    cfer  
       3 小时 34 分钟前
    模型固然重要,但是核心还是召回的数据完整性。
    SWBMESSI
        54
    SWBMESSI  
       3 小时 13 分钟前
    @archxm #16 换节点就行了
    Enivel
        55
    Enivel  
       3 小时 4 分钟前
    要搭配 FTS 单纯 rag 关键词匹配都做不到
    akadanjuan101
        56
    akadanjuan101  
       2 小时 53 分钟前
    @GPLer 我在用 3080 20g x2 还挺好的性价比也不错
    GPLer
        57
    GPLer  
       2 小时 41 分钟前
    @akadanjuan101 但是这种现在没有全新的了,容易买到矿,本身也是魔改卡,质保也是个问题,所以我说了有丐的方案但是不推荐 😂
    GPLer
        58
    GPLer  
       2 小时 40 分钟前
    @akadanjuan101 所以你 40g 显存目前用啥模型啊
    GPLer
        59
    GPLer  
       2 小时 39 分钟前
    @Enivel FTS 一开始没反应过来,查了下这不就是双路召回的其中一路吗,都 2026 年了,早就标配了。
    akadanjuan101
        60
    akadanjuan101  
       2 小时 24 分钟前
    @GPLer gemma-4-31B-it 和 Qwen3.5 的 opus 蒸馏版都还可以
    vishun
        61
    vishun  
       2 小时 18 分钟前
    @YanSeven 这些不需要向量数据库是因为偏向代码开发,而代码是有逻辑和规范的,class 、function 这关键字足够正则匹配出来,但是文档则不同,没有明确的规则,分段一旦不合理那就是检索不到,再 rerank 也不行。
    YanSeven
        62
    YanSeven  
       2 小时 11 分钟前
    @vishun 确实,是这样的,脑子里默认文档就是 markdown 这种了。
    coderJie
        63
    coderJie  
       2 小时 7 分钟前
    @archxm #27 大模型能力不是这么评估的...不是看要处理的数据量大小,而是看模型参数量啊,模型参数量不够,你就算处理的数据再少,不行就是不行
    iorilu
        64
    iorilu  
       1 小时 44 分钟前
    claude, codex 不是都证明了吗, 不需要 RAG

    临时用 rg 搜索下就够了
    GPLer
        65
    GPLer  
       1 小时 30 分钟前 via Android
    @akadanjuan101 可以的
    gemma4 31b 没有官方量化,我还在找合适的使用方式
    qwopus 我最近在试,这个因为是非官方的我没写,确实忘了😂
    XuanNa
        66
    XuanNa  
       43 分钟前 via iPhone
    @Livid #18 这是什么软件呀
    GPLer
        67
    GPLer  
       40 分钟前 via Android
    @GPLer 另外因为目前看下来还是稠密模型能力强,所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ,跑 27B 模型速度太慢没法用,苹果只是单纯力大砖飞+高性价比所以才写上去了。
    someonelikeyouah
        68
    someonelikeyouah  
       30 分钟前
    @fennu2333 #2 naive 还是 native ? 我是真不懂
    fennu2333
        69
    fennu2333  
       23 分钟前
    @someonelikeyouah naive rag, 你可以理解为最简单的那种向量搜索,没有太多黑魔法的 rag 。其实这个词不是那么官方,只是社区里为了区别后来出现的复杂手段 rag 发明的,比如这个文章介绍了 naive rag https://www.articsledge.com/post/naive-retrieval-augmented-generation-rag ,感觉就好像一大堆框架出现之后管纯 ja 叫 vanilla js 一样
    fennu2333
        70
    fennu2333  
       23 分钟前
    @fennu2333 #69 typo:ja -> js
    zsj1029
        71
    zsj1029  
       17 分钟前
    你需要的是 openwebui
    yechentide
        72
    yechentide  
       12 分钟前 via iPhone
    @someonelikeyouah naive.
    Naive RAG > Advanced RAG > Modular RAG > Graph(Hybrid RAG) > Agentic RAG
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3207 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 216ms · UTC 10:54 · PVG 18:54 · LAX 03:54 · JFK 06:54
    ♥ Do have faith in what you're doing.