RAG 难以让人满意啊

archxm · 2026-04-17T01:39:02Z

文档是日常工作的运维知识点。比如设置 ssh 免密登陆、设置 sudo 权限、git 的常用操作、等等。暂时用这些文档来，后续想把公司业务流程放进去。先后试了 obsidian 和 anythingllm ，都不能达到目的。我想要的是：我输入一个关键词，它能找到相关文档。当然，这是初步需求。后续需求，大概是，进行适当联想和总结。现状是，比如我让它给我找 ssh 内容，压根就不准。我想，现在这些 ai 产品，大概率就是骗投资的。类似秦国时期的商鞅变法，先做宣传：谁把这根柱子从西门搬到东门，谁就得 10 根金条。这种蠢事，就很容易得到宣传，先把气氛搞起来。我认为，如今的 ai ，或者说：大模型，确实是可以提升生产力的。但是，这玩意盈利模式，不清晰。结局就是，普遍做做样子，东西搞出来，投资人满意，赏你个三瓜两枣。但是实际使用，很难用。最近公司不太忙，待会我找个 python 库，再搭一个看看。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

文档是日常工作的运维知识点。
- 比如设置 ssh 免密登陆、设置 sudo 权限、git 的常用操作、等等。
- 暂时用这些文档来，后续想把公司业务流程放进去。
先后试了 obsidian 和 anythingllm ，都不能达到目的。
我想要的是：我输入一个关键词，它能找到相关文档。
当然，这是初步需求。
后续需求，大概是，进行适当联想和总结。
现状是，比如我让它给我找 ssh 内容，压根就不准。
我想，现在这些 ai 产品，大概率就是骗投资的。
类似秦国时期的商鞅变法，先做宣传：
- 谁把这根柱子从西门搬到东门，谁就得 10 根金条。
- 这种蠢事，就很容易得到宣传，先把气氛搞起来。
我认为，如今的 ai ，或者说：大模型，确实是可以提升生产力的。
但是，这玩意盈利模式，不清晰。
- 结局就是，普遍做做样子，东西搞出来，投资人满意，赏你个三瓜两枣。
- 但是实际使用，很难用。
最近公司不太忙，待会我找个 python 库，再搭一个看看。

72 条回复 • 2026-04-17 18:42:14 +08:00

YanSeven

9 小时 0 分钟前

agent 可能更合适一点了现在，譬如检索。顶尖的 agent ，譬如 claude code ，codex 已经很精确了。底层也不复杂，不需要什么向量数据库。

fennu2333

8 小时 50 分钟前

你的需求似乎也不复杂，不想用太多 token 的话向量数据库混合索引的简单 naive rag ，愿意用 token 的话好好组织文件结构用 agentic 搜索应该问题都不大

archxm

8 小时 49 分钟前

@YanSeven 我用的本地模型，试了 qwen 和 llama ，感觉 llama 稍微好点。但整体还是难以让人满意。
比如，我文档里，有 logrotate.md ，介绍了日志压缩的一些知识点，logrotate 的一些配置。我在问答里，要求找日志压缩，它告诉我说我库里没这方面的内容。

archxm

8 小时 47 分钟前

@fennu2333 需求当然简单，但这是初始需求，先探索一下，后续会把业务文档放进去，那个就量大了。
文档不用能外面的 ai ，数据不能外传，所以用的本地模型，暂时用的小模型，比如 3b 这种。
其实我这种需求，直接用 es 做索引不就行了吗，试一试 LLM 是因为，这不感觉它挺强的吗，必然要尝试新技术。

sunzhuo

8 小时 46 分钟前

notebooklm 试了吗？我用过完全没有幻觉。

meteor957

8 小时 40 分钟前 via Android

数据最好是结构化的，chunk 切分合理。我发现召回的 chunk 和文档整体的关联也很困难，比如人物的第一次出场是第几章。

Actrace

8 小时 34 分钟前

试试 vxai.link ？

clemente

8 小时 30 分钟前

rag 是为了省成本的用法.

coder01

8 小时 27 分钟前

腾讯的 ima 呢？

Edwardlyz

8 小时 18 分钟前

试试 Engram 吧，等等 deepseek

elevioux

8 小时 16 分钟前

其实吧，现在 LLM 的上下文已经足够，为什么要切呢，直接喂整页就好了。只要 LLM 能根据问题，定位到所需的一页或几页即可。

nomansky

8 小时 14 分钟前

还不如先调用 bash mcp 'grep -i ssh*.md' 一波，

zhaoziling

8 小时 10 分钟前

@archxm 你这种情况，我碰到过类似的，你没法用外面的 AI ，本地模型又是比较小的，只能自己累一点搞复杂一点，首先你的数据是否有结构化的可能，不然不好弄，自己能总结出来或者喂一部分典型样例给 AI 让 AI 总结出来，然后用 AI 对数据进行结构化处理，再整体转成向量化数据库，用的时候配合余弦相似度和元数据索引，效果还可以，向量化用的模型需要你自己好好挑一下，国内有几款比国外的更适配中文

woshishui2022

8 小时 2 分钟前

用本地搭建的 3b 小模型的使用效果；来评价现在的商用大模型？
再固执的程序员也得承认 AI 有用，而且代码写的很好吧；时代已经来了，抗拒也没用啊

lu5je0

7 小时 51 分钟前

看了半天，你用的本地 3b 模型。你搁着拿着自己焊的三轮车评价保时捷呢

archxm

7 小时 48 分钟前

@sunzhuo notebooklm 是谷歌的吧？我想试，但提示说我所在区域不支持使用。再次询问谷歌 ai ，说让我在外区重新注册账号，太麻烦了，不现实，再说公司内部文档，不方便透露出去，不能调用外部 api

archxm

7 小时 47 分钟前

@elevioux 不做模型嵌入是吧？

Livid

MOD

PRO

7 小时 46 分钟前

archxm

7 小时 46 分钟前

@woshishui2022 总得有个深入浅出吧？难道我一开始就花 10 几万，买台高端机器，部署 35b 的大模型吗？

Livid

MOD

PRO

7 小时 44 分钟前

NLEmbedding + Gemma4 的效果，全部跑在本地 Mac 上。

GPLer

7 小时 44 分钟前

都不说 claude 、gpt 、gemini 御三家了，要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧，3b 测了跟没测有什么区别。😅

archxm

7 小时 43 分钟前

@lu5je0 公司电脑弱，用的 3b ，感觉 qwen 不如 llama 。
家里的高配电脑能跑 35b ，昨晚也试了，总体感觉也是，不堪用。

GPLer

7 小时 43 分钟前

@archxm 你的观点是 RAG 不行，我的观点是 3B 不行，没人说一定要一开始就大投入，但你不应该因为 3B 不行就说 RAG 不行。

archxm

7 小时 42 分钟前

@Livid #18 厉害了，大佬研究的挺深的

GPLer

7 小时 42 分钟前

@archxm 新出的 qwen3.6-35b 再试试？

cat9life

7 小时 39 分钟前

@archxm #19 哥们，越争辩越暴漏了你真的不了解。3b 连测试的必必要性都没有。Livid 建议的 Gemm4 27b 感觉各方面就很均衡

archxm

7 小时 39 分钟前

@Livid #20
@GPLer #21 我也就 20 几个 markdown ，都是日常 linux 的运维经验，每个文档也就 3k 左右，这个数据量，3b 也该够了吧？实际上，家里电脑跑 27b 似乎也是效果一般。

archxm

7 小时 38 分钟前

@cat9life 家里电脑可以跑 27b ，晚上再试

GPLer

7 小时 33 分钟前

@archxm 3b 模型只能日常对话，基本上没有实用价值，数据量和模型大小没有直接关系，跟上下文长度以及长文本能力有关，3b 也许长文本能力还行，但是模型能力不行也没用。
27b 风评还是不错的，如果效果一般可能是 RAG 配置问题，可以先不用 RAG ，试试都放到一个文件夹里，然后用 opencode 等 agent 平台配置模型，然后将目录所在位置告诉它，测试这种情况下的问答效果，速度会慢很多，但是大模型自己探索后应该能答对，如果这样子可以，后面可以让模型写个 skills ，将检索的技巧做成技能。

qppq54s

7 小时 30 分钟前

确实难以让人满意，后面真能让人满意了估计又会迎来一波 ai 的爆发

GPLer

7 小时 28 分钟前

@GPLer 另外目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ，如果要测试最好在这三个里选，测试下来稠密模型效果比激活参数小的 MoE 模型好很多。

archxm

7 小时 25 分钟前

@qppq54s 整体看，我是看好 ai 的，确实能提高生产力，比搜索引擎方便。
但如果想要对 ai 进行二次加工，我觉得还是有很多活要干的。

fkmc

7 小时 25 分钟前

fastgpt 云服务先体验下

chioplkijhman

7 小时 13 分钟前

我用向量召回+重排，效果也不好。我也在怀疑 RAG

dsd2077

PRO

6 小时 46 分钟前 via Android

楼主看看这个，这是我们自己实现的 RAG 系统，采用向量+FTS 双重检索，准确率非常的高。更别说那些大厂做的产品了。

sampeng

6 小时 38 分钟前 via iPhone

obsidian+claude code 。大力出奇迹

deepbytes

6 小时 22 分钟前 via iPhone

只要你学得够慢，你就不用学。
ai 时代发展前期，迭代太快，像龙虾之后又来个爱马仕，再迭代 2 个月，再出个占用更低内存，不用 token ，全依赖本地模型，你怎么办……

Lemonadeccc

6 小时 18 分钟前

感觉再过几个月 rag 也没啥用了

huaweii

6 小时 12 分钟前 via Android

rag 的核心是 chunck/sectionization 和 embedding 。

都是需要根据实际使用场景定制才有好的召回效果。当然更灵活的是 agentic rag 但是一样需要定制。

不在乎隐私的试试 notion 。

obsidian 和 anythingllm 这种你要把它们当成一个项目开发的大框架，仔细配置和定制，才能有你这种复杂的使用效果。

coefu

5 小时 32 分钟前

RAG 有门槛的，要一些工程优化的手段。准不准的关键在 rerank 。当然了，细节上肯定是有语义丢失的，要想更精准，还是要新东西支持。RAG 本身就是个过渡方案。一两年之后，还有没有人继续用都是个问题。

给你介绍几个路线，免得被说嘴炮了：
1 ，又多又准，又省资源的路线： https://github.com/EverMind-AI/MSA ，这个技术可以将知识放到内存，省显存方案

2 ，又快又准： https://github.com/mempalace/mempalace ，启动 token O(1) 级别的快，还能记的准。

1 ，难一点，2 ，简单一点。

hefish

5 小时 28 分钟前

我用 maxkb ，社区版。

laminux29

5 小时 25 分钟前

RAG 这种需求非常难做。

如果想把所有文档全量导入 AI ，现有 AI 没有这么大的上下文窗口。前面有人提到 Google 的 NotebookLLM 效果好，是因为它的窗口比其他主流 AI 大，但也只是大一些。当文档数量超出某个数量级，它也会出现问题。

如果做剪枝，比如提取关键字、向量化、分块、甚至引入复杂的搜索引擎与工作流，都容易出现丢失信息与精度不够的问题。

这种情况下，要确保精度，只能学习人类，把文档一页一页地拆解，拆解后的内容与规范文档一段一段地喂给 AI ，这样做虽然精度足够了，但 tokens 与任务完成时间又会爆炸。如果不介意浪费 tokens ，不介意任务运行时间，可以使用这条途径。

Lykos

5 小时 11 分钟前

@GPLer #31 大佬，跑这三个模型，大概要什么配置啊？

Suger828

5 小时 10 分钟前

@dsd2077 图片看不到

zxjxzj9

5 小时 0 分钟前

现在真的应该用 RAG 的是那种超长上下文模型的内部研究. 就目前的个人来说 RAG 确实是上不去下不来,因为 rerank 和嵌入太费劲了,对个人用户来说投入太大.如果公司的文档有个目录,还不如让 ai 直接理解目录层级的语义来 grep 搜索,比 RAG 好用多了.

merkle2222

4 小时 57 分钟前

本来就是有这个缺陷,先做一轮 gerp + 数据清洗,效果会很大提升。

Godykc

4 小时 44 分钟前

做过跟楼主一样的事，本地 ollama 跑了个 8b 的 qwen 搞 rag
实际是这玩意连函数调用都不支持，效果当然跟智障没啥区别
所以得先搞定模型再谈后面的

dsd2077

PRO

4 小时 39 分钟前

@Suger828 #44 我这里看起来是正常的也

GPLer

4 小时 38 分钟前

@Lykos 我自己有一张 3090 24g ，35b 和 27b Q4 用 Ollama 勉强能跑，但是上下文开不高，还是推荐 5090 32g 或 4090 48g ，另外 mac m5 max 64g 版本也是不错的选择，算下来整机成本大概 3w ~ 4w 左右，再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ，但是 qwen 官方量化的 q4 有问题，权重和 fp8 一样大，只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型，48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文，非代码类任务用用还行。

---

另外如果不要求长上下文的话，27b 模型 16g + gguf 极限量化应该也能跑，35b 模型内存+显存混合使用应该也能跑，不过我没试过，所以不做推荐

---

丐的方案也有，比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ，但是这些方案要么太老要么功耗太高又没质保，并且我没试过，所以就不推荐了。

HENQIGUAI

4 小时 25 分钟前

@archxm #27 你要是这么点文档数量的话根本没必要上 RAG,徒增复杂度，还不如直接拼接成一个完整的 markdown 然后直接上传给 gemini 或者 notebooklm 就完事了

Censhuang

4 小时 10 分钟前 via iPhone

老哥的工程化能力不够，简单的还是不行。今年有个大学要求低算力资源+离线+低参数模型+知识图谱搜索。那你说说这大学怕不是来许愿的。

xuwuruoshui

3 小时 43 分钟前

就算自己实现一个 rag 都不至于这样吧，dense sparse 都有，搜索关键词，应该直接分词就能出来了。具体不准在哪里?比如你问 ssh ，他回答的什么

cfer

3 小时 34 分钟前

模型固然重要，但是核心还是召回的数据完整性。

SWBMESSI

3 小时 13 分钟前

@archxm #16 换节点就行了

Enivel

3 小时 4 分钟前

要搭配 FTS 单纯 rag 关键词匹配都做不到

akadanjuan101

2 小时 53 分钟前

@GPLer 我在用 3080 20g x2 还挺好的性价比也不错

GPLer

2 小时 41 分钟前

@akadanjuan101 但是这种现在没有全新的了，容易买到矿，本身也是魔改卡，质保也是个问题，所以我说了有丐的方案但是不推荐 😂

GPLer

2 小时 40 分钟前

@akadanjuan101 所以你 40g 显存目前用啥模型啊

GPLer

2 小时 39 分钟前

@Enivel FTS 一开始没反应过来，查了下这不就是双路召回的其中一路吗，都 2026 年了，早就标配了。

akadanjuan101

2 小时 24 分钟前

@GPLer gemma-4-31B-it 和 Qwen3.5 的 opus 蒸馏版都还可以

vishun

2 小时 18 分钟前

@YanSeven 这些不需要向量数据库是因为偏向代码开发，而代码是有逻辑和规范的，class 、function 这关键字足够正则匹配出来，但是文档则不同，没有明确的规则，分段一旦不合理那就是检索不到，再 rerank 也不行。

YanSeven

2 小时 11 分钟前

@vishun 确实，是这样的，脑子里默认文档就是 markdown 这种了。

coderJie

2 小时 7 分钟前

@archxm #27 大模型能力不是这么评估的...不是看要处理的数据量大小，而是看模型参数量啊，模型参数量不够，你就算处理的数据再少，不行就是不行

iorilu

1 小时 44 分钟前

claude, codex 不是都证明了吗, 不需要 RAG

临时用 rg 搜索下就够了

GPLer

1 小时 30 分钟前 via Android

@akadanjuan101 可以的
gemma4 31b 没有官方量化，我还在找合适的使用方式
qwopus 我最近在试，这个因为是非官方的我没写，确实忘了😂

XuanNa

43 分钟前 via iPhone

@Livid #18 这是什么软件呀

GPLer

40 分钟前 via Android

@GPLer 另外因为目前看下来还是稠密模型能力强，所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ，跑 27B 模型速度太慢没法用，苹果只是单纯力大砖飞+高性价比所以才写上去了。

someonelikeyouah

30 分钟前

@fennu2333 #2 naive 还是 native ？我是真不懂

fennu2333

23 分钟前

@someonelikeyouah naive rag, 你可以理解为最简单的那种向量搜索，没有太多黑魔法的 rag 。其实这个词不是那么官方，只是社区里为了区别后来出现的复杂手段 rag 发明的，比如这个文章介绍了 naive rag https://www.articsledge.com/post/naive-retrieval-augmented-generation-rag ，感觉就好像一大堆框架出现之后管纯 ja 叫 vanilla js 一样

fennu2333

23 分钟前

@fennu2333 #69 typo：ja -> js

zsj1029

17 分钟前

你需要的是 openwebui

yechentide

12 分钟前 via iPhone

@someonelikeyouah naive.
Naive RAG > Advanced RAG > Modular RAG > Graph(Hybrid RAG) > Agentic RAG