爱意满满的作品展示区。
cxd8190102

嘿嘿,自己 vibe coding 的项目,已经有 1000 星了

  •  
  •   cxd8190102 · 23h 39m ago · 758 views
    之前在读博的时候,手搓过一个解析小插件,用来辅助我读文献、写论文,处理那些大部头的文山著海。后来毕业之后,发现现在做 RAG 相关的,或者开发知识型 agent 照样用得上,所以我就用 AI 完善了一下,开源出去了: https://github.com/Ontos-AI/knowhere

    没想到才过了一个月,就收到了 1000 个 star ,真是太感谢大家了。

    简单说一下,Knowhere 是一个文档解析与记忆层工具,它在 RAG 的整体流程中,主要做的是从原始文档到结构化知识的前期准备与管理工作。你可以把它理解为连接“混乱的原始文档”和“AI Agent”之间的一个高级中间件。跟我们常见的 MinerU 这类文档解析工具相比,它算是更新、更进一步的、AI 原生的产品。

    区别就在于,MinerU 是传统 GOT-OCR 2.0 架构的代表,它底层是几个模型拼接的:

    - 一个模型专门负责排版分析——识别出哪里是文字、哪里是图片、哪里是表格

    - 一个模型专门负责文字识别

    - 一个模型专门负责表格识别

    - 一个模型专门负责公式识别

    最后由一套规则把所有结果拼接整合,生成结构化输出。

    这样平时在学术论文、技术报告等标准文档上是够用的,但是弊端也有,因为每个模型只管自己那一块嘛,所以任何一个出了问题,整条流水线的结果都会变差。

    其次就是,遇到非标准文档(工程图纸、扫描件、手写笔记),各个模型容易水土不服,效果急剧变差。这也是困扰了我很久,并且想要自己动手做工具的起因。

    最后就是维护成本高了,每个模型都要单独训练、单独升级、单独部署。

    2025 年的时候,纯视觉路线出来了,整个流程被压缩为一步:不需要版面分析、不需要区域分类、不需要独立的文字识别器、表格识别器、公式识别器。一个足够强大的视觉语言模型,直接看着页面图片,输出你想要的任何格式化文本。

    听起来是不是过于简化?但还得感谢咱多模态大模型的发展,对于越来越多的文档类型,纯视觉路线已经达到甚至超过了传统 pipeline 的质量,同时大幅降低了系统复杂度。

    Knowhere 就是在这个路线上做起来的。

    它能把从原始文件——解析与结构化——chunking——embedding——形成记忆,这整个流程的活儿都给你干了,你直接接上就行。

    除了省事之外,它还有以下改进:

    - 树形结构切分,保留文档的逻辑关联和层级路径,解析结果比传统切片好多了;

    - 对构建的章节树、摘要、跨文档链接等信息进行组织,方便 AI 检索和导航;

    - 与主流一次性的向量检索不同,它允许 AI 在知识结构中自主导航,实现混合检索;

    - 不仅支持文本,还能通过视觉语言模型提取并链接图片和表格中的信息,尤其是难搞的 PDF 和 PPT 、Excel 等;

    - 所有返回结果都带来源追踪,确保回答可溯源。

    根据我们的测试,使用 Knowhere 处理后的文档,AI 回答准确率从 53%提升至 79%,首次搜索准确率提升了 36%。

    如果你在 AI 平台里面使用,Knowhere 起码能为你省下一半的 token ,再也不用看到大的文档就肉疼了。

    如果你也在做 agent 开发或知识库类的项目,那不妨尝试一下,希望能帮到各位老哥,谢谢: https://knowhereto.ai/?utm_source=v2ex
    2 replies    2026-06-13 15:26:43 +08:00
    adrianzhang
        1
    adrianzhang  
       19h 7m ago
    rag 一直存在一个准确率问题,Gbrain 这种索引式似乎好点?
    cxd8190102
        2
    cxd8190102  
    OP
       3 mins ago
    但 Gbrain 搞的是私人第二大脑,应该没有大规模文件解析,场景是办公场景里会议、邮件这种碎片信息的组织,然后外加一层权限控制,更对应飞书的 knowledge AI 这个场景,对协作和工业级用途不太友好。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3053 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 07:30 · PVG 15:30 · LAX 00:30 · JFK 03:30
    ♥ Do have faith in what you're doing.