最近在研究法律文档的 AI 处理方案,发现了一个值得关注的开源项目 deepdoctection ( GitHub 3173+ stars ),基于深度学习的文档分析 Pipeline 。
核心能力:
- Layout Analysis:基于 DocTr 模型检测文档区域(标题、段落、表格、图片)
- OCR 集成:支持 Tesseract 、PaddleOCR 等多种引擎
- 表格识别:TableTransformer 模型处理表格结构
- Pipeline 编排:灵活组合不同模型
但在法律文档场景中发现几个痛点:
- 条款编号体系(如 3.2.1 条)在 OCR 后层级关系丢失
- 交叉引用(详见第 5.3 条)断裂
- 定义术语的关联关系无法自动提取
- 合同 redline 版本的字符级变更追踪缺失
我的思考是,Document AI 只是底层能力,法律场景需要一个平台化的工作台来串联 OCR 、大模型推理、合同审查等完整工作流。我们正在做的 aiworkdeck 就是这个方向——插件化的 AI 原生法律工作台。
有人也在做类似的法律文档处理方案吗?想交流一下技术选型的经验。