docling
项目核心内容总结:
功能
Docling 是一个文档处理工具,支持 PDF、DOCX、PPTX、XLSX、HTML、音频(WAV/MP3)、图像(PNG/TIFF/JPEG)等多种格式的解析。具备高级 PDF 理解能力,包括页面布局、表格结构、代码、公式识别,以及图像分类。提供统一的文档表示格式(DoclingDocument),支持导出为 Markdown、HTML、JSON 等格式,并兼容本地执行环境(适用于敏感数据场景)。
主要特性
- 支持 OCR 解析扫描件及图像;
- 集成视觉语言模型(如 GraniteDocling)和音频识别模型;
- 提供 MCP 服务器接口,支持与 AI 代理系统连接;
- 包含命令行工具(CLI),支持快速转换;
- 支持结构化信息提取(Beta 阶段)及新布局模型(Heron)提升 PDF 解析效率;
- 与 LangChain、LlamaIndex 等主流 AI 框架兼容。
使用方法
通过 Python API 调用 DocumentConverter.convert() 方法,或使用 CLI 命令(如 docling [文件路径])处理文档。支持指定视觉语言模型(如 --vlm-model granite_docling)进行高级解析。
安装
使用 pip install docling 安装,兼容 macOS、Linux、Windows 及 ARM64 架构。
文档与资源
提供详细文档、示例和集成指南,支持扩展开发。