Markitdown microsoft

microsoft markitdown ¶

MarkItDown 是一个轻量级 Python 工具，用于将多种文件格式转换为 Markdown，专为 LLM 和文本分析设计。它支持 PDF、Office 文档、Excel、图像、音频、HTML、ZIP、YouTube 链接及电子书等格式，转换时能保留标题、列表、表格等重要文档结构。项目支持命令行、Python API 和 Docker 部署，提供可选依赖安装、第三方插件扩展、Azure Document Intelligence 集成、LLM 图像描述功能，并支持通过 MCP 服务器与 LLM 应用集成。