microsoft/markitdown — 微软出品,把任意文件转成 LLM 友好的 Markdown(127k ⭐)
0 次浏览
2026/5/29
microsoft/markitdown — 把任意文件转成 LLM 友好的 Markdown
GitHub: https://github.com/microsoft/markitdown Stars: 127,796 (今日 trending) 作者: Microsoft 技术栈: Python 3.10+ 定位: 为 LLM 管道设计的通用文件转 Markdown 工具
解决的问题
将各种格式文件喂给 LLM 之前,需要把内容提取成结构化文本。markitdown 输出 Markdown,因为主流 LLM 对 Markdown 训练充分,理解效果最好,且 Token 消耗最省。
支持格式
- 文档: PDF、Word (.docx)、PowerPoint (.pptx)、Excel (.xlsx)
- 媒体: 图片(OCR + EXIF 元数据)、音频(自动转录)
- Web: HTML、YouTube URL
- 数据: CSV、JSON、XML
- 其他: ZIP 压缩包、EPub
核心优势
- 结构保留 — 标题层级、列表、表格、链接完整输出
- Token 高效 — Markdown 格式 LLM 处理消耗最少
- 可扩展 — 支持第三方插件扩展更多格式
快速使用
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert('document.pdf')
print(result.text_content)
适合场景
构建 RAG 系统、文档 AI 分析管道、需要批量将企业文档转为 LLM 可读格式的开发者。
免责声明
本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。
- 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
- 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
- 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
- 因不当使用引发的版权或合规风险,由使用者自行承担。
- 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。
转载或引用本文内容,请保留原文链接并注明来源。
评论
加载中...