首页/microsoft/markitdown — 微软出品,把任意文件转成 LLM 友好的 Markdown(127k ⭐)

microsoft/markitdown — 微软出品,把任意文件转成 LLM 友好的 Markdown(127k ⭐)

0 次浏览
2026/5/29

microsoft/markitdown — 把任意文件转成 LLM 友好的 Markdown

GitHub: https://github.com/microsoft/markitdown Stars: 127,796 (今日 trending) 作者: Microsoft 技术栈: Python 3.10+ 定位: 为 LLM 管道设计的通用文件转 Markdown 工具

解决的问题

将各种格式文件喂给 LLM 之前,需要把内容提取成结构化文本。markitdown 输出 Markdown,因为主流 LLM 对 Markdown 训练充分,理解效果最好,且 Token 消耗最省。

支持格式

  • 文档: PDF、Word (.docx)、PowerPoint (.pptx)、Excel (.xlsx)
  • 媒体: 图片(OCR + EXIF 元数据)、音频(自动转录)
  • Web: HTML、YouTube URL
  • 数据: CSV、JSON、XML
  • 其他: ZIP 压缩包、EPub

核心优势

  • 结构保留 — 标题层级、列表、表格、链接完整输出
  • Token 高效 — Markdown 格式 LLM 处理消耗最少
  • 可扩展 — 支持第三方插件扩展更多格式

快速使用

from markitdown import MarkItDown
md = MarkItDown()
result = md.convert('document.pdf')
print(result.text_content)

适合场景

构建 RAG 系统、文档 AI 分析管道、需要批量将企业文档转为 LLM 可读格式的开发者。

免责声明

本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。

  • 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
  • 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
  • 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
  • 因不当使用引发的版权或合规风险,由使用者自行承担。
  • 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。

转载或引用本文内容,请保留原文链接并注明来源。

评论

加载中...