首页/run-llama/liteparse — Rust 驱动的轻量 PDF 解析器,带边界框,零云依赖(7.4k ⭐)

run-llama/liteparse — Rust 驱动的轻量 PDF 解析器,带边界框,零云依赖(7.4k ⭐)

0 次浏览
2026/5/30

run-llama/liteparse — 轻量快速的本地 PDF 解析器

GitHub: https://github.com/run-llama/liteparse Stars: 7,392 (今日 trending) 作者: LlamaIndex (run-llama) 技术栈: Rust 核心 + PDFium + Tesseract OCR 定位: 无云依赖、高质量、带边界框的本地 PDF 解析

核心定位

专注于快速轻量,不绑定任何 LLM 或云服务。所有解析在本地完成,适合需要数据隐私或离线环境的场景。

支持格式

PDF(原生)、DOCX、XLSX、PPTX、图片(通过 LibreOffice/ImageMagick 转换)

核心功能

  • 空间文本解析 — 提取文本同时保留精确边界框坐标
  • 灵活 OCR — 内置 Tesseract(零配置)或接入 EasyOCR/PaddleOCR HTTP 服务器
  • 截图生成 — 输出高质量页面截图供 LLM Agent 使用
  • 多输出格式 — 结构化 JSON 或保留布局的纯文本

多语言绑定

pip install liteparse          # Python
npm i @llamaindex/liteparse    # Node.js/TypeScript
# 也支持 Rust crate 和 WASM

适合场景

RAG 系统文档预处理、需要精确坐标的文档 AI、离线/私有部署环境。复杂表格或扫描件推荐升级到云端版 LlamaParse。

免责声明

本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。

  • 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
  • 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
  • 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
  • 因不当使用引发的版权或合规风险,由使用者自行承担。
  • 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。

转载或引用本文内容,请保留原文链接并注明来源。

评论

加载中...