Chandra：高精度文档OCR利器，布局还原无压力

Chandra 是 Datalab 团队开发的新一代文档智能 OCR 模型，专为处理高复杂度文档场景而设计。它能将图片或 PDF 转换为结构化的 HTML/Markdown/JSON，同时完整保留原始布局——包括表格、公式、手写内容乃至图表标注。截至 2026 年 3 月，其 GitHub 仓库已获 7.2k Stars，活跃维护中。

核心功能

多模态布局还原 精准识别表格（含跨行跨列）、数学公式（LaTeX）、手写体（包括草书）、复杂表单（勾选框、填空区域），并保持原始排版结构。支持90+语言，包括阿拉伯文、日语、中文等非拉丁字符集。
多格式输出 生成语义化的 Markdown/HTML/JSON，并附带元数据（如页码、令牌数）。图片/图表会被单独提取并添加结构化描述（如 <img> 标签 + 标注文本）。
双引擎推理
- 本地模式：基于 HuggingFace（需 GPU，支持 Flash Attention 加速）。
- 远程模式：通过 vLLM 服务器（Docker 部署，适合批量处理），支持并行工作者调度。
开箱即用的工具链
- CLI 命令行工具：一键处理单文件或整个目录（chandra input.pdf ./output）。
- Streamlit 交互界面：适合快速预览（chandra_app）。
- 免费在线 Playground：官方 Demo 无需安装即可体验。
性能优势 在 olmocr 基准测试中排名第一，尤其在多语言混排、公式识别、表格还原等场景表现突出。

适用场景

学术/教育：论文 PDF 转 Markdown（保留公式、参考文献格式）。
金融/法律：合同、报表的结构化提取（如租赁协议、财务表格）。
档案数字化：手写笔记、历史文献的批量转录。
开发者：作为文档处理管道的一环（如 RAG 数据预处理）。

定价与部署

完全开源（MIT 许可），可免费商用。
本地部署：需 Python 3.9+ 及 GPU（HuggingFace 模式推荐 16GB 显存）。
托管 API：官方提供收费 API（速度更快，无需自建基础设施），但开源版本功能齐全。

使用建议

快速体验：先用在线 Demo 测试你的文档类型。
生产环境：优先选择 vLLM 服务器模式，通过 Docker 部署（chandra_vllm），并调整 --batch-size 提升吞吐量。
复杂文档：若包含大量公式/表格，建议在 CLI 中添加 --max-output-tokens 4096 避免截断。
限制：手写识别对极端草书准确率略低；超大 PDF（500+页）需分批处理。

评价：Chandra 是目前布局保真度最高的开源 OCR 工具之一，尤其适合对排版要求严格的场景。若你的任务涉及多语言混排、数学内容或表单提取，它是 Tesseract 等传统工具的绝佳替代。

Chandra：高精度文档OCR利器，布局还原无压力

核心功能

适用场景

定价与部署

使用建议

下载地址

免责声明

评论

下载地址

相关资源