jundot/omlx — Apple Silicon 专属 LLM 推理服务器，持续批处理 + SSD 缓存，本地大模型提速利器（13.3k ⭐）

jundot/omlx — Apple Silicon 专属 LLM 推理服务器

GitHub: https://github.com/jundot/omlx Stars: 13,345 ⭐（今日 +185 🔥）语言: C++ / Metal 平台: macOS（Apple Silicon）

项目简介

omlx 是专为 Apple Silicon（M1/M2/M3/M4）深度优化的本地 LLM 推理服务器，通过持续批处理（continuous batching）和 SSD 缓存两大核心技术，大幅提升 Mac 上运行大语言模型的效率，是目前最适合 Apple 生态的本地 AI 推理方案之一。

两大核心技术

持续批处理（Continuous Batching）

传统推理按请求逐一处理，GPU/NPU 大量时间处于空闲等待。omlx 实现动态批处理：

新请求随时插入正在处理的批次
Apple Neural Engine 利用率从 ~40% 提升至 ~85%+
多用户并发场景吞吐量提升 3-5x

SSD 缓存（KV Cache Offloading）

Apple Silicon 的统一内存（Unified Memory）有限，omlx 将 KV Cache 智能分层：

热数据留在 RAM（高速访问）
冷数据卸载到 NVMe SSD（低延迟 SSD，带宽 ~7GB/s）
有效支持的上下文长度提升 4-8x

性能对比（M3 Max, 128GB）

方案	吞吐量 (tok/s)	最大上下文	内存占用
llama.cpp	45	32K	全量 RAM
ollama	38	16K	全量 RAM
omlx	127	128K+	RAM+SSD

支持的模型

Llama 3.x 系列（8B/70B/405B）
Mistral / Mixtral
Qwen 2.5 系列
Gemma 3
支持 GGUF 格式导入

快速启动

brew install omlx
omlx serve --model llama3-8b --port 11434
# 完全兼容 OpenAI API，可直接接入 Claude Code 等工具

适合人群

Mac 用户希望在本地运行 AI 的开发者
对隐私敏感、不愿数据上云的用户
需要在 Mac 上搭建私有 LLM 服务的团队