jundot/omlx — Apple Silicon 专属 LLM 推理服务器,持续批处理 + SSD 缓存,本地大模型提速利器(13.3k ⭐)
jundot/omlx — Apple Silicon 专属 LLM 推理服务器
GitHub: https://github.com/jundot/omlx Stars: 13,345 ⭐(今日 +185 🔥) 语言: C++ / Metal 平台: macOS(Apple Silicon)
项目简介
omlx 是专为 Apple Silicon(M1/M2/M3/M4)深度优化的本地 LLM 推理服务器,通过持续批处理(continuous batching)和 SSD 缓存两大核心技术,大幅提升 Mac 上运行大语言模型的效率,是目前最适合 Apple 生态的本地 AI 推理方案之一。
两大核心技术
持续批处理(Continuous Batching)
传统推理按请求逐一处理,GPU/NPU 大量时间处于空闲等待。omlx 实现动态批处理:
- 新请求随时插入正在处理的批次
- Apple Neural Engine 利用率从 ~40% 提升至 ~85%+
- 多用户并发场景吞吐量提升 3-5x
SSD 缓存(KV Cache Offloading)
Apple Silicon 的统一内存(Unified Memory)有限,omlx 将 KV Cache 智能分层:
- 热数据留在 RAM(高速访问)
- 冷数据卸载到 NVMe SSD(低延迟 SSD,带宽 ~7GB/s)
- 有效支持的上下文长度提升 4-8x
性能对比(M3 Max, 128GB)
| 方案 | 吞吐量 (tok/s) | 最大上下文 | 内存占用 |
|---|---|---|---|
| llama.cpp | 45 | 32K | 全量 RAM |
| ollama | 38 | 16K | 全量 RAM |
| omlx | 127 | 128K+ | RAM+SSD |
支持的模型
- Llama 3.x 系列(8B/70B/405B)
- Mistral / Mixtral
- Qwen 2.5 系列
- Gemma 3
- 支持 GGUF 格式导入
快速启动
brew install omlx
omlx serve --model llama3-8b --port 11434
# 完全兼容 OpenAI API,可直接接入 Claude Code 等工具
适合人群
- Mac 用户希望在本地运行 AI 的开发者
- 对隐私敏感、不愿数据上云的用户
- 需要在 Mac 上搭建私有 LLM 服务的团队
免责声明
本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。
- 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
- 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
- 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
- 因不当使用引发的版权或合规风险,由使用者自行承担。
- 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。
转载或引用本文内容,请保留原文链接并注明来源。
评论
加载中...
相关资源
rohitg00/agentmemory — AI 编程 Agent 持久化记忆系统 #1,真实 Benchmark 验证(5.8k ⭐,今日 +1,048)
基于真实 Benchmark 验证的 AI 编程 Agent 持久化记忆系统,让 Agent 跨会话记住项目上下文、用户...
yikart/AiToEarn — 用 AI 赚钱的开源工具集,今日 +1,282 star 爆火(11.8k ⭐)
帮助普通人用 AI 创造收入的开源项目,整合自动化内容生产、AI 变现策略与工具链,今日新增 1,282 star,是 ...
datawhalechina/easy-vibe — 2026 年最受欢迎的 Vibe Coding 入门课,DataWhale 出品,零基础到实战(10k ⭐)
DataWhale 出品的 2026 年现代编程入门课,聚焦 Vibe Coding 理念,零基础逐步掌握 AI 辅助编...