首页/jundot/omlx — Apple Silicon 专属 LLM 推理服务器,持续批处理 + SSD 缓存,本地大模型提速利器(13.3k ⭐)

jundot/omlx — Apple Silicon 专属 LLM 推理服务器,持续批处理 + SSD 缓存,本地大模型提速利器(13.3k ⭐)

0 次浏览
2026/5/11

jundot/omlx — Apple Silicon 专属 LLM 推理服务器

GitHub: https://github.com/jundot/omlx Stars: 13,345 ⭐(今日 +185 🔥) 语言: C++ / Metal 平台: macOS(Apple Silicon)

项目简介

omlx 是专为 Apple Silicon(M1/M2/M3/M4)深度优化的本地 LLM 推理服务器,通过持续批处理(continuous batching)和 SSD 缓存两大核心技术,大幅提升 Mac 上运行大语言模型的效率,是目前最适合 Apple 生态的本地 AI 推理方案之一。

两大核心技术

持续批处理(Continuous Batching)

传统推理按请求逐一处理,GPU/NPU 大量时间处于空闲等待。omlx 实现动态批处理:

  • 新请求随时插入正在处理的批次
  • Apple Neural Engine 利用率从 ~40% 提升至 ~85%+
  • 多用户并发场景吞吐量提升 3-5x

SSD 缓存(KV Cache Offloading)

Apple Silicon 的统一内存(Unified Memory)有限,omlx 将 KV Cache 智能分层:

  • 热数据留在 RAM(高速访问)
  • 冷数据卸载到 NVMe SSD(低延迟 SSD,带宽 ~7GB/s)
  • 有效支持的上下文长度提升 4-8x

性能对比(M3 Max, 128GB)

方案吞吐量 (tok/s)最大上下文内存占用
llama.cpp4532K全量 RAM
ollama3816K全量 RAM
omlx127128K+RAM+SSD

支持的模型

  • Llama 3.x 系列(8B/70B/405B)
  • Mistral / Mixtral
  • Qwen 2.5 系列
  • Gemma 3
  • 支持 GGUF 格式导入

快速启动

brew install omlx
omlx serve --model llama3-8b --port 11434
# 完全兼容 OpenAI API,可直接接入 Claude Code 等工具

适合人群

  • Mac 用户希望在本地运行 AI 的开发者
  • 对隐私敏感、不愿数据上云的用户
  • 需要在 Mac 上搭建私有 LLM 服务的团队

免责声明

本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。

  • 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
  • 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
  • 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
  • 因不当使用引发的版权或合规风险,由使用者自行承担。
  • 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。

转载或引用本文内容,请保留原文链接并注明来源。

评论

加载中...