BitNet — 微软开源 1-bit 大模型推理框架,CPU 跑 1000 亿参数
0 次浏览
2026/3/11
让千亿参数模型跑在你的笔记本上
BitNet.cpp 是微软开源的 1-bit 大语言模型推理框架。传统 LLM 用 16-bit 浮点,BitNet 把权重压缩到 1.58-bit(三值:-1, 0, 1),用整数运算替代浮点运算,实现了质的飞跃:100B 参数模型在单个 CPU 上就能以 5-7 tokens/s(人类阅读速度)运行。
性能数据
- x86 CPU:2.37x - 6.17x 加速,能耗降低 71.9% - 82.2%
- ARM CPU:1.37x - 5.07x 加速,能耗降低 55.4% - 70.0%
- 最新版本通过并行 kernel 和 embedding 量化又提升了 1.15x - 2.1x
支持的模型
官方模型 BitNet-b1.58-2B-4T(24亿参数),社区适配了 0.7B 到 10B 的多个模型,包括 Llama3-8B 量化版和 Falcon 系列。
上手方式
需要 Python 3.9+、CMake 3.22+、Clang 18+。克隆仓库后安装依赖,从 HuggingFace 下载量化模型,Python 脚本一行推理。
29k+ Stars,彻底改变了「大模型必须用 GPU」的认知。
下载地址
免责声明
本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。
- 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
- 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
- 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
- 因不当使用引发的版权或合规风险,由使用者自行承担。
- 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。
转载或引用本文内容,请保留原文链接并注明来源。
评论
加载中...