当前位置:首页 > AI资讯 > 正文内容

三值量化让大模型轻松上手机端

admin5天前AI资讯39

大模型“瘦身”革命:中国团队用三值量化打破端侧部署瓶颈

长期以来,大模型的“体型”与“算力需求”成正比,成为其落地终端设备的最大障碍。一个80亿参数(8B)的模型,通常需要约16GB显存才能运行,这几乎将部署场景牢牢锁定在高性能服务器上。然而,随着AI向手机、PC等终端渗透的趋势日益明显,如何让大模型“轻装上阵”,成为行业攻坚的核心方向。

最近,一条由中国AI公司面壁智能联合清华大学与OpenBMB社区开辟的技术路径,给出了令人振奋的答案:通过三值量化技术,将模型压缩至原体积的1/6,同时保留97%以上的性能,甚至有望让600亿参数的大模型在8GB内存的手机上运行

从“全彩照片”到“三色极简图”:三值量化的极致压缩

传统大模型使用高精度浮点数(如BF16)存储权重,每个参数可取数万种不同数值,精度虽高,却极为“占地”。而三值量化(Ternary Quantization)则采取极端压缩策略:将每个权重的取值范围从几万种直接压缩到仅三种——例如-1、0、+1。这种技术被称为1.58-bit量化,因为编码三个值恰好需要约1.58个二进制位。

这相当于将一幅全彩照片压缩为仅有黑、白、灰三色的极简图形。直觉上,如此激进的操作必然导致性能大幅下滑。但近年研究反复证明,大模型内部存在大量冗余信息,只要三值分配得当,足以承载模型的核心能力

这一思路并非全新。2024年,微软研究院发布BitNet b1.58,首次系统论证三值模型可逼近全精度性能;随后又推出20亿参数、训练4万亿token的开源模型BitNet b1.58 2B4T。美国公司PrismML也于近期发布商业级Ternary Bonsai系列。学术界如Tequila、TernaryLM等团队也在探索原生三值训练方法。全球范围内,一场围绕“极致压缩”的技术竞赛已然成型。

昇腾上的第一次:国产算力跑通三值训练闭环

尽管国际进展迅速,但一个关键问题始终悬而未决:三值大模型训练,能否在国产算力上跑通?

在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能给出了明确答案:BitCPM-CANN,全球首个在华为昇腾芯片上端到端完成训练的三值大模型系列,正式开源发布。

这一成果实现了三大突破:

  • 首次基于国产算力完成三值模型全流程训练。此前所有公开的三值模型均依赖NVIDIA GPU,BitCPM-CANN标志着国产芯片阵营正式拥有自主三值训练能力。
  • 首次将规模推至8B级别。不同于以往小规模验证,BitCPM-CANN一次性发布0.5B、1B、3B、8B四个档位,覆盖从手机到PC的完整端侧场景。
  • 首次实现与全精度模型的全面对标评测。在11项任务、四大类评测(常识、阅读理解、学科知识、数学推理)中,1B至8B档位的性能保留率高达95.7%至97.2%,其中3B版本表现最佳,达97.2%。

这意味着,BitCPM-CANN在ARC、CMMLU、GSM8K等主流评测中,与同尺寸MiniCPM4全精度模型的差距,已小于许多全精度模型之间的自然差异。更重要的是,这不是实验室数据,而是可直接下载、复现的开源成果

6倍显存节省:从服务器到手机,人人可享“轻量AI”

BitCPM-CANN带来的最直接红利,是显存占用的大幅降低。相比BF16全精度模型,其三值版本节省约6倍显存。一个原本需要16GB显存的8B模型,现在仅需不到3GB,足以在普通手机上流畅运行

结合MoE(混合专家)架构与激活范围约束技术,未来甚至有望将600亿参数的大模型装入终端设备。而硬件端也已做好准备:高通最新旗舰芯片8850和8397已支持2-bit原生推理,BitCPM-CANN提供的低比特权重可直接适配。

这不仅是技术突破,更是一场“双向奔赴”:芯片厂商提供低比特支持,模型厂商提供适配方案,终端厂商加速端侧AI布局。从Google I/O上Gemini全面接管Android设备,到苹果即将在WWDC展示的新一代AI系统,端侧大模型的时代正在加速到来。

BitCPM-CANN的出现,不仅填补了中国在低比特大模型训练上的空白,更标志着国产AI生态正从“跟随”走向“引领”。当大模型真正“装进手机”,AI的普惠时代,或许才刚刚开始。

标签: 大模型压缩 三值量化 端侧AI 国产算力 BitCPM-CANN

相关文章

VAKRA智能代理的推理与工具能力解析

探索VAKRA:智能代理的推理、工具使用与失败模式解析在人工智能快速发展的今天,智能代理(AI Agents)正逐步从理论走向实践,承担起复杂任务的执行角色。IBM Research 近期发布的 VA...

行云芯片用LPDDR重构AI推理成本逻辑

从“天才少年”到芯片创业者:行云如何重构AI推理的成本逻辑 在AI大模型狂奔突进的今天,算力的军备竞赛正悄然从“性能至上”转向“成本优先”。当千亿参数模型成为标配,传统以HBM(高带宽内存)为核心的G...

腾讯QClaw用5天打开全球AI智能体市场

从“养虾”到出海:腾讯QClaw如何用5天打开全球AI智能体新市场 4月20日晚,一条来自QClaw团队X账号的简短公告,悄然拉开了中国AI智能体产品走向全球的序幕——QClaw海外版正式开启内测,为...

服务业扩能提质国家战略新蓝图

服务业扩能提质:国家战略下的新增长极 近日,国务院印发《关于推进服务业扩能提质的意见》,明确提出到2030年服务业总规模突破100万亿元的目标。这一部署不仅为服务业高质量发展擘画蓝图,更释放出国家推动...

AI医学图像分割新突破:边看边想更精准

医学图像分割的新范式:当AI学会“边看边想” 在医学影像分析领域,精准分割病灶区域是疾病诊断与治疗规划的关键前提。然而,传统多模态大模型(MLLM)在处理这类任务时,往往陷入“一步到位”的困境:输入图...

漫剧崛起:AI技术驱动内容新蓝海

漫剧崛起:技术驱动下的内容新蓝海 近年来,随着短视频生态的成熟与用户内容消费习惯的迁移,一种融合动画与剧集叙事形式的新内容形态——漫剧,正悄然崛起,并展现出强劲的增长势头。据中信证券最新研报显示,漫剧...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。