FlagOS实现DeepSeek-V4多芯Day0适配
国产AI芯片生态迎来关键突破:FlagOS实现DeepSeek-V4多芯“Day 0”适配
在AI大模型竞争日益激烈的当下,模型的创新已不再是唯一战场,底层系统的兼容性与泛化能力正成为决定技术落地广度与效率的关键。近日,由智源研究院主导研发的众智FlagOS系统,在DeepSeek-V4系列模型发布当天,便完成了对DeepSeek-V4-Flash在八款主流AI芯片上的全量适配与推理部署,涵盖海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯及英伟达(FP8)等国内外厂商。这一“Day 0”级适配不仅展现了我国在AI系统软件层的自主可控能力,更通过三项核心技术突破,为国产AI芯片生态的“百花齐放”铺平了道路。
一、从“芯片适配模型”到“模型即插即用”:FlagGems的跨芯革命
传统AI模型部署中,每推出一个新模型,芯片厂商往往需要投入大量人力进行算子适配,尤其是面对DeepSeek-V4-Flash这类采用混合专家(MoE)架构、引入压缩稀疏注意力(CSA)与高度压缩注意力(HCA)等新型计算模式的复杂模型,适配周期长、成本高。而FlagOS此次通过FlagGems全算子替代方案,彻底改变了这一局面。
FlagGems基于Triton/Triton-TLE语言,重新实现了包括MoE专家调度、Attention计算、RMSNorm、TopK路由等在内的全部核心算子,完全摆脱了对NVIDIA CUDA生态的依赖。这意味着,无论是国产芯片还是国际主流GPU,只要支持通用计算接口,FlagGems即可通过FlagTree编译器将模型算子统一编译到目标硬件后端,实现“一次开发,多芯运行”。目前,FlagGems已集成超400个大模型常用算子,覆盖PyTorch生态中90%以上的推理任务,真正做到了“新模型即插即用”。
二、突破显存瓶颈:o-group独立张量并行策略
DeepSeek-V4-Flash为提升效率,采用了分组输出投影技术(o-group=8),这在传统张量并行中意味着最多只能切分为8份,严重限制了模型在显存较小的国产芯片(如32GB或64GB显存)上的部署能力。若强行切分超过8份,会导致o-group结构失效,影响模型精度与推理稳定性。
FlagOS团队创新性地提出为o-group设计独立的张量并行策略:在保持o-group切分不超过8份的前提下,允许模型其他部分(如专家网络、注意力层)采用更高维度的张量并行,从而实现超过8台设备的协同计算。这一“分而治之”的策略,不仅突破了单机8卡的硬性限制,还显著提升了模型在低显存设备上的部署灵活性,使更多国产中端AI芯片也能高效运行千亿级参数模型。
三、精度与效率的平衡:FP4+FP8混合精度原生支持
尽管DeepSeek-V4-Flash原生支持FP4量化,但当前国内主流AI芯片普遍缺乏FP4硬件支持,英伟达也仅在Blackwell架构后才引入该特性。为此,FlagOS实现了“FP4+FP8混合精度”到FP8/BF16的原生权重转换路径,在不依赖FP4硬件的前提下,仍能保持接近原生的推理性能。
这一技术通过智能精度映射与动态量化补偿机制,确保模型在FP8/BF16格式下运行时,关键计算路径的数值稳定性与输出质量不受显著影响。结合FlagGems的算子优化,最终实现在非FP4芯片上的高效、稳定推理,极大拓展了DeepSeek-V4-Flash的适用场景。
结语:迈向“一模型,全芯片”的AI新时代
FlagOS此次对DeepSeek-V4-Flash的“Day 0”多芯适配,不仅是技术上的突破,更标志着我国AI系统软件正从“跟随适配”走向“引领标准”。通过FlagGems、o-group并行策略与混合精度转换三大创新,FlagOS构建了一个真正开放、兼容、高效的AI推理底座,为国产AI芯片的规模化应用提供了坚实支撑。
未来,随着DeepSeek-V4-Pro在多芯片平台的迁移适配完成并开源,FlagOS有望成为连接国产AI模型与硬件生态的“通用操作系统”,推动我国人工智能产业走向更加自主、协同、繁荣的新阶段。
标签: FlagOS DeepSeek-V4 国产AI芯片 多芯适配 AI系统软件