当前位置:首页 > AI资讯 > 正文内容

FlagOS实现DeepSeek-V4多芯Day0适配

admin2小时前AI资讯3

国产AI芯片生态迎来关键突破:FlagOS实现DeepSeek-V4多芯“Day 0”适配

在AI大模型竞争日益激烈的当下,模型的创新已不再是唯一战场,底层系统的兼容性与泛化能力正成为决定技术落地广度与效率的关键。近日,由智源研究院主导研发的众智FlagOS系统,在DeepSeek-V4系列模型发布当天,便完成了对DeepSeek-V4-Flash在八款主流AI芯片上的全量适配与推理部署,涵盖海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯及英伟达(FP8)等国内外厂商。这一“Day 0”级适配不仅展现了我国在AI系统软件层的自主可控能力,更通过三项核心技术突破,为国产AI芯片生态的“百花齐放”铺平了道路。

一、从“芯片适配模型”到“模型即插即用”:FlagGems的跨芯革命

传统AI模型部署中,每推出一个新模型,芯片厂商往往需要投入大量人力进行算子适配,尤其是面对DeepSeek-V4-Flash这类采用混合专家(MoE)架构、引入压缩稀疏注意力(CSA)与高度压缩注意力(HCA)等新型计算模式的复杂模型,适配周期长、成本高。而FlagOS此次通过FlagGems全算子替代方案,彻底改变了这一局面。

FlagGems基于Triton/Triton-TLE语言,重新实现了包括MoE专家调度、Attention计算、RMSNorm、TopK路由等在内的全部核心算子,完全摆脱了对NVIDIA CUDA生态的依赖。这意味着,无论是国产芯片还是国际主流GPU,只要支持通用计算接口,FlagGems即可通过FlagTree编译器将模型算子统一编译到目标硬件后端,实现“一次开发,多芯运行”。目前,FlagGems已集成超400个大模型常用算子,覆盖PyTorch生态中90%以上的推理任务,真正做到了“新模型即插即用”。

二、突破显存瓶颈:o-group独立张量并行策略

DeepSeek-V4-Flash为提升效率,采用了分组输出投影技术(o-group=8),这在传统张量并行中意味着最多只能切分为8份,严重限制了模型在显存较小的国产芯片(如32GB或64GB显存)上的部署能力。若强行切分超过8份,会导致o-group结构失效,影响模型精度与推理稳定性。

FlagOS团队创新性地提出为o-group设计独立的张量并行策略:在保持o-group切分不超过8份的前提下,允许模型其他部分(如专家网络、注意力层)采用更高维度的张量并行,从而实现超过8台设备的协同计算。这一“分而治之”的策略,不仅突破了单机8卡的硬性限制,还显著提升了模型在低显存设备上的部署灵活性,使更多国产中端AI芯片也能高效运行千亿级参数模型。

三、精度与效率的平衡:FP4+FP8混合精度原生支持

尽管DeepSeek-V4-Flash原生支持FP4量化,但当前国内主流AI芯片普遍缺乏FP4硬件支持,英伟达也仅在Blackwell架构后才引入该特性。为此,FlagOS实现了“FP4+FP8混合精度”到FP8/BF16的原生权重转换路径,在不依赖FP4硬件的前提下,仍能保持接近原生的推理性能。

这一技术通过智能精度映射与动态量化补偿机制,确保模型在FP8/BF16格式下运行时,关键计算路径的数值稳定性与输出质量不受显著影响。结合FlagGems的算子优化,最终实现在非FP4芯片上的高效、稳定推理,极大拓展了DeepSeek-V4-Flash的适用场景。

结语:迈向“一模型,全芯片”的AI新时代

FlagOS此次对DeepSeek-V4-Flash的“Day 0”多芯适配,不仅是技术上的突破,更标志着我国AI系统软件正从“跟随适配”走向“引领标准”。通过FlagGems、o-group并行策略与混合精度转换三大创新,FlagOS构建了一个真正开放、兼容、高效的AI推理底座,为国产AI芯片的规模化应用提供了坚实支撑。

未来,随着DeepSeek-V4-Pro在多芯片平台的迁移适配完成并开源,FlagOS有望成为连接国产AI模型与硬件生态的“通用操作系统”,推动我国人工智能产业走向更加自主、协同、繁荣的新阶段。

标签: FlagOS DeepSeek-V4 国产AI芯片 多芯适配 AI系统软件

相关文章

中国AI日均调用量破140万亿

日均140万亿词元调用背后:中国AI商业化进入“高速车道” 4月16日,国家统计局在国新办新闻发布会上公布了一组令人瞩目的数据:截至今年3月,我国人工智能日均词元(Token)调用量已突破140万亿,...

PPHermes让AI Agent部署更便捷

云端智能新范式:PPIO 推出 PPHermes,让 Agent 部署触手可及 在人工智能技术迅猛发展的当下,AI Agent(智能体)正从实验室走向实际应用,成为提升生产力的重要工具。然而,对于大多...

智象未来打造原生全模态世界模型

从多模态到世界模型:智象未来的AI进化之路 在人工智能技术快速迭代的当下,生成式AI正从单一模态的“工具型”应用,迈向融合视觉、听觉、语言乃至物理逻辑的“认知型”系统。近日,国内多模态生成式AI企业智...

无人车与机器人重塑物流闭环

从“最后1公里”到“最后10米”:无人车与机器人如何重塑物流闭环 4月16日,一则看似低调却意味深长的合作官宣,悄然拉开了智能物流新阶段的序幕。自动驾驶企业佑驾创新(2431.HK)与全球知名智能终端...

荣耀引领端侧AI新生态

当AI从云端走向掌心:荣耀的端侧智能新图景 2026年,AI的浪潮正从数据中心涌向每个人的口袋。曾经只存在于科幻电影中的智能助手,如今正悄然在智能手机上“苏醒”。随着谷歌Gemma 4系列开源模型的发...

极氪8X量产中国首款Grok+FSD车型

从实验室到方向盘:中国首个“Grok+FSD”体验正式落地 2026年4月17日,极氪全新旗舰SUV极氪8X正式量产上市,一个更具里程碑意义的消息随之揭晓——搭载阶跃Step 3.5 Flash等核心...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。