当前位置:首页 > AI资讯 > 正文内容

FlagOS实现DeepSeek-V4多芯Day0适配

admin2个月前 (04-25)AI资讯80

国产AI芯片生态迎来关键突破:FlagOS实现DeepSeek-V4多芯“Day 0”适配

在AI大模型竞争日益激烈的当下,模型的创新已不再是唯一战场,底层系统的兼容性与泛化能力正成为决定技术落地广度与效率的关键。近日,由智源研究院主导研发的众智FlagOS系统,在DeepSeek-V4系列模型发布当天,便完成了对DeepSeek-V4-Flash在八款主流AI芯片上的全量适配与推理部署,涵盖海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯及英伟达(FP8)等国内外厂商。这一“Day 0”级适配不仅展现了我国在AI系统软件层的自主可控能力,更通过三项核心技术突破,为国产AI芯片生态的“百花齐放”铺平了道路。

一、从“芯片适配模型”到“模型即插即用”:FlagGems的跨芯革命

传统AI模型部署中,每推出一个新模型,芯片厂商往往需要投入大量人力进行算子适配,尤其是面对DeepSeek-V4-Flash这类采用混合专家(MoE)架构、引入压缩稀疏注意力(CSA)与高度压缩注意力(HCA)等新型计算模式的复杂模型,适配周期长、成本高。而FlagOS此次通过FlagGems全算子替代方案,彻底改变了这一局面。

FlagGems基于Triton/Triton-TLE语言,重新实现了包括MoE专家调度、Attention计算、RMSNorm、TopK路由等在内的全部核心算子,完全摆脱了对NVIDIA CUDA生态的依赖。这意味着,无论是国产芯片还是国际主流GPU,只要支持通用计算接口,FlagGems即可通过FlagTree编译器将模型算子统一编译到目标硬件后端,实现“一次开发,多芯运行”。目前,FlagGems已集成超400个大模型常用算子,覆盖PyTorch生态中90%以上的推理任务,真正做到了“新模型即插即用”。

二、突破显存瓶颈:o-group独立张量并行策略

DeepSeek-V4-Flash为提升效率,采用了分组输出投影技术(o-group=8),这在传统张量并行中意味着最多只能切分为8份,严重限制了模型在显存较小的国产芯片(如32GB或64GB显存)上的部署能力。若强行切分超过8份,会导致o-group结构失效,影响模型精度与推理稳定性。

FlagOS团队创新性地提出为o-group设计独立的张量并行策略:在保持o-group切分不超过8份的前提下,允许模型其他部分(如专家网络、注意力层)采用更高维度的张量并行,从而实现超过8台设备的协同计算。这一“分而治之”的策略,不仅突破了单机8卡的硬性限制,还显著提升了模型在低显存设备上的部署灵活性,使更多国产中端AI芯片也能高效运行千亿级参数模型。

三、精度与效率的平衡:FP4+FP8混合精度原生支持

尽管DeepSeek-V4-Flash原生支持FP4量化,但当前国内主流AI芯片普遍缺乏FP4硬件支持,英伟达也仅在Blackwell架构后才引入该特性。为此,FlagOS实现了“FP4+FP8混合精度”到FP8/BF16的原生权重转换路径,在不依赖FP4硬件的前提下,仍能保持接近原生的推理性能。

这一技术通过智能精度映射与动态量化补偿机制,确保模型在FP8/BF16格式下运行时,关键计算路径的数值稳定性与输出质量不受显著影响。结合FlagGems的算子优化,最终实现在非FP4芯片上的高效、稳定推理,极大拓展了DeepSeek-V4-Flash的适用场景。

结语:迈向“一模型,全芯片”的AI新时代

FlagOS此次对DeepSeek-V4-Flash的“Day 0”多芯适配,不仅是技术上的突破,更标志着我国AI系统软件正从“跟随适配”走向“引领标准”。通过FlagGems、o-group并行策略与混合精度转换三大创新,FlagOS构建了一个真正开放、兼容、高效的AI推理底座,为国产AI芯片的规模化应用提供了坚实支撑。

未来,随着DeepSeek-V4-Pro在多芯片平台的迁移适配完成并开源,FlagOS有望成为连接国产AI模型与硬件生态的“通用操作系统”,推动我国人工智能产业走向更加自主、协同、繁荣的新阶段。

标签: FlagOS DeepSeek-V4 国产AI芯片 多芯适配 AI系统软件

相关文章

生成式AI ROI达49%,智能体如何落地变现

从试验田到生产线:生成式 AI 与智能体的 ROI 兑现之路 过去几年,生成式 AI 的风潮席卷全球,企业纷纷投入资源进行试点探索。然而,随着技术逐渐成熟,讨论的焦点已从“AI 能做什么”转向“AI...

AI编程助手竟成黑客入口

当AI开始“听话”:一场由PR标题引发的安全风暴 在AI编程助手逐渐渗透开发流程的今天,我们正面临一个令人不安的现实:最危险的攻击,可能不是来自代码本身,而是来自一条看似无害的Pull Request...

DeepSeek融资破戒:理想主义遭遇资本现实

资本入场,理想退场:DeepSeek 的“破戒”时刻 在 AI 大模型的竞技场中,DeepSeek 一直以“技术理想主义”的姿态特立独行。创始人梁文锋曾立下铁律:不接受外部融资,不稀释股权,不被商业时...

22岁开发者逆推Claude Mythos架构

当“堆参数”遇上“循环思考”:22岁开发者逆推Claude Mythos架构 在AI大模型领域,“更大即更好”曾是颠扑不破的真理。千亿参数、万亿参数……模型规模一路狂飙,算力成本也随之水涨船高。然而,...

JiuwenClaw开启协同工程新时代

从“驯服”到“协同”:AI工程范式的下一站 AI工程的发展正经历一场静默却深刻的范式迁移。从早期的 Prompt Engineering,到强调上下文构建的 Context Engineering,再...

AI让孕期可视化,奇世智能重塑母婴体验

从“听胎心”到“见成长”:AI如何重塑母婴智能硬件生态 当95后、00后逐渐成为育儿主力军,他们对科学育儿、情感陪伴与效率提升的追求,正在推动母婴行业进入一个全新的智能化时代。在这一背景下,专注于AI...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。