曦望S3专芯重塑AI推理算力格局
推理时代的算力革命:曦望如何用“专芯”重构AI基础设施
2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理算力的底层变革正在悄然展开。在这场变革中,一家成立仅一年多的企业——曦望(Sunrise),正以其“All-in推理”的坚定战略,成为搅动国内GPU赛道的关键力量。
近日,曦望宣布完成超10亿元人民币的新一轮融资,累计融资额达40亿元,估值突破百亿,成为国内首家纯推理GPU独角兽。这笔巨额融资的背后,不仅是资本对技术路线的认可,更是对AI产业重心转移的精准预判。
从“训推一体”到“推理原生”:一场架构范式的颠覆
长期以来,GPU市场被“训推一体”的设计逻辑主导——即同一款芯片既要支持大模型训练,又要兼顾推理任务。这种“全能型”架构在AI发展初期具备战略价值,但随着智能体(Agent)的爆发式增长,其弊端日益凸显:训练模块占用大量晶体管与功耗资源,导致推理场景下的算力利用率普遍低于30%。
“AI算力基建的重心已彻底切换。”曦望董事长徐冰一语道破行业痛点。据其透露,2026年AI推理计算需求已达到训练需求的4-5倍,推理算力租赁价格半年内涨幅近40%。面对这一结构性变化,曦望选择了一条截然不同的路径:放弃训练能力,专为推理场景做深度定制。
这一决策并非凭空而来。以OpenClaw为代表的智能体推理,其“感知—规划—执行—反馈”的高频循环机制,带来了对KV-cache密集访问的全新计算负载。通用GPU因架构冗余,难以高效支撑此类任务。而曦望的S3推理GPU,正是为此而生。
启望S3:为智能体重构的推理原生架构
2026年1月发布的启望S3,是曦望技术路线的集中体现。它并非对现有GPU的简单优化,而是从AI Core计算架构到内存IO系统进行了全链路重构。
在计算层,S3通过三大创新实现效率跃升:
其一,将GEMM与Flash Attention两大核心算子的利用率分别提升至99%与98%,逼近物理极限,使标称算力几乎全部转化为有效吞吐;
其二,采用128-bit指令集与3D指令支持,结合独立线程调度机制,精准匹配智能体复杂的控制流,消除条件跳转带来的性能损耗;
其三,原生支持FP16至FP4全链路低精度运算,在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理,吞吐量较FP16提升3-4倍,直接降低客户推理成本。
在系统层,S3同样展现出对推理场景的深刻理解。面对智能体高并发、长上下文的特性,KV Cache显存占比常超80%,传统HBM方案虽带宽高但成本与功耗难以承受。S3创新采用LPDDR6内存接口技术,在保障推理带宽的同时,将显存容量上限大幅提升,功耗降低50%,完美契合“大容量、高性价比、低功耗”的推理需求。更关键的是,LPDDR6与LPDDR5X的兼容性设计,使S3可灵活覆盖从边缘设备到云端服务器的全场景部署。
此外,S3还集成了高速SerDes与SUE融合互联技术,解决多模型协同时的通信瓶颈,为智能体集群化部署提供底层支撑。
从芯片到生态:构建推理时代的“操作系统”
硬件的突破只是第一步。曦望深知,在AI推理的竞争中,软件生态才是决定用户粘性的关键。本轮融资将重点投入全栈软件生态建设,包括编译器优化、推理引擎适配、Agent开发框架等,旨在降低开发者使用门槛,加速推理应用的规模化落地。
目前,曦望已推进三代推理GPU迭代,实现数万颗芯片量产交付,并保持“芯片一次性流片成功、性能符合预期”的纪录,展现出极强的工程化能力。这种从芯片研发到解决方案交付的完整闭环,使其在国产替代与自主可控的浪潮中占据先机。
结语:推理即未来
当英伟达在GTC 2026上将“每瓦Token吞吐量”定义为AI时代的核心竞争力时,曦望早已在这条赛道上深耕多年。它不追求通用性,而是以极致的专注,为推理场景打造“专芯专用”的解决方案。在智能体爆发的元年,这种“少即是多”的哲学,或许正是中国AI算力突围的最佳路径。
未来,随着S4、S5芯片的持续迭代,曦望有望在推理算力市场占据更核心的位置。而它所代表的,不仅是技术的突破,更是一种对AI产业本质的深刻洞察:真正的智能,不在于能算多快,而在于能省多少成本,服务多少真实需求。
标签: AI推理 GPU芯片 曦望Sunrise 智能体 算力革命