当前位置:首页 > AI资讯 > 正文内容

曦望S3专芯重塑AI推理算力格局

admin10小时前AI资讯5

推理时代的算力革命:曦望如何用“专芯”重构AI基础设施

2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理算力的底层变革正在悄然展开。在这场变革中,一家成立仅一年多的企业——曦望(Sunrise),正以其“All-in推理”的坚定战略,成为搅动国内GPU赛道的关键力量。

近日,曦望宣布完成超10亿元人民币的新一轮融资,累计融资额达40亿元,估值突破百亿,成为国内首家纯推理GPU独角兽。这笔巨额融资的背后,不仅是资本对技术路线的认可,更是对AI产业重心转移的精准预判。

从“训推一体”到“推理原生”:一场架构范式的颠覆

长期以来,GPU市场被“训推一体”的设计逻辑主导——即同一款芯片既要支持大模型训练,又要兼顾推理任务。这种“全能型”架构在AI发展初期具备战略价值,但随着智能体(Agent)的爆发式增长,其弊端日益凸显:训练模块占用大量晶体管与功耗资源,导致推理场景下的算力利用率普遍低于30%。

“AI算力基建的重心已彻底切换。”曦望董事长徐冰一语道破行业痛点。据其透露,2026年AI推理计算需求已达到训练需求的4-5倍,推理算力租赁价格半年内涨幅近40%。面对这一结构性变化,曦望选择了一条截然不同的路径:放弃训练能力,专为推理场景做深度定制。

这一决策并非凭空而来。以OpenClaw为代表的智能体推理,其“感知—规划—执行—反馈”的高频循环机制,带来了对KV-cache密集访问的全新计算负载。通用GPU因架构冗余,难以高效支撑此类任务。而曦望的S3推理GPU,正是为此而生。

启望S3:为智能体重构的推理原生架构

2026年1月发布的启望S3,是曦望技术路线的集中体现。它并非对现有GPU的简单优化,而是从AI Core计算架构到内存IO系统进行了全链路重构。

在计算层,S3通过三大创新实现效率跃升:
其一,将GEMM与Flash Attention两大核心算子的利用率分别提升至99%与98%,逼近物理极限,使标称算力几乎全部转化为有效吞吐;
其二,采用128-bit指令集与3D指令支持,结合独立线程调度机制,精准匹配智能体复杂的控制流,消除条件跳转带来的性能损耗;
其三,原生支持FP16至FP4全链路低精度运算,在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理,吞吐量较FP16提升3-4倍,直接降低客户推理成本。

在系统层,S3同样展现出对推理场景的深刻理解。面对智能体高并发、长上下文的特性,KV Cache显存占比常超80%,传统HBM方案虽带宽高但成本与功耗难以承受。S3创新采用LPDDR6内存接口技术,在保障推理带宽的同时,将显存容量上限大幅提升,功耗降低50%,完美契合“大容量、高性价比、低功耗”的推理需求。更关键的是,LPDDR6与LPDDR5X的兼容性设计,使S3可灵活覆盖从边缘设备到云端服务器的全场景部署。

此外,S3还集成了高速SerDes与SUE融合互联技术,解决多模型协同时的通信瓶颈,为智能体集群化部署提供底层支撑。

从芯片到生态:构建推理时代的“操作系统”

硬件的突破只是第一步。曦望深知,在AI推理的竞争中,软件生态才是决定用户粘性的关键。本轮融资将重点投入全栈软件生态建设,包括编译器优化、推理引擎适配、Agent开发框架等,旨在降低开发者使用门槛,加速推理应用的规模化落地。

目前,曦望已推进三代推理GPU迭代,实现数万颗芯片量产交付,并保持“芯片一次性流片成功、性能符合预期”的纪录,展现出极强的工程化能力。这种从芯片研发到解决方案交付的完整闭环,使其在国产替代与自主可控的浪潮中占据先机。

结语:推理即未来

当英伟达在GTC 2026上将“每瓦Token吞吐量”定义为AI时代的核心竞争力时,曦望早已在这条赛道上深耕多年。它不追求通用性,而是以极致的专注,为推理场景打造“专芯专用”的解决方案。在智能体爆发的元年,这种“少即是多”的哲学,或许正是中国AI算力突围的最佳路径。

未来,随着S4、S5芯片的持续迭代,曦望有望在推理算力市场占据更核心的位置。而它所代表的,不仅是技术的突破,更是一种对AI产业本质的深刻洞察:真正的智能,不在于能算多快,而在于能省多少成本,服务多少真实需求。

标签: AI推理 GPU芯片 曦望Sunrise 智能体 算力革命

相关文章

智算赋能教育:校企协同培养AI人才新范式

智算赋能教育:校企协同推动人工智能人才培养新范式在人工智能技术迅猛发展的今天,算力已不再是单纯的硬件指标,而是驱动科研创新与教育变革的核心引擎。4月9日,一场意义深远的合作在中国人民大学立德楼悄然落地...

AI语音合成新突破:更自然更可控

更自然,更可控:下一代AI语音合成的新突破在人工智能不断重塑内容创作的今天,语音生成技术正从“能听”迈向“动听”的新阶段。近日,Google 推出的 Gemini 3.1 Flash TTS 模型,正...

VAKRA智能代理的推理与工具能力解析

探索VAKRA:智能代理的推理、工具使用与失败模式解析在人工智能快速发展的今天,智能代理(AI Agents)正逐步从理论走向实践,承担起复杂任务的执行角色。IBM Research 近期发布的 VA...

智象未来打造原生全模态世界模型

从多模态到世界模型:智象未来的AI进化之路 在人工智能技术快速迭代的当下,生成式AI正从单一模态的“工具型”应用,迈向融合视觉、听觉、语言乃至物理逻辑的“认知型”系统。近日,国内多模态生成式AI企业智...

AI原生电商操作系统颠覆传统运营模式

从“人操作”到“AI驱动”:电商操作系统进入AI原生时代 当电商行业还在为流量成本攀升、转化率波动而焦虑时,店匠科技(Shoplazza)用一场技术发布,为行业撕开了一道通往未来的口子。其正式推出的全...

AI算力引爆产业变革:芯片到机器人的连锁反应

科技浪潮下的产业变局:从AI算力到智能终端的连锁反应 近期科技产业动态频出,从芯片制造到机器人落地,从仓储智能化到车企战略调整,一系列动作背后,折射出全球科技巨头在AI驱动下的战略布局与产业重构。在这...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。