当前位置:首页 > AI资讯 > 正文内容

曦望S3专芯重塑AI推理算力格局

admin2个月前 (04-20)AI资讯80

推理时代的算力革命:曦望如何用“专芯”重构AI基础设施

2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理算力的底层变革正在悄然展开。在这场变革中,一家成立仅一年多的企业——曦望(Sunrise),正以其“All-in推理”的坚定战略,成为搅动国内GPU赛道的关键力量。

近日,曦望宣布完成超10亿元人民币的新一轮融资,累计融资额达40亿元,估值突破百亿,成为国内首家纯推理GPU独角兽。这笔巨额融资的背后,不仅是资本对技术路线的认可,更是对AI产业重心转移的精准预判。

从“训推一体”到“推理原生”:一场架构范式的颠覆

长期以来,GPU市场被“训推一体”的设计逻辑主导——即同一款芯片既要支持大模型训练,又要兼顾推理任务。这种“全能型”架构在AI发展初期具备战略价值,但随着智能体(Agent)的爆发式增长,其弊端日益凸显:训练模块占用大量晶体管与功耗资源,导致推理场景下的算力利用率普遍低于30%。

“AI算力基建的重心已彻底切换。”曦望董事长徐冰一语道破行业痛点。据其透露,2026年AI推理计算需求已达到训练需求的4-5倍,推理算力租赁价格半年内涨幅近40%。面对这一结构性变化,曦望选择了一条截然不同的路径:放弃训练能力,专为推理场景做深度定制。

这一决策并非凭空而来。以OpenClaw为代表的智能体推理,其“感知—规划—执行—反馈”的高频循环机制,带来了对KV-cache密集访问的全新计算负载。通用GPU因架构冗余,难以高效支撑此类任务。而曦望的S3推理GPU,正是为此而生。

启望S3:为智能体重构的推理原生架构

2026年1月发布的启望S3,是曦望技术路线的集中体现。它并非对现有GPU的简单优化,而是从AI Core计算架构到内存IO系统进行了全链路重构。

在计算层,S3通过三大创新实现效率跃升:
其一,将GEMM与Flash Attention两大核心算子的利用率分别提升至99%与98%,逼近物理极限,使标称算力几乎全部转化为有效吞吐;
其二,采用128-bit指令集与3D指令支持,结合独立线程调度机制,精准匹配智能体复杂的控制流,消除条件跳转带来的性能损耗;
其三,原生支持FP16至FP4全链路低精度运算,在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理,吞吐量较FP16提升3-4倍,直接降低客户推理成本。

在系统层,S3同样展现出对推理场景的深刻理解。面对智能体高并发、长上下文的特性,KV Cache显存占比常超80%,传统HBM方案虽带宽高但成本与功耗难以承受。S3创新采用LPDDR6内存接口技术,在保障推理带宽的同时,将显存容量上限大幅提升,功耗降低50%,完美契合“大容量、高性价比、低功耗”的推理需求。更关键的是,LPDDR6与LPDDR5X的兼容性设计,使S3可灵活覆盖从边缘设备到云端服务器的全场景部署。

此外,S3还集成了高速SerDes与SUE融合互联技术,解决多模型协同时的通信瓶颈,为智能体集群化部署提供底层支撑。

从芯片到生态:构建推理时代的“操作系统”

硬件的突破只是第一步。曦望深知,在AI推理的竞争中,软件生态才是决定用户粘性的关键。本轮融资将重点投入全栈软件生态建设,包括编译器优化、推理引擎适配、Agent开发框架等,旨在降低开发者使用门槛,加速推理应用的规模化落地。

目前,曦望已推进三代推理GPU迭代,实现数万颗芯片量产交付,并保持“芯片一次性流片成功、性能符合预期”的纪录,展现出极强的工程化能力。这种从芯片研发到解决方案交付的完整闭环,使其在国产替代与自主可控的浪潮中占据先机。

结语:推理即未来

当英伟达在GTC 2026上将“每瓦Token吞吐量”定义为AI时代的核心竞争力时,曦望早已在这条赛道上深耕多年。它不追求通用性,而是以极致的专注,为推理场景打造“专芯专用”的解决方案。在智能体爆发的元年,这种“少即是多”的哲学,或许正是中国AI算力突围的最佳路径。

未来,随着S4、S5芯片的持续迭代,曦望有望在推理算力市场占据更核心的位置。而它所代表的,不仅是技术的突破,更是一种对AI产业本质的深刻洞察:真正的智能,不在于能算多快,而在于能省多少成本,服务多少真实需求。

标签: AI推理 GPU芯片 曦望Sunrise 智能体 算力革命

相关文章

PPHermes让AI Agent部署更便捷

云端智能新范式:PPIO 推出 PPHermes,让 Agent 部署触手可及 在人工智能技术迅猛发展的当下,AI Agent(智能体)正从实验室走向实际应用,成为提升生产力的重要工具。然而,对于大多...

行云芯片用LPDDR重构AI推理成本逻辑

从“天才少年”到芯片创业者:行云如何重构AI推理的成本逻辑 在AI大模型狂奔突进的今天,算力的军备竞赛正悄然从“性能至上”转向“成本优先”。当千亿参数模型成为标配,传统以HBM(高带宽内存)为核心的G...

高德发布全球首款开放环境全自主具身机器人

从地图到机器人:高德如何用“ABot”打开AGI新世界的大门? 在大多数人眼中,高德地图是导航、是出行助手,是城市交通的智能“大脑”。但4月19日,在北京亦庄机器人半程马拉松的赛场上,高德用一场震撼的...

腾讯QClaw用5天打开全球AI智能体市场

从“养虾”到出海:腾讯QClaw如何用5天打开全球AI智能体新市场 4月20日晚,一条来自QClaw团队X账号的简短公告,悄然拉开了中国AI智能体产品走向全球的序幕——QClaw海外版正式开启内测,为...

AI让孕期可视化,奇世智能重塑母婴体验

从“听胎心”到“见成长”:AI如何重塑母婴智能硬件生态 当95后、00后逐渐成为育儿主力军,他们对科学育儿、情感陪伴与效率提升的追求,正在推动母婴行业进入一个全新的智能化时代。在这一背景下,专注于AI...

服务业扩能提质国家战略新蓝图

服务业扩能提质:国家战略下的新增长极 近日,国务院印发《关于推进服务业扩能提质的意见》,明确提出到2030年服务业总规模突破100万亿元的目标。这一部署不仅为服务业高质量发展擘画蓝图,更释放出国家推动...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。