当前位置:首页 > AI资讯 > 正文内容

商汤开源多模态新范式,告别拼接架构

admin1个月前 (04-29)AI资讯63

从拼接走向原生:商汤开源多模态新范式

在人工智能迈向通用智能的征途中,多模态能力一直是核心挑战之一。长期以来,主流的多模态模型大多采用“视觉编码器 + 语言模型 + 适配器”的拼接式架构,将图像与文本分别处理后再进行融合。这种方式虽行之有效,却如同让一群语言不通的专家协作——信息在模块间反复翻译,导致效率损耗、语义失真,最终不得不依赖超大参数量来弥补性能短板。

如今,这一范式正被打破。商汤科技正式开源其最新研发的日日新 SenseNova U1 系列模型,基于自主研发的 NEO-unify 架构,首次实现了原生理解与生成的统一,标志着多模态 AI 进入“一个大脑,全知全能”的新阶段。

原生统一:告别“翻译式”多模态

传统多模态模型的核心问题在于“模态割裂”。图像先由视觉编码器转化为中间表示,再通过适配器“翻译”为语言模型可理解的 token;生成时又需反向操作,将语言指令“转译”为图像生成信号。这一过程不仅计算冗余,更因多次信息转换导致细节丢失,尤其在复杂图文生成任务中表现乏力。

而 SenseNova U1 的 NEO-unify 架构彻底摒弃了这种拼接逻辑。它移除独立的视觉编码器(VE)和变分自编码器(VAE),重新构建了一个统一的表征空间,使语言与视觉信息从一开始就在同一套计算框架中被建模。这意味着模型不再“先看图、再理解、再画图”,而是像人类一样,在同一个思维过程中同步处理图像与文本,实现真正的端到端多模态理解与生成。

这种“原生统一”的设计,使得信息流转更高效、语义保留更完整。实验表明,即使在仅 8B 参数的轻量版本中,SenseNova U1 Lite 也能在图像理解、生成、空间推理等任务上达到甚至超越部分大型闭源商业模型的表现,真正实现“以小搏大”。

极致效率:开源即 SOTA

效率是 NEO-unify 架构的核心优势。由于省去了模态间反复转换的开销,SenseNova U1 在保持高保真输出的同时,显著提升了推理速度。在通用图像生成测试中,其生成质量可媲美 Qwen-Image 2.0 Pro、Seedream 4.5 等商业级模型,而在响应速度上更具优势。

更令人惊艳的是其在复杂信息图生成任务中的表现。开源模型在此类任务中历来表现不佳,常出现排版错乱、文字错位等问题。而 SenseNova U1 Lite 凭借统一的表征能力,能精准控制图文布局与语义一致性,输出接近专业设计水准的结果。这得益于模型对“图文复合体”的整体建模能力——它不是分别处理图和文,而是将其视为一个有机整体进行创作。

此次开源的 SenseNova U1 Lite 包含两个版本:
- SenseNova-U1-8B-MoT:基于稠密骨干网络,适合通用场景;
- SenseNova-U1-A3B-MoT:基于混合专家(MoE)架构,在特定任务上具备更高效率。

两者均可在 GitHub 和 Hugging Face 平台免费获取,为研究者和开发者提供了强大的开源工具。

连续创作:单次调用,完整输出

SenseNova U1 的另一项突破是实现了业内首个连续性图文创作输出。传统流程中,生成一篇图文并茂的文章往往需要多次模型调用:先由语言模型撰写文本,再由图像模型生成配图,最后人工或额外模型进行排版整合。而 SenseNova U1 可在单次前向传播中完成从理解到生成的完整链条,直接输出结构完整、语义连贯的图文作品。

这一能力得益于 NEO-unify 架构对图文底层信号的深度融合。模型不仅能“看懂”图文关系,还能“想清楚”如何组织它们。未来,这一技术有望广泛应用于内容创作、教育课件生成、智能客服等领域,大幅提升自动化内容生产的效率与质量。

迈向具身智能:统一模型的未来图景

SenseNova U1 的潜力不止于内容生成。其统一架构为具身智能(Embodied AI)提供了关键基础。想象一个机器人,它需要同时感知环境(视觉)、理解指令(语言)、推理路径(逻辑)并执行动作(生成控制信号)。传统方法需多个专用模型协同,而 SenseNova U1 的架构允许在单一模型内完成从感知到决策再到执行的闭环,真正实现“一个大脑驱动全身”。

商汤表示,未来将继续沿此路径扩展模型规模,目标是“以更低的计算成本达到国际顶尖水平”。这不仅是技术的跃迁,更是推动 AI 普惠的重要一步。

标签: 多模态AI 开源模型 商汤科技 具身智能 NEO-unify

相关文章

AI成网络安全双刃剑:防御还是攻击利器

人工智能的双刃剑:当防御者拿起AI武器在科技迅猛发展的今天,人工智能(AI)正以前所未有的速度重塑各行各业。金融领域作为数字化程度最高、数据最密集的行业之一,自然成为AI技术落地的前沿阵地。然而,正如...

PPHermes让AI Agent部署更便捷

云端智能新范式:PPIO 推出 PPHermes,让 Agent 部署触手可及 在人工智能技术迅猛发展的当下,AI Agent(智能体)正从实验室走向实际应用,成为提升生产力的重要工具。然而,对于大多...

AI原生电商操作系统颠覆传统运营模式

从“人操作”到“AI驱动”:电商操作系统进入AI原生时代 当电商行业还在为流量成本攀升、转化率波动而焦虑时,店匠科技(Shoplazza)用一场技术发布,为行业撕开了一道通往未来的口子。其正式推出的全...

Cursor 3重塑开发范式:智能体成代码主力

从“写代码”到“管智能体”:Cursor 3 如何重塑开发范式 当开发者还在适应 AI 辅助编程的“副驾驶”模式时,Anysphere 已经将 Cursor 推向了一个更激进的阶段——智能体优先。最新...

AI算力重构与商业航天共振

算力重构与星辰大海:AI与商业航天的双重变奏 当人工智能的浪潮席卷全球,算力正从幕后走向台前,成为驱动技术演进的核心引擎。与此同时,商业航天也在悄然提速,从遥不可及的星辰梦想,逐步落地为可量产、可复用...

从RAG到CAG:企业级AI系统的上下文进化

从 RAG 到 CAG:企业级 AI 系统的上下文进化 检索增强生成(RAG)作为当前企业集成大语言模型的主流范式,已在知识问答、智能客服等场景中展现出强大的实用性。它通过将外部知识库的检索结果注入模...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。