当前位置:首页 > AI资讯 > 正文内容

智象发布200B参数原生全模态图像大模型

admin1周前 (05-21)AI资讯56

原生全模态的破局:智象未来发布200B+参数图像大模型HiDream-O1-Image-Pro

5月19日,北京。一场以“Imaging the World”为主题的AI开放日,揭开了图像生成领域的新篇章。智象未来正式发布了其基于原生全模态模型架构Unified Transformer(UiT)打造的图像大模型——HiDream-O1-Image-Pro。这款拥有超两千亿参数的闭源模型,不仅在多项基准测试中刷新SOTA(State-of-the-Art)纪录,更标志着AI正从“多模态拼接”迈向“原生全模态”的深层演进。

从“拼接”到“原生”:架构范式的根本变革

当前主流图像生成模型,如基于潜在扩散模型(LDM)的架构,普遍采用“图像-文本分离编码”的方式:通过VAE压缩图像、独立语言模型处理文本,再在扩散过程中进行融合。这种模块化设计虽提升了效率,却也带来了语义理解偏差、细节还原不足、文字渲染模糊等固有限制。

HiDream-O1-Image-Pro的突破,在于其原生全模态架构UiT。它将原始图像像素、离散文本标记与任务条件统一映射到连续的共享标记空间,实现多模态信息在底层表征上的深度融合。这意味着模型不再“拼凑”不同模态的信息,而是像人类一样,从一开始就同步理解图像与语言,形成对世界的统一认知。

正如智象未来创始人兼CEO梅涛所言:“原生多模态,是从一开始就把‘世界的规则’刻进模型里——它知道物理定律、空间关系、因果逻辑。” 这种架构不仅提升了生成质量,更赋予模型更强的泛化能力,使其在复杂文本渲染、多主体个性化、指令编辑等高难度任务中表现卓越。

小模型也能打大仗:开源版的惊艳表现

值得注意的是,智象未来此前已开源了采用UiT架构的HiDream-O1-Image(8B参数版本)。该模型在全球知名评测平台Artificial Analysis的文生图榜单上登顶开源模型第一,超越了Z-Image Turbo、Qwen-Image、FLUX.2等主流模型,且成为榜单前20中参数量最小的版本。

这一“以小博大”的成绩,充分验证了UiT架构的高效性与可扩展性。而此次发布的HiDream-O1-Image-Pro作为闭源旗舰版本,参数规模跃升至200B+,进一步放大了架构优势,在复杂场景生成与高保真细节还原方面树立了新的技术标杆。

资本看好原生全模态:半月内再获亿级融资

技术突破的背后,是资本市场的持续青睐。智象未来在开放日当天宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等多家机构参与。这已是其半个月内的第二次融资,凸显了投资方对“原生全模态”这一技术路径的高度认可。

随着视觉生成、具身智能、Agent等前沿技术的融合加速,AI的演进方向正从“内容生成”转向“世界建模”。一个能理解环境状态、预测变化规律、跨模态交互的“世界模型”,被视为通往AGI(通用人工智能)的关键路径。而原生全模态架构,正是构建这一能力的基石。

在圆桌论坛中,来自微软亚洲研究院、阿里云、东方富海等机构的专家一致认为:AI的下一站,是建立对真实物理世界的统一表征。视觉生成不再只是艺术创作工具,而是通向“理解世界”的入口。模型能否在图像、文本、音频甚至传感器数据之间自由转换、推理与预测,决定了其能否真正参与现实世界的决策与行动。

智象未来的探索,正是这一趋势的缩影。从底层架构创新到产品化落地,再到生态布局,其正逐步构建起从“生成内容”到“重构世界”的技术闭环。

未来已来,而原生全模态,或许正是打开AGI之门的钥匙。

标签: 原生全模态 图像生成 世界模型 AGI UiT架构

相关文章

MaxHermes云端沙箱开启AI自主进化新纪元

从“执行者”到“进化者”:MaxHermes开启AI助手新纪元在人工智能技术迅猛发展的今天,AI助手早已不再是简单的问答工具或任务执行者。它们正逐步演变为具备自主学习与持续进化能力的智能体。近日,Mi...

机器人ToB规模化提速:数据短板仍是核心卡点

机器人ToB规模化提速:数据短板仍是核心卡点 近年来,机器人正以前所未有的速度渗透进工业制造、物流仓储、医疗服务等多个ToB(面向企业)场景。从仓储自动化中的拆码垛自主决策,到汽车工厂中流利架分拣与工...

腾讯QClaw用5天打开全球AI智能体市场

从“养虾”到出海:腾讯QClaw如何用5天打开全球AI智能体新市场 4月20日晚,一条来自QClaw团队X账号的简短公告,悄然拉开了中国AI智能体产品走向全球的序幕——QClaw海外版正式开启内测,为...

字节跳动Seed3D 2.0开启AI 3D生成新纪元

从2D到3D:字节跳动Seed3D 2.0开启空间智能新纪元 在人工智能从感知走向创造的浪潮中,3D内容生成正成为下一个关键突破口。继文本、图像生成模型相继成熟后,如何让AI“理解”并“构建”三维世界...

GPT-5.5重塑工作范式:智能跃迁新纪元

智能的跃迁:GPT-5.5如何重塑工作范式 当一位英伟达工程师在短暂失去GPT-5.5访问权限后,用“像被截肢”来形容那种感受时,这已不再是简单的工具依赖,而是一种认知延伸的断裂。2026年4月,Op...

美团万亿参数模型LongCat-2.0发布

万亿参数模型落地,国产AI算力迎来高光时刻 4月24日,美团正式发布其新一代基础大模型 LongCat-2.0-Preview,并同步开启公开测试。这款模型最引人注目的不仅是其突破万亿的总参数量级,更...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。