当前位置:首页 > AI资讯 > 正文内容

AI医学图像分割新突破:边看边想更精准

admin2小时前AI资讯2

医学图像分割的新范式:当AI学会“边看边想”

在医学影像分析领域,精准分割病灶区域是疾病诊断与治疗规划的关键前提。然而,传统多模态大模型(MLLM)在处理这类任务时,往往陷入“一步到位”的困境:输入图像,输出掩膜(mask),看似高效,却在面对模糊边界、复杂结构或细微病灶时频频失准。更深层的问题是,为了赋予模型分割能力,现有方法普遍引入隐式分割token(如 <SEG>),这不仅侵占模型的文本输出空间,还导致语言推理能力退化,形成“功能越加越弱”的怪圈。

如今,这一困局被一项来自浙江大学与上海人工智能实验室的联合研究打破。他们提出的 IBISAgent 框架,成功将医学图像分割从“单次推理”推向“多轮交互”的新范式,并斩获CVPR 2026的认可。

从“一次性输出”到“迭代式决策”

人类专家在标注医学图像时,从不是一眼定乾坤。他们会先扫视全局,锁定可疑区域,再通过反复点击正负样本,根据每一步生成的mask形态不断调整策略——这是一个典型的“观察-思考-行动-再观察”的闭环过程。

IBISAgent正是受此启发,将分割任务重新定义为多步马尔可夫决策过程(MDP)。它摒弃了传统的隐式token设计,转而采用“文本推理 + 空间点击动作”的交错模式。每一步包含三个核心环节:

  • 推理(Textual Thinking):模型分析当前分割状态,例如“当前mask偏左,需在右侧肿瘤边缘补充正向点击”。
  • 行动(Action):输出结构化点击指令,包括目标类别、正负属性及归一化坐标,支持单步多点击。
  • 观测(Observation):点击传入交互式分割工具MedSAM2,生成新mask并叠加回原图,作为下一步视觉输入。

这一设计实现了视觉感知与语言推理的深度融合。模型每一步都能“看到”自己上一步的结果,从而自主判断是否需要修正、如何修正,真正模拟了人类专家的决策逻辑。

两阶段训练:从模仿到超越

要让模型学会这种复杂的多步推理,仅靠现有数据集远远不够——它们通常只提供最终mask,缺乏逐步交互的轨迹记录。为此,研究团队构建了包含 456K条高质量推理轨迹 的冷启动数据集。

该数据集基于BiomedParseData(340万图像-mask对)自动生成:通过规则化策略模拟点击序列,并借助Gemini-2.5-Pro为每步生成自然语言推理。更关键的是,团队还合成了两类自我反思轨迹:一是错误自纠正(检测到错误后回溯重做),二是指令不一致纠正(发现与初始目标冲突时主动放弃并重分)。这为模型提供了“犯错-反思-修正”的完整学习路径。

在此基础上,IBISAgent采用两阶段训练框架

  1. 冷启动监督微调(SFT):在合成轨迹上训练模型建立像素级推理先验;
  2. Agentic强化学习(RL):引入细粒度奖励机制,驱动模型自主探索更优策略。

RL阶段采用GRPO算法,在888K个VQA样本上优化。其核心创新在于设计了区域点击奖励渐进式分割改进奖励:前者确保每次点击落在语义有效区域,后者强制每步行动必须带来实质性分割提升,从而杜绝冗余操作与来回震荡。

无需改模型、不加token的“涌现”能力

值得一提的是,IBISAgent并未引入任何新模型组件或隐式token。其分割能力完全从MLLM内在的视觉推理中“涌现”出来,既保留了完整的语言理解与生成能力,又天然支持从头分割与mask精化两类任务。这种“轻改造、强能力”的设计,极大提升了模型的泛化性与实用性。

更重要的是,该方法打破了“分割必须依赖专用token”的固有思维,证明通过合理的任务建模与训练策略,大模型完全可以在不牺牲语言能力的前提下,掌握复杂的视觉操作技能。

这一突破不仅为医学图像分析带来了更高精度与更强鲁棒性,也为通用AI Agent在专业领域的落地提供了新思路——真正的智能,或许不在于一次性给出答案,而在于懂得如何一步步逼近真相。

标签: 医学AI 多模态大模型 图像分割 Agent智能体 CVPR2026

相关文章

AI成网络安全双刃剑:防御还是攻击利器

人工智能的双刃剑:当防御者拿起AI武器在科技迅猛发展的今天,人工智能(AI)正以前所未有的速度重塑各行各业。金融领域作为数字化程度最高、数据最密集的行业之一,自然成为AI技术落地的前沿阵地。然而,正如...

MaxHermes云端沙箱开启AI自主进化新纪元

从“执行者”到“进化者”:MaxHermes开启AI助手新纪元在人工智能技术迅猛发展的今天,AI助手早已不再是简单的问答工具或任务执行者。它们正逐步演变为具备自主学习与持续进化能力的智能体。近日,Mi...

2026年资本回归理性,谁真正被选中?

资本回归理性:2026年,谁真正被“选中”? 当潮水退去,谁在裸泳一目了然。2026年的创投市场,早已不再是那个靠PPT讲故事、靠烧钱抢份额的时代。资本褪去浮躁,回归理性;概念让位于落地,实效成为行业...

腾讯混元3D世界模型2.0开启AI造世界新纪元

AI 迈入“造世界”时代:腾讯混元世界模型 2.0 开启 3D 创作新纪元 当 AI 还在“画图”“对话”“生成视频”的赛道上激烈竞争时,腾讯已经悄然将战场推向了更宏大的维度——创造完整、可交互的 3...

AI原生电商操作系统颠覆传统运营模式

从“人操作”到“AI驱动”:电商操作系统进入AI原生时代 当电商行业还在为流量成本攀升、转化率波动而焦虑时,店匠科技(Shoplazza)用一场技术发布,为行业撕开了一道通往未来的口子。其正式推出的全...

AI算力引爆产业变革:芯片到机器人的连锁反应

科技浪潮下的产业变局:从AI算力到智能终端的连锁反应 近期科技产业动态频出,从芯片制造到机器人落地,从仓储智能化到车企战略调整,一系列动作背后,折射出全球科技巨头在AI驱动下的战略布局与产业重构。在这...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。