当前位置:首页 > AI资讯 > 正文内容

AI医学图像分割新突破:边看边想更精准

admin2个月前 (04-23)AI资讯78

医学图像分割的新范式:当AI学会“边看边想”

在医学影像分析领域,精准分割病灶区域是疾病诊断与治疗规划的关键前提。然而,传统多模态大模型(MLLM)在处理这类任务时,往往陷入“一步到位”的困境:输入图像,输出掩膜(mask),看似高效,却在面对模糊边界、复杂结构或细微病灶时频频失准。更深层的问题是,为了赋予模型分割能力,现有方法普遍引入隐式分割token(如 <SEG>),这不仅侵占模型的文本输出空间,还导致语言推理能力退化,形成“功能越加越弱”的怪圈。

如今,这一困局被一项来自浙江大学与上海人工智能实验室的联合研究打破。他们提出的 IBISAgent 框架,成功将医学图像分割从“单次推理”推向“多轮交互”的新范式,并斩获CVPR 2026的认可。

从“一次性输出”到“迭代式决策”

人类专家在标注医学图像时,从不是一眼定乾坤。他们会先扫视全局,锁定可疑区域,再通过反复点击正负样本,根据每一步生成的mask形态不断调整策略——这是一个典型的“观察-思考-行动-再观察”的闭环过程。

IBISAgent正是受此启发,将分割任务重新定义为多步马尔可夫决策过程(MDP)。它摒弃了传统的隐式token设计,转而采用“文本推理 + 空间点击动作”的交错模式。每一步包含三个核心环节:

  • 推理(Textual Thinking):模型分析当前分割状态,例如“当前mask偏左,需在右侧肿瘤边缘补充正向点击”。
  • 行动(Action):输出结构化点击指令,包括目标类别、正负属性及归一化坐标,支持单步多点击。
  • 观测(Observation):点击传入交互式分割工具MedSAM2,生成新mask并叠加回原图,作为下一步视觉输入。

这一设计实现了视觉感知与语言推理的深度融合。模型每一步都能“看到”自己上一步的结果,从而自主判断是否需要修正、如何修正,真正模拟了人类专家的决策逻辑。

两阶段训练:从模仿到超越

要让模型学会这种复杂的多步推理,仅靠现有数据集远远不够——它们通常只提供最终mask,缺乏逐步交互的轨迹记录。为此,研究团队构建了包含 456K条高质量推理轨迹 的冷启动数据集。

该数据集基于BiomedParseData(340万图像-mask对)自动生成:通过规则化策略模拟点击序列,并借助Gemini-2.5-Pro为每步生成自然语言推理。更关键的是,团队还合成了两类自我反思轨迹:一是错误自纠正(检测到错误后回溯重做),二是指令不一致纠正(发现与初始目标冲突时主动放弃并重分)。这为模型提供了“犯错-反思-修正”的完整学习路径。

在此基础上,IBISAgent采用两阶段训练框架

  1. 冷启动监督微调(SFT):在合成轨迹上训练模型建立像素级推理先验;
  2. Agentic强化学习(RL):引入细粒度奖励机制,驱动模型自主探索更优策略。

RL阶段采用GRPO算法,在888K个VQA样本上优化。其核心创新在于设计了区域点击奖励渐进式分割改进奖励:前者确保每次点击落在语义有效区域,后者强制每步行动必须带来实质性分割提升,从而杜绝冗余操作与来回震荡。

无需改模型、不加token的“涌现”能力

值得一提的是,IBISAgent并未引入任何新模型组件或隐式token。其分割能力完全从MLLM内在的视觉推理中“涌现”出来,既保留了完整的语言理解与生成能力,又天然支持从头分割与mask精化两类任务。这种“轻改造、强能力”的设计,极大提升了模型的泛化性与实用性。

更重要的是,该方法打破了“分割必须依赖专用token”的固有思维,证明通过合理的任务建模与训练策略,大模型完全可以在不牺牲语言能力的前提下,掌握复杂的视觉操作技能。

这一突破不仅为医学图像分析带来了更高精度与更强鲁棒性,也为通用AI Agent在专业领域的落地提供了新思路——真正的智能,或许不在于一次性给出答案,而在于懂得如何一步步逼近真相。

标签: 医学AI 多模态大模型 图像分割 Agent智能体 CVPR2026

相关文章

机器人迎来GPT-3时刻:π0.7实现自主思考

机器人终于迎来了它的“GPT-3时刻” 当人们还在争论具身智能是否真的能走向通用时,Physical Intelligence(PI)用一款名为 π0.7 的VLA(视觉-语言-动作)模型,给出了一个...

AI算力竞赛白热化:芯片到模型全面爆发

AI算力竞赛白热化:从芯片到模型的全面爆发 过去一周,全球人工智能领域迎来密集的技术突破与产业动态。从芯片巨头台积电的产能预警,到中国大模型企业DeepSeek估值破百亿,再到阿里、MiniMax等国...

AI顶尖人才回流大厂背后的战略逻辑

从独立研究到平台赋能:顶尖AI人才的“回流”逻辑 在AI大模型竞争白热化的当下,人才流动往往被视为行业风向标。近期,前DeepSeek核心研究员、V3与R1模型的核心作者郭达雅确认加入字节跳动Seed...

智能体时代的安全挑战与破局之道

智能体时代的安全挑战与破局之道 人工智能的发展正迎来关键转折点。从“能对话”的大模型,到“能执行”的智能体,技术的演进不仅改变了人机交互的边界,更深刻影响着产业形态与组织逻辑。在4月19日召开的中国互...

华为星钻手镯表打破珠宝与智能二选一困局

当珠宝遇见智能:华为星钻手镯表如何打破高端腕表的“二选一”困局长久以来,高端女性在腕间配饰的选择上,始终面临一道艰难的二选一:是选择传统高奢珠宝腕表,彰显身份与美学品味?还是拥抱智能穿戴设备,享受健康...

中国重卡自动驾驶领先马斯克十年

马斯克的十年梦,中国智造先一步落地 当特斯拉CEO马斯克在十年前首次提出“自动驾驶卡车编队”的构想时,无人能否认其前瞻性。他设想未来的公路运输将由一名司机带领多辆自动驾驶卡车,通过降低人力成本与空气阻...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。