当前位置:首页 > AI资讯 > 正文内容

医学AI视觉觉醒:从被动看图到主动思考

admin3天前AI资讯82

医学AI的“视觉觉醒”:从被动看图到主动思考

长久以来,医学AI的发展似乎陷入了一种“解释幻觉”——模型可以流畅地输出诊断依据和推理过程,但这些文字背后,是否真的“看到”了关键病灶?一个微小的钙化点、一段几秒钟的血管异常搏动,往往决定着生死判断。然而,传统多模态模型只是将影像“喂”给大模型,再生成答案与解释,这种“被动接收”的机制,极易导致看错区域、漏看病灶、误判结构

如今,这一局面正在被打破。上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学,在 ICML 2026 上连续发表两篇重磅论文,首次将 “Think with Images” 与 “Think with Videos” 范式引入医学AI领域。他们提出:视觉不应只是输入,而应成为推理过程的一部分。模型不再只是“看完再解释”,而是在思考中主动“决定看哪里、怎么看、看完如何修正”。

这一突破,标志着医学AI智能体正迎来关键拐点。

从“写解释”到“用证据思考”

传统医学多模态模型的运作逻辑,类似于一个“视觉翻译官”:它将CT、MRI或超声视频编码成特征向量,再交给大模型生成诊断结论与解释。问题在于,这种流程中,视觉信息是一次性输入的静态快照。模型无法在推理过程中“回头再看一眼”某个可疑区域,也无法主动放大、分割或定位关键结构。

而 LeapQuest 团队提出的 Ophiuchus(面向医学图像)和 MedScope(面向临床长视频)两个系统,彻底改变了这一模式。它们将大模型改造成一个能与视觉工具协同工作的智能体,在推理链中动态调用外部工具,获取新的视觉证据,并据此修正判断。

以 Ophiuchus 为例,它在诊断过程中可以主动调用 SAM2 进行病灶分割、使用 BiomedParse 根据文字提示定位特定解剖结构,或通过 Zoom-in 放大可疑区域。这些工具调用的结果,不是孤立的数据,而是以“observation”(观察)的形式反馈回推理链,推动模型重新评估之前的假设。

这意味着,模型不再只是“会写解释”,而是真正开始“用视觉证据思考”。

7B 模型为何能击败 o3 与 GPT-5?

令人惊讶的是,在多个医学视觉问答(VQA)基准测试中,仅拥有 70 亿参数的 Ophiuchus-7B,平均得分达到 68.0,超越了 OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和 GPT-5(59.9)。更关键的是,其工具调用准确率高达 97.9%

这一结果揭示了医学AI的一个深层规律:在真正依赖细粒度视觉证据的任务中,模型规模并非决定性因素。o3 和 GPT-5 虽然语言能力更强,但在“看”的能力上,仍受限于被动输入机制。它们可能“说得头头是道”,却未必“看得清清楚楚”。

而 Ophiuchus 的优势,正在于它让模型学会了“何时看、看哪里、怎么看”。例如,在面对一张肺部CT时,模型可能先初步判断“疑似结节”,但随即调用分割工具确认边界是否清晰,再放大观察密度变化。这种“边想边看”的闭环推理,极大提升了诊断的可靠性。

“回看关键时刻”:长视频诊断的新可能

如果说 Ophiuchus 解决了静态图像的“精细观察”问题,那么 MedScope 则将这一范式延伸至动态场景——临床长视频,如内窥镜手术录像、超声心动图等。

在这些场景中,关键信息往往只出现在几秒钟内。传统模型一次性编码整个视频,极易遗漏短暂但关键的异常动作或结构变化。MedScope 的突破在于,它允许模型在推理过程中主动“回看”特定时间段,重新分析某一段视频帧,甚至逐帧比对。

例如,在判断心脏瓣膜是否反流时,模型可能先基于整体视频做出初步判断,随后调用“回看”工具聚焦于舒张期,观察血流方向是否异常。这种“时间维度的视觉推理”,使得模型能够捕捉到人类医生依赖经验才能发现的细微动态变化。

医学AI的新范式:视觉即推理

Ophiuchus 与 MedScope 的共同贡献,不仅是技术上的创新,更在于提出了一种全新的医学AI范式:让视觉证据进入模型的中间思考过程

过去,解释是事后的语言包装;如今,解释是推理中的证据查证。模型不再“假装理解”,而是通过工具交互,真正“看见”并“验证”关键信息。这种从“被动接收”到“主动探索”的转变,正是医学AI迈向临床可用的关键一步。

未来,随着更多视觉工具的集成(如3D重建、多模态对齐、实时反馈),医学AI智能体将不再只是辅助诊断的“黑箱”,而成为医生真正的“视觉协作者”——不仅能看,还能问:“这里是不是有问题?我们再仔细看看。”

标签: 医学AI 多模态模型 视觉推理 智能体 ICML2026

相关文章

MaxHermes云端沙箱开启AI自主进化新纪元

从“执行者”到“进化者”:MaxHermes开启AI助手新纪元在人工智能技术迅猛发展的今天,AI助手早已不再是简单的问答工具或任务执行者。它们正逐步演变为具备自主学习与持续进化能力的智能体。近日,Mi...

AI算力引爆产业变革:芯片到机器人的连锁反应

科技浪潮下的产业变局:从AI算力到智能终端的连锁反应 近期科技产业动态频出,从芯片制造到机器人落地,从仓储智能化到车企战略调整,一系列动作背后,折射出全球科技巨头在AI驱动下的战略布局与产业重构。在这...

AI算力竞赛白热化:芯片到模型全面爆发

AI算力竞赛白热化:从芯片到模型的全面爆发 过去一周,全球人工智能领域迎来密集的技术突破与产业动态。从芯片巨头台积电的产能预警,到中国大模型企业DeepSeek估值破百亿,再到阿里、MiniMax等国...

一行代码破解AI巨头算力税黑箱

一行代码,撕开AI巨头的“算力税”黑箱 2025年9月,GitHub上悄然出现的一行命令 npx claude-mem install,像一颗投入深潭的石子,起初无人察觉。然而短短数月后,它竟掀起一场...

AI顶尖人才回流大厂背后的战略逻辑

从独立研究到平台赋能:顶尖AI人才的“回流”逻辑 在AI大模型竞争白热化的当下,人才流动往往被视为行业风向标。近期,前DeepSeek核心研究员、V3与R1模型的核心作者郭达雅确认加入字节跳动Seed...

ISC.AI 2026大赛开启智能体创新新纪元

智能体浪潮下的创新沙盒:ISC.AI 2026大赛开启AI生态新纪元 当人工智能从“模型竞争”迈向“智能体落地”,一场关于技术、安全与生态的深层变革正在悄然展开。4月20日,ISC.AI 2026创新...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。