当前位置：首页 > AI资讯 > 正文内容

22岁开发者逆推Claude Mythos架构

admin2个月前 (04-21)AI资讯97

当“堆参数”遇上“循环思考”：22岁开发者逆推Claude Mythos架构

在AI大模型领域，“更大即更好”曾是颠扑不破的真理。千亿参数、万亿参数……模型规模一路狂飙，算力成本也随之水涨船高。然而，当Anthropic的Claude系列凭借高效推理能力引发关注，其内部代号为“Mythos”的神秘架构却始终笼罩在迷雾之中。直到最近，一位年仅22岁的开发者Kye Gomez，用一场大胆的开源行动，撕开了这层神秘面纱的一角。

他发布的OpenMythos项目，并非官方泄露，而是一次基于公开研究与主流推测的“逆向工程”。更令人惊讶的是，这套被业界猜测为“过于危险而被封印”的架构，其核心思想竟如此简洁而深刻：不堆参数，堆循环。

循环深度Transformer：让模型“多想几遍”

传统Transformer架构依赖上百层堆叠，每层学习不同特征，参数量呈指数级增长。而Kye Gomez提出的循环深度Transformer（Recurrent-Depth Transformer, RDT），彻底颠覆了这一范式。

RDT的核心机制极为巧妙：仅用几层基础结构，通过最多16次循环迭代，完成原本需要上百层才能实现的深度推理。每一次循环，模型都基于前一轮的结果进行再计算，形成“思考—反馈—再思考”的闭环。这种设计不仅大幅降低参数量，还让模型具备了“逐步深化理解”的能力。

更关键的是，这16次循环并非简单重复。每次迭代中，系统会通过混合专家（MoE）路由机制激活不同的专家子网络。这意味着，每一次“思考”都走的是不同的知识路径，从而避免陷入无效循环。

MoE + 循环：广度与深度的双重突破

RDT的成功，离不开对DeepSeekMoE架构的借鉴与优化。Kye Gomez采用了细粒度专家+共享专家的设计：大量专家负责处理特定领域任务，少数共享专家则始终在线，确保基础语义连贯性。

这种设计实现了“MoE提供领域知识的广度，循环提供推理的深度”的协同效应。例如，在回答一个复杂逻辑问题时，模型可能第一轮调用数学专家，第二轮调用语言推理专家，第三轮调用常识验证专家——每一次循环都像一次“思维跃迁”。

此外，为防止循环过程中出现数值发散或不稳定，RDT引入了来自UCSD与Together AI的研究成果——LTI稳定循环注入机制。该机制通过数学约束确保每轮迭代收敛，使模型在长时间循环中仍能保持稳定输出。

潜在空间推理：告别“边想边说”

与当前流行的Chain-of-Thought（思维链）不同，RDT的推理过程完全在潜在空间（latent space）中完成。模型不会生成任何中间token，而是将16轮思考全部压缩在hidden state向量中，直到最终才输出完整答案。

这种“想完再说”的模式，避免了传统CoT中“边想边暴露思路”的弊端。它不仅提升了推理效率，也增强了模型的鲁棒性——因为中间过程不受外部干扰，也不会因过早输出错误信息而误导后续判断。

实验数据显示，一个仅770M参数的RDT模型，在多项基准测试中追平了1.3B参数的标准Transformer，参数量减少近一半，效果却毫不逊色。

循环Transformer的“超能力”：系统性泛化与深度外推

Kye Gomez还引用了俄亥俄州立大学的最新研究，揭示了循环架构的两大优势：

其一，系统性泛化能力。在面对训练中从未见过的知识组合时，循环Transformer能正确推理并作答，而标准模型则完全失败。这说明循环并非简单记忆，而是真正实现了“理解重组”。

其二，深度外推能力。当测试任务的推理链长度超过训练时的最大跳数（如训练20跳，测试30跳），循环模型可通过增加迭代次数自适应应对，而标准模型则直接崩溃。

这些发现暗示：当前大模型的瓶颈或许不在“知道多少”，而在“能否灵活组合已知”。而循环机制，可能正是解锁这一能力的关键钥匙。

从“更大”到“更聪明”：AI scaling的新方向

OpenMythos的出现，不仅是一次技术复现，更是一场思想启蒙。它让我们重新思考：Scaling Law的未来，是否应从“训练更大的模型”转向“让现有模型在推理时多想几遍”？

如果循环Transformer的潜力被进一步验证，我们将迎来一个更高效、更节能、更具推理深度的AI新时代。届时，模型的“智能密度”将比“参数规模”更为重要。

而这一切的起点，竟来自一位22岁开发者的开源项目。或许，真正的创新，从来不拘于年龄，而在于敢于质疑主流、重构范式的勇气。

标签： 循环Transformer MoE架构 OpenMythos 推理优化 AI scaling

返回列表

上一篇：广州共识开启AI开源新纪元

下一篇：智能体时代的安全挑战与破局之道

玖捌肆贰

22岁开发者逆推Claude Mythos架构

当“堆参数”遇上“循环思考”：22岁开发者逆推Claude Mythos架构

循环深度Transformer：让模型“多想几遍”

MoE + 循环：广度与深度的双重突破

潜在空间推理：告别“边想边说”

循环Transformer的“超能力”：系统性泛化与深度外推

从“更大”到“更聪明”：AI scaling的新方向

相关文章

AI语音合成新突破：更自然更可控

一行代码破解AI巨头算力税黑箱

商汤绝影Sage端侧大模型颠覆车载AI格局

AI医学图像分割新突破：边看边想更精准

PPIO上线DeepSeek-V4：百万上下文AI新纪元

商汤绝影发布舱驾一体全场景智能体

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

22岁开发者逆推Claude Mythos架构

当“堆参数”遇上“循环思考”：22岁开发者逆推Claude Mythos架构

循环深度Transformer：让模型“多想几遍”

MoE + 循环：广度与深度的双重突破

潜在空间推理：告别“边想边说”

循环Transformer的“超能力”：系统性泛化与深度外推

从“更大”到“更聪明”：AI scaling的新方向

相关文章

AI语音合成新突破：更自然更可控

一行代码破解AI巨头算力税黑箱

商汤绝影Sage端侧大模型颠覆车载AI格局

AI医学图像分割新突破：边看边想更精准

PPIO上线DeepSeek-V4：百万上下文AI新纪元

商汤绝影发布舱驾一体全场景智能体

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论