只用2700万参数,这个推理模型超越了DeepSeek和Claude
当前,大语言模型(LLM)在处理复杂任务推理时,主要依赖思维链(CoT)技术。然而,这种技术存在任务分解复杂、数据需求大以及高延迟等问题,使得大模型的架构变革迫在眉睫。在此背景下,来自 Sapient Intelligence 的研究者受人脑分层和多时间尺度处理机制的启发,提出了分层推理模型(HRM)。这一全新的循环架构,为大模型推理带来了新的突破,仅凭借 2700 万个参数,便在复杂推理任务上超越了诸多强大的模型。
HRM 是一种创新的循环架构,它通过两个相互依赖的循环模块,在单次前向传递中就能执行顺序推理任务,而且无需对中间过程进行明确监督。其中,高级模块负责缓慢、抽象的规划,如同人类思考时制定长远策略;低级模块则处理快速、细致的计算,类似人类对具体事务的即时处理。HRM 仅需 1000 个训练样本,就能在复杂数独谜题、大型迷宫最优路径查找等极具挑战性的任务中,取得近乎完美的表现。在衡量通用人工智能能力的关键基准 —— 抽象与推理语料库(ARC)测试中,HRM 的成绩也优于上下文窗口更长的大型模型,展现出强大的潜力。
HRM 的设计灵感直接来源于大脑的工作机制,主要体现在三个方面:
- 分层处理机制:大脑通过皮层区域的多级层次结构处理信息。高级脑区如前额叶,能在较长时间尺度上整合信息,形成抽象概念;低级脑区如感觉皮层,则专注于即时、具体的感知运动信息处理。HRM 借鉴这一机制,让高级模块和低级模块各司其职,协同完成复杂任务。
- 时间尺度分离:大脑不同层次结构的神经活动具有不同的内在时间节律,呈现出特定的神经振荡模式。这种时间分离特性,使得高级脑区能稳定地引导低级脑区的快速计算。HRM 模拟这一过程,让两个循环模块在不同时间尺度上运行,提升推理效率和稳定性。
- 循环连接特性:大脑拥有密集的循环神经网络连接,这种反馈回路通过不断迭代优化,提升信息表示的精确度,增强对上下文的适应性。虽然这一过程需要额外的处理时间,但能有效避免反向传播时间算法(BPTT)中深层信用分配的难题。HRM 同样采用循环连接,优化自身性能 。
HRM 模型由输入网络\(f_I (・; θ_I )\)、低级循环模块\(f_L (・; θ_L)\) 、高级循环模块\(f_H (・; θ_H)\)和输出网络\(f_O (・; θ_O)\)这四个可学习组件构成。它将输入向量x映射为输出预测向量\(y´\) ,通过一系列计算步骤,在经过 N 个完整周期后,从 H 模块的隐藏状态中提取最终预测结果。在运行过程中,HRM 呈现出层级收敛性,H 模块稳定收敛,L 模块在周期内反复收敛后被 H 重置,这与深度神经网络梯度消失的情况截然不同。
为了进一步提升性能,HRM 还引入了多种创新机制:
- 近似梯度:传统循环模型依赖 BPTT 计算梯度,但 BPTT 存在内存消耗大的问题,其内存消耗与时间步长 T 呈线性关系(O (T))。HRM 设计的一步梯度近似法,仅使用每个模块最后状态的梯度,将其他状态视为常数,内存消耗仅为 O (1),且无需随时间展开,利用 PyTorch 等自动求导框架就能轻松实现。
- 深度监督:HRM 融入深度监督机制,在训练过程中对模型进行多次前向传递,每次传递为一个段。通过对每个段结束时隐藏状态的监督,提升模型训练效果。
- 自适应计算时间(ACT):借鉴大脑在自动化思维(System 1)与审慎推理(System 2)之间动态切换的机制,HRM 融入自适应停止策略。实验表明,ACT 能根据任务复杂性自动调整计算资源,在节省计算资源的同时,最大程度降低对性能的影响。
- 推理时间扩展:有效的神经模型应能在推理阶段利用额外计算资源提升性能。HRM 只需增加计算限制参数 Mmax,无需重新训练或调整架构,就能实现推理计算扩展。
研究者对 HRM 进行了 ARC-AGI、数独和迷宫基准测试。结果显示,HRM 在复杂推理任务中表现卓越。在迷宫任务中,HRM 起初会同时探索多条潜在路径,之后排除无效路径,构建并优化解决方案;数独任务里,其策略类似深度优先搜索,遇到死胡同时回溯;ARC 任务中,HRM 则对棋盘进行渐进式调整和迭代改进。这表明 HRM 能适应不同推理方法,针对特定任务选择有效策略,但具体的解题策略仍有待进一步深入研究。
此外,对比 HRM 模型与小鼠皮层的层级维度组织结构发现,维度层级结构是模型在学习复杂推理任务过程中自然涌现的特性,并非模型架构本身固有。从理论层面来讲,HRM 具有图灵完备性,与早期神经推理算法类似,在满足一定内存和时间约束的情况下,具备计算通用性,能够模拟任何图灵机。而且,HRM 的自适应计算能力使其在长推理过程训练中更具优势,能解决复杂难题,更接近实用的图灵完备性。与强化学习等训练方法相比,HRM 从基于梯度的密集监督获取反馈,在连续空间中自然运行,避免了强化学习的不稳定性和数据效率低的问题,以及为每个 token 分配相同计算资源导致的低效情况。
HRM 虽然在研究中取得了显著成果,但也引发了新的思考,比如其神经网络实现的底层推理算法尚不明确,对这一问题的解答将有助于增强模型的可解释性,加深人们对 HRM 解决方案空间的理解。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。