多客科技 发表于 2025-6-9 13:13

苹果机器学习研究中心发文:现有AI模型推理能力存局限

作者:微信文章
当地时间6月6日,苹果机器学习研究中心发表了一篇研究论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》。

论文指出,现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言,其推理能力存在根本性局限。相关内容如下:
研究对象:苹果研究人员对 OpenAI 的 o3 - mini、DeepSeek - R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking 等前沿 “大型推理模型” 进行了系统评估。研究方法:研究人员构建了汉诺塔问题、跳棋交换问题、过河问题以及积木世界四类结构化谜题任务,通过调整参数实现对难度的精确控制,以此系统性地测试模型在不同复杂度下的应对表现。

研究发现:
性能随复杂度下降:尽管这些模型具备生成详细 “思考链” 的能力,并在中等复杂度任务上表现出优势,但当问题复杂度超过特定临界点时,模型性能会完全崩溃至 “零准确率”。

推理深度随难度减弱:在模型推理过程中,即使仍有充足的推理算力,它们用于 “思考” 的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

精确计算能力有限:具备思维机制的大型推理模型(LRMs)在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。
研究结论:这项研究质疑了当前基于已建立数学基准的 LRMs 评估范式,强调了需要更加细致的实验设置来探索这些问题,为未来的研究指明了方向,引发了关于 AI 模型推理本质的思考。
识别二维码联系幻引AI小客服让机器理解你
https://mmbiz.qpic.cn/mmbiz_jpg/cvxulXou9Fs5Rb3c3qTM9bTQNokAdiazchLSMYpsNIfC8xHZ5uanfnHpv79TJWnDT4XY4rrCBqUpH2PZFy1y7kg/640?wx_fmt=other&wxfrom=10005&wx_lazy=1&wx_co=1&tp=webp
页: [1]
查看完整版本: 苹果机器学习研究中心发文:现有AI模型推理能力存局限