找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 203|回复: 0

苹果机器学习研究中心发文:现有AI模型推理能力存局限

[复制链接]
发表于 2025-6-9 13:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
当地时间6月6日,苹果机器学习研究中心发表了一篇研究论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》。
w1.jpg
论文指出,现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言,其推理能力存在根本性局限。相关内容如下:
    研究对象:苹果研究人员对 OpenAI 的 o3 - mini、DeepSeek - R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking 等前沿 “大型推理模型” 进行了系统评估。研究方法:研究人员构建了汉诺塔问题、跳棋交换问题、过河问题以及积木世界四类结构化谜题任务,通过调整参数实现对难度的精确控制,以此系统性地测试模型在不同复杂度下的应对表现。
    w2.jpg
    研究发现:
      性能随复杂度下降:尽管这些模型具备生成详细 “思考链” 的能力,并在中等复杂度任务上表现出优势,但当问题复杂度超过特定临界点时,模型性能会完全崩溃至 “零准确率”。

      推理深度随难度减弱:在模型推理过程中,即使仍有充足的推理算力,它们用于 “思考” 的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

      精确计算能力有限:具备思维机制的大型推理模型(LRMs)在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。
    研究结论:这项研究质疑了当前基于已建立数学基准的 LRMs 评估范式,强调了需要更加细致的实验设置来探索这些问题,为未来的研究指明了方向,引发了关于 AI 模型推理本质的思考。
识别二维码联系幻引AI小客服让机器理解你
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-7-9 07:40 , Processed in 0.110072 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表