
资料来源:DeepTech最近,关于大型合理模型能力的学术辩论导致了AI研究领域的挑衅。苹果发表了质疑诸如DeepSeek-R1之类的大型羞耻模型的基本能力的角色之后,许多社区研究人员在这里询问,谁认为苹果的结论更像是“当它无法吃葡萄时,据说葡萄是酸的。”同时,关于研究本身的内容的严格怀疑彼此相处,甚至AI模型本身也参与了这场激烈的辩论。来自开放慈善事业的研究人员A.法律使用克劳德·奥普斯(Claude Opus)为第一作者出版了反驳论文的标题,题为《思想幻想的幻想:对Shojaee等人的评论》。 (2025))。正如我们先前的报告中所详述的那样,苹果研究团队要求该模型解决各种难题,发现在削减了大型理解模型之后,例如DeepSeek-R1,O3-Mini和Claude-3.7-Sonnet-The墨水,在超过特定的复合阈值之后,准确度将完全下降。据苹果研究团队称,这表明这些模型实际上没有一般的推理能力,而只能进行某种形式的模式匹配。例如,该模型可以在汉诺威塔中完成多达100个正确的操作,但是它不能为穿越河难题的逻辑推理游戏提供正确的5个步骤。然而,这本反驳论文以及其他相关问题都指出了一个大问题:苹果团队的发现主要反映了实验设计的某些局限性,而不是基本的模型推理失败。第一个主要问题是“物理令牌限制将跌落到外观上。”克劳德(Claude)的研究发现,在苹果报道的那一刻,汉诺威塔实验系统地超出了模型模型的输出极限。该论文引用了X用户 @scaing01繁殖经验听取,捕获模型的输出清楚地表明:“模式继续进行,但是为了避免太长,我会在这里停留”。 @scaling01指出,汉诺威塔至少需要2^n-1的移动,而苹果使用的输出格式需要10个令牌,包括每个运动的某些常数。更重要的是,多种模型的输出极限差异很大:十四行诗3.7是128K令牌,DeepSeek R1为64K令牌,O3-Mini为100K令牌,这些限制还包括该模型在输出最终答案之前使用的推理。照片|相关的推文(来源:x)这意味着当超过13个板集中时,所有模型的准确性都为零,因为它们不能输入许多内容。 @Scaleing01计算出没有任何理解空间的最大求解尺寸为:DeepSeek 12板,十四行诗3.7和O3-Mini 13板。当实际观察模型的输出时,您会发现如果问题变得压倒性,模型不是即使是问题的原因,但也会直接说“由于动作的数量大量,我将解释解决方案,而不是列出所有32,767个动作 - 一个。克劳德(Claude)的论文衡量了关系:苹果的审查格式需要一个完整的子注射的输出 - 以遵循每个步骤的过渡,从而导致令牌的次要增长。如果以下每一个中的运动需要大约5个令牌,则令牌t(n)≈5(2^n -1)^2 + C的总需求给定预算,可以通过物理公式完全预测大小的最大大小,而报告的“崩溃”与物理障碍物完全相同。 @scaping01还发现了一个有趣的现象:对于十四行诗,一旦超过7个盘子,就不会试图解决问题。它解释了问题是什么以及解决该问题的算法,然后在不考虑各个步骤的情况下输出解决方案。赌徒的模式是进一步支持CLAude Paper的观点是,了解模型和算法的问题仅限于输出格式。在河流穿越的实验中出现了更严重的问题。提到克劳德(Claude)的作用是,苹果队(Apple Team)曾尝试使用中等容量b = 3的n≥6个演员的示例,但这是一个长期以来的数学结果:拼图 - 大麻拼图及其变体在n 5和b = 3中没有解决方案。通过自动划分这些纯度检查的不可能的情况,该模型的风险不得依赖于n 5和b = 3。问题。 @Scaleing01检查从不同角度测量复杂性的问题。她说,苹果关于使用最佳路径长度作为问题的复杂性的委托指标的研究是错误的,因为它并没有告诉我们找到任何解决方案有多么困难,只是告诉我们它有多长时间。虽然汉诺威的拖车ER的发现空间很大,您实际上不必进行任何搜索或回溯,因为只有一个简单的规则可以应用(大语言模型),因此只有一条可能的路径。为了测试这一点, @scaling01让O3和Gemini 2.5 Pro搜索游戏复杂性的其他更合适的指标,并继续在游戏中排名难度为:River Crossing,Building Bloce Block World,Checkers,Checkers,Checkers,Checkers,Chablesing,Hannover Tower,Tower of Hannover。该等级也显示在Apple ResearchAng图表中显示器Apple Team模型在具有较低组合和具有较高组合的不同难题的难题中可能会遇到困难”。这一发现毫不奇怪,但充分期望。除了上述问题外,研究人员还质疑了使用良好的拼图,例如探索他们的能力,以探索他们的能力,以探索他们的能力,以探索他们的能力,以探索他们的能力,以探索他们的能力,以探索他们的能力,而不是探索他们的能力,而不是探索他们的能力,并且可以理解能力,从而探索了他们的能力,并且可以探索自己的能力。拼图训练我的用户指出,这就像说“语言模型在撰写petrarch十四行诗方面都不比GPT-3.5更好,所以我认为没有真正的发展”。照片丨相关的博客文章(来源:Sean Goedecke)关于苹果的研究声称“阈值的复杂性”意味着该模型无法推理,许多网民将问题传递给灵魂:“有多少人可以坐着并计算一千个汉诺威塔的步骤?”答案非常罕见。但这是否意味着那些无法做到或不这样做的人无法推理?当然不是。他们只是缺乏耐心和敏锐的角色来执行数千次无聊的迭代。正如Reddit用户所说的那样:“人们可以理性并不意味着人们有能力以数千个步骤编写河内塔。相反,河内的塔并不意味着它并不意味着它无法理解。”当然,对“拟人化”模型行为的这种解释不与争议。另一批评论员认为,对模型行为的描述是“不愿”或“寻找捷径”是一个过多的含义。他们指出,关键是当模型面临更复杂的8、9和10个磁盘问题时,尽管无法成功地导出一般的递归算法,这足以证明其推理能力开始变得脆弱,可以简单地模仿理解简单情况的模式。为了进一步表明问题在于检查帕马拉斯的能力,而不是模型,克劳德的研究进行了关键的实验。他们尝试了汉诺威n = 15塔的同一模型,但使用了另一种表示形式:驱逐驱逐lua函数所需的模型,该函数在调用时促进了解决方案,而不是完整枚举所有移动步骤。结果表明,测试模型中的准确性率很高,完成到不到5,000个令牌。生成的解决方案是正确的由递归算法构成的,该算法显示了模型的完整能力,即当删除完整枚举的要求时。论文得出的结论是,苹果的发现实际上显示了工程学的一些重要观点:该模型无法输出令牌超过上下文限制,编程测试是Maaaalso错过了模型的能力和拼图本身,解决方案的长度无法很好地预测问题的难度。但是,这些都不支持其“模型存在重大缓解限制”的基本主张。 “问题的关键是,大型理解模式可能原因是我们的审查系统可以区分推理和'键入'的能力。”参考:1.https://arxiv.org/pdf/2506.09250v12.https://www.seangoedecke.com/illusion-com/illusion-of-hinking/3.https://x.com/scaling01/status/status/status/19317851178511251126954工具/类型: