要点
- 苹果研究人员认为,性能基准可能夸大了人工智能的推理能力。
- 在一项实验中,他们发现即使对基准问题进行微小的改变也会导致性能显着下降。
- 他们得出的结论是,这表明人工智能模型依赖于“复杂的模式匹配,而不是真正的逻辑推理”。
根据常用的基准,前沿大型语言模型(LLM)现在已经超越了普通人解决数学问题和执行复杂推理的能力。
比如最近OpenAI的o1模型 超越人类专家 关于博士级别的科学问题。
然而,一群苹果研究人员(Mirzadeh 等人)最近强调了人工智能性能评估方式的一个重大缺陷。
通过稍微改变问题的措辞,OpenAI、Google、Anthropic 和 Meta 的领先模型发现他们正确回答问题的能力崩溃了。
人工智能基准的局限性
标准化 人工智能基准测试 可以比较不同模型的性能。然而,如果人工智能开发人员只使用一组有限的基准来衡量智力,他们就会冒着创建模型的风险,这些模型在有限的相同预定任务上表现得非常好,但在野外却陷入困境。
为了探讨这个问题,Mirzadeh 等人。修改了常用的 GSM8K 基准——一组 8,500 道小学数学应用题。
研究人员 成立 即使是诸如更改名称之类的表面变化也会对模型性能产生负面影响。
当他们改变这些值时,性能下降得更明显。当他们完全重新表述问题时,下降幅度最显着。例如,添加一个不相关的子句会导致性能下降高达 65%。
有趣的是,研究人员在他们测试的所有模型中都观察到了这种“数学推理的脆弱性”,包括 OpenAI 的 o1 等所谓的思想链 (CoT) 模型,这些模型旨在 能够进行复杂的推理。
思想链的兴起
思想链最初是作为提示工程的一种形式出现的,它将复杂的提示分解为一系列中间步骤。
尽管该技术被磨练为开发人员可以应用于的附加阶段 法学硕士 根据提示,一些模型现在将 CoT 纳入其架构中。
引入 CoT 后,OpenAI 的 o1 比其前辈具有更强的复杂推理能力。该模型的首席开发人员 卢卡斯凯撒 认为新的设计方法代表了法学硕士的转变,这将导致更具体的逻辑过程。
然而,尽管 o1 取得了明显的进步,但它也受到了苹果研究人员在其他模型中观察到的同样脆弱的推理的影响。
人工智能仍然无法进行正式推理
尽管性能大幅提升,研究人员得出的结论是,即使是最复杂的法学硕士操作“也更像是复杂的模式匹配,而不是真正的逻辑推理”。
尽管如此,他们的研究结果确实表明基于 CoT 的方法正在朝着正确的方向发展。
在所有评估的模型中,o1 在常规 GSM8K 问题和修改后的问题之间经历了最小的性能下降。换句话说,虽然它的推理被发现是脆弱的,但它是 较少的 比其他型号脆弱。
这篇文章有帮助吗?