AI大战经典游戏！谁才是超级马力欧兄弟的真正王者？-塞西尔游戏网

更新时间：2025-04-02来源：网络

研究背景

当前科技发展迅猛，人工智能的性能测试成为了焦点。上周，加州圣地亚哥分校的Hao人工智能实验室选择了《超级马力欧兄弟》这款经典游戏，用它来测试AI的能力。过去，游戏一直是评估AI成就的工具，这次用马力欧游戏来测试，有助于我们更全面地了解AI的表现。

实验室长期专注于AI领域的深入研究，这次他们别具一格地挑选了游戏作为实验平台，意在在新的环境中挖掘AI的潜能。这一研究有望为AI的未来发展带来新的洞见和思路。

_AI玩《超级马力欧兄弟》：Claude 3.7操作最溜，推理模型表现不佳_AI玩《超级马力欧兄弟》：Claude 3.7操作最溜，推理模型表现不佳

测试方法

这次测试并未采用1985年发布的《超级马力欧兄弟》的原始版本。游戏是在模拟器上运行的，并且通过一个我们自主研发的框架与人工智能系统相连。这个框架使得AI能够操控马力欧。此外，实验室还向AI输出了基础操作指令，例如“注意前方有障碍或敌人，请向左移动或跳跃以避开”，并且还提供了游戏截图。

AI能够以代码形式控制马力欧。这一过程犹如为AI安排了一场“考试”，目的是观察其在游戏环境中的问题解决能力。借助严格的测试手段，实验室得以准确评估每个AI模型在游戏中的实际表现。

模型表现

在参与测试的AI模型里，3.7的表现最为出色。它能够迅速作出反应，规划出行路径，游戏操作显得很流畅。排在第二位的是3.5，同样显示了不错的游戏技巧，能够在复杂环境中灵活应对。

_AI玩《超级马力欧兄弟》：Claude 3.7操作最溜，推理模型表现不佳_AI玩《超级马力欧兄弟》：Claude 3.7操作最溜，推理模型表现不佳

相较之下，谷歌的1.5 Pro和GPT-4o的表现不尽理想。它们在应对游戏中的各种情形时，反应迟缓，操作不够精确，因而游戏进程和得分都不太令人满意。

推理与非推理模型差异

在实验中，我们发现o1这类推理模型的表现并不如“非推理”模型。通常情况下，推理模型在多数基准测试中表现得更为出色，然而在这场实时游戏中，它们却遭遇了挫折。原因在于，它们需要数秒钟的时间来做出决策。

在《超级马力欧兄弟》这款游戏中，时间把握至关重要，稍纵即逝的一秒差异，可能导致结果截然不同。非推理模型因其反应迅速，能捕捉到游戏中稍纵即逝的机遇，因此在游戏中表现更为出色。

游戏测试质疑

尽管游戏在数十年的时间里一直是评估人工智能性能的关键手段，然而，一些专家对将AI在游戏中的表现直接等同于技术发展的做法表示了怀疑。相较于现实世界，游戏往往更趋于抽象和简单，同时也能为AI的训练提供大量的数据支持。

在游戏环境中，AI的表现或许不能充分展示其在真实复杂环境中的实力。即便是一些出色的游戏基准测试成绩，也引发了人们所谓的“评估困境”。

后续思考

尽管对此有不同看法，看AI操作马力欧依然挺有意思。未来研究或许能更好地结合游戏和现实环境测试，全面评估AI的表现。此外，我们还需考虑如何提升AI在多变复杂环境中的适应能力。

AI的发展之路尚且漫长，此次通过游戏进行AI测试仅是初步的探索。我们热切期待未来能有更多创新和优化，让AI在各行各业都能展现出其高效潜能。

AI玩《超级马力欧兄弟》：Claude 3.7操作最溜，推理模型表现不佳_AI玩《超级马力欧兄弟》：Claude 3.7操作最溜，推理模型表现不佳_