当前位置:首页 > 软件教程 > AI大战经典游戏!谁才是超级马力欧兄弟的真正王者?

AI大战经典游戏!谁才是超级马力欧兄弟的真正王者?

更新时间:2025-04-02来源:网络

研究背景

当前科技发展迅猛,人工智能的性能测试成为了焦点。上周,加州圣地亚哥分校的Hao人工智能实验室选择了《超级马力欧兄弟》这款经典游戏,用它来测试AI的能力。过去,游戏一直是评估AI成就的工具,这次用马力欧游戏来测试,有助于我们更全面地了解AI的表现。

实验室长期专注于AI领域的深入研究,这次他们别具一格地挑选了游戏作为实验平台,意在在新的环境中挖掘AI的潜能。这一研究有望为AI的未来发展带来新的洞见和思路。

_AI玩《超级马力欧兄弟》:Claude 3.7操作最溜,推理模型表现不佳_AI玩《超级马力欧兄弟》:Claude 3.7操作最溜,推理模型表现不佳

测试方法

这次测试并未采用1985年发布的《超级马力欧兄弟》的原始版本。游戏是在模拟器上运行的,并且通过一个我们自主研发的框架与人工智能系统相连。这个框架使得AI能够操控马力欧。此外,实验室还向AI输出了基础操作指令,例如“注意前方有障碍或敌人,请向左移动或跳跃以避开”,并且还提供了游戏截图。

AI能够以代码形式控制马力欧。这一过程犹如为AI安排了一场“考试”,目的是观察其在游戏环境中的问题解决能力。借助严格的测试手段,实验室得以准确评估每个AI模型在游戏中的实际表现。

模型表现

在参与测试的AI模型里,3.7的表现最为出色。它能够迅速作出反应,规划出行路径,游戏操作显得很流畅。排在第二位的是3.5,同样显示了不错的游戏技巧,能够在复杂环境中灵活应对。

_AI玩《超级马力欧兄弟》:Claude 3.7操作最溜,推理模型表现不佳_AI玩《超级马力欧兄弟》:Claude 3.7操作最溜,推理模型表现不佳

相较之下,谷歌的1.5 Pro和GPT-4o的表现不尽理想。它们在应对游戏中的各种情形时,反应迟缓,操作不够精确,因而游戏进程和得分都不太令人满意。

推理与非推理模型差异

在实验中,我们发现o1这类推理模型的表现并不如“非推理”模型。通常情况下,推理模型在多数基准测试中表现得更为出色,然而在这场实时游戏中,它们却遭遇了挫折。原因在于,它们需要数秒钟的时间来做出决策。

在《超级马力欧兄弟》这款游戏中,时间把握至关重要,稍纵即逝的一秒差异,可能导致结果截然不同。非推理模型因其反应迅速,能捕捉到游戏中稍纵即逝的机遇,因此在游戏中表现更为出色。

游戏测试质疑

尽管游戏在数十年的时间里一直是评估人工智能性能的关键手段,然而,一些专家对将AI在游戏中的表现直接等同于技术发展的做法表示了怀疑。相较于现实世界,游戏往往更趋于抽象和简单,同时也能为AI的训练提供大量的数据支持。

在游戏环境中,AI的表现或许不能充分展示其在真实复杂环境中的实力。即便是一些出色的游戏基准测试成绩,也引发了人们所谓的“评估困境”。

后续思考

尽管对此有不同看法,看AI操作马力欧依然挺有意思。未来研究或许能更好地结合游戏和现实环境测试,全面评估AI的表现。此外,我们还需考虑如何提升AI在多变复杂环境中的适应能力。

AI的发展之路尚且漫长,此次通过游戏进行AI测试仅是初步的探索。我们热切期待未来能有更多创新和优化,让AI在各行各业都能展现出其高效潜能。

AI玩《超级马力欧兄弟》:Claude 3.7操作最溜,推理模型表现不佳_AI玩《超级马力欧兄弟》:Claude 3.7操作最溜,推理模型表现不佳_