任天堂游戏竟成AI测试新宠？超级马力欧兄弟超越宝可梦-塞西尔游戏网

更新时间：2025-04-02来源：网络

AI 挑战宝可梦

上个月，一家美国的人工智能公司在其平台上运用了最新的模型3.7，参与了《宝可梦·红》这款游戏。经过对多款游戏的测试，研究团队觉得《宝可梦》是检验3.7性能的一个不错的方式。在游戏中，我们观察到了3.7的思考过程，它成功夺得了三个道馆徽章，这初步展示了人工智能在游戏领域的应用潜力。

马力欧成新测试热点

马力欧限量版_马力欧限定_

今天，一个研究团队指出，《超级马力欧兄弟》这款游戏非常适合用作AI测试平台。就在上周五，加州大学圣地亚哥分校的Hao AI Lab专门为这款游戏设计了一套带有特定框架的测试方案。他们向AI输入了基本的操作指令和游戏画面，AI通过编写代码来操控游戏角色。结果显示，3.7版本的AI表现最为出色。

不同游戏测试难度对比

马力欧限量版__马力欧限定

《宝可梦》让人深思，它运用的是回合制战斗模式。相较之下，《超级马力欧兄弟》更看重“时间”这一关键点。在推理层面，《超级马力欧兄弟》的难度更高，一旦决策出现错误，就可能错过安全区域，甚至直接导致失败。这显示了不同游戏对人工智能的挑战各有其特点。

游戏测试 AI 的历史

游戏长久以来都是检验人工智能水平的重要手段。2019年，一场Five技能的竞赛吸引了广泛关注，Five在比赛中击败了经验丰富的Dota 2战队，在线上更是战胜了99.4%的玩家。然而，研究者们很快转变了研究方向，不再将游戏作为评价依据，而是转向了自然语言处理等新领域的研究。

_马力欧限定_马力欧限量版

游戏测试 AI 的争议

人工智能在游戏开发中的应用令人鼓舞，对商业领域也有益处，但据某机构前首席AI科学家所言，这类AI除了在游戏界有所应用外，并未给世界带来真正的价值。游戏构建的虚拟环境既抽象又简单，与真实世界有很大不同。如果不能适应环境变化，它们在应对时代挑战时将难以发挥作用。

AI 评测的危机

GPT-4.5问世之后，研究者发现AI评估领域面临了难题，对哪些AI指标应当关注感到迷茫。尽管大家普遍认为GPT-4.5独特且富有情感，但对其“品味”进行评价却十分困难，这已经成为AI研究领域需要关注的问题之一。

大家普遍好奇，AI是否能在玩游戏的进程中，掌握那些在现实生活同样适用的技能？

_马力欧限量版_马力欧限定