来源:来球网
2025-03-04 16:48:03
需要明确的是,此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中,并通过一个名为 GamingAgent 的框架与 AI 进行连接,从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发,其向 AI 提供基本指令,例如“如果附近有障碍物或敌人,向左移动或跳跃以躲避”,同时还提供游戏内的截图。随后,AI 通过生成 Python 代码的形式来操控马力欧。
据实验室介绍,该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是,实验发现像 OpenAI 的 o1 这样的推理模型(它们通过逐步思考问题来得出解决方案)表现不如“非推理”模型,尽管它们在大多数基准测试中通常表现更强。研究人员指出,推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中,时机至关重要,一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。
数十年来,游戏一直是衡量 AI 性能的重要工具。然而,一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比,游戏往往是抽象且相对简单的,并且能够为 AI 训练提供理论上无限的数据。
IT之家注意到,最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西(Andrej Karpathy)所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道:“我目前真的不知道该关注哪些 AI 指标。”他总结道:“我的反应是,我目前真的不知道这些模型到底有多好。”
相关新闻
历史上最混乱开发过程!爆料称GTA6因剧情推翻3次而拉长开发周期
来源 : 来球网2025-06-18 08:47:50
《哪吒2》海外票房将突破1亿美元,20年来中国电影"出海"最好成绩
来源 : 来球网2025-06-18 08:47:50
美测服18日改动:龙龟W、豹女Q、千珏R等加强,卡牌R削弱
来源 : 来球网2025-06-18 08:47:48
Doinb:完了下版本卡牌瑞兹全削,我左右手全断了
来源 : 来球网2025-06-18 08:47:48
生化危机9:安魂曲女主官方介绍:因母亲离世变得沉默寡言的FBI分析员
来源 : 来球网2025-06-18 08:47:45
首轮就看中韩?!BLG晋级正赛对阵情况一览:一半概率交手GEN 而AL要直面T1
来源 : 来球网2025-06-18 08:47:45
开始熬鹰!MSI赛制公布 胜决前6场比赛半夜3点 其余比赛早上8点
来源 : 来球网2025-06-18 08:47:45
第三赛区
来源 : 来球网2025-06-18 08:47:43
TES超话热议试训辅助:light都看不上的辅助 你还要捡?
来源 : 来球网2025-06-18 08:47:37
仍立志于进世界赛!Doinb:我会从涅槃打到骑士之路 再进冒泡赛跟S赛
来源 : 来球网2025-06-18 08:47:37