/ 币百科

谷歌将在现场国际象棋锦标赛中让顶级人工智能模型相互较量

发布时间:2025-08-05 09:00:19
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址
本站报道:

周二,谷歌将启动一场国际象棋锦标赛,让领先的人工智能模型相互竞争,直接测试机器推理能力。

此前,埃隆·马斯克周一声称,他的聊天机器人 Grok 表现出“出色的推理”能力。

该活动作为新 Kaggle 游戏竞技场的一部分拉开帷幕,该竞技场是一个在实时竞争环境中测试通用人工智能代理的平台。

首届锦标赛将以每日象棋为特色火柴六种领先语言模型的版本之间:ChatGPT、Gemini、Claude、Grok、Deepseek 和 Kimi。

谷歌在一份声明中表示,与标准基准测试不同,该格式通过评估模型在压力下的思考、适应和恢复方式,将人工智能战略公开展示。

谷歌表示,希望此次比赛能够凸显其他基准测试未能发现的推理能力差异。此前,谷歌曾使用其他游戏基准测试来测试 AI 推理能力,其中包括雅达利、AlphaGo和AlphaStar。

谷歌表示:“提交的内容将通过定期更新的贝叶斯技能评级系统进行排名,从而实现严格的长期评估。”

贝叶斯系统使用概率根据与其他竞争对手的表现来更新玩家的技能评级。

首场国际象棋比赛将在 OpenAI 的 o4 mini 与 DeepSeek-R1、Gemini 2.5 Pro 与 Claude Opus 4、Moonshot AI 的 Kimi K2 Instruct 与 OpenAI 的 o3 以及 Grok 4 与 Gemini 2.5 Flash 之间进行。

国际象棋长期以来一直作为证明人工智能的基础。

在1997年的一场历史性比赛中,IBM的“深蓝”击败了俄罗斯国际象棋大师、前世界冠军加里·卡斯帕罗夫。谷歌的新锦标赛延续了这一传统,但加入了语言模型。

比赛将在YouTube上进行直播。每轮比赛采用四局两胜制,获胜者将通过单败淘汰赛晋级。最终排名前两名的模特将在金牌争夺赛中一决高下。

谷歌在 X 上写道:“游戏非常适合人工智能评估,因为它们可以帮助我们了解模型如何处理复杂的推理任务。许多游戏是现实世界技能的代表,可以测试模型在战略规划、适应和记忆等领域的能力。”

观众将能够看到每个模型每个动作背后的推理。谷歌表示,这种透明度对于评估模型是在真正思考问题,还是仅仅在模仿训练数据至关重要。

然而,在 Kaggle Game Arena 讨论板上,关于比赛开始后 LLM 将如何表现的问题仍然存在。

“如果在所有允许的重新思考次数都用尽后,模型仍然建议非法走法,会发生什么情况?”一位用户问道。“它会立即输掉比赛,跳过这一回合,还是以某种方式被取消资格?”

“这确实让我感到疑惑,我们在这里看到的是真正的推理,还是仅仅是基于模式的猜测?”另一个人问道。

谷歌表示,计划在未来的活动中将 Kaggle 游戏竞技场扩展到国际象棋以外的领域。目前,本次首届锦标赛将作为一项公开压力测试,以检验当今最先进的模型在实时战略决策方面的表现。

谷歌 DeepMind 联合创始人兼首席执行官 Demis Hassabis 表示:“游戏一直是人工智能的有益试验场,包括我们自己在 AlphaGo 和 AlphaZero 上的工作。”写道在 X 上。“我们很高兴看到这个基准将推动的进步,因为我们在竞技场中添加了更多的游戏和挑战 - 我们期待看到快速的进步!”

谷歌没有立即回应解密请求评论。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com