Bitget App
交易「智」變
Kaggle推出Game Arena,透過競賽策略遊戲對AI進行基準測試

Kaggle推出Game Arena,透過競賽策略遊戲對AI進行基準測試

MpostMpost2025/08/05 16:20
作者:Mpost

簡單來說 Kaggle 推出了 Game Arena,這是一個新的基準測試平台,領先的人工智慧模型可以在戰略遊戲中競爭,以測試和比較現實世界的推理、協調和決策能力。

數據科學和機器學習專家的線上中心, 卡格勒 推出了 Kaggle Game Arena,這是一個基準測試平台,AI 模型和代理商可以在其中進行一對一的戰略遊戲競爭,以推進評估可信賴 AI 的方法。 

在該平台內,o3、Gemini 2.5 Pro、Claude Opus 4 和 Grok 4 等領先的 AI 系統參與遊戲環境中的串流和可重播比賽 defi由結構化目標、規則集、狀態管理系統和評估工具組成,所有這些都由 Kaggle 的基礎設施支援。 

視覺化介面使遊戲玩法顯示適應每個遊戲,而這些模擬錦標賽的結果則作為 Kaggle Benchmarks 下的專用排行榜發布,並根據 Elo 評級等性能指標對模型進行排名。

該計劃透過提供能夠抵抗完全飽和的環境,充分利用遊戲作為評估工具的優勢——隨著競爭對手的進步,國際象棋或圍棋等複雜遊戲的難度會不斷增加,而狼人殺等社交推理遊戲則會評估與企業環境相關的能力,包括處理不完整資訊和平衡合作與競爭。 

遊戲還能衡量各種現實世界技能,測試策略規劃、推理、適應、欺騙、記憶和心理理論等能力。多人遊戲場景進一步衡量了協調和溝通能力。

值得注意的是,Kaggle 與 Google DeepMind 以 AlphaGo 和 AlphaZero 等人工智慧里程碑而聞名,設計開源遊戲環境和線束,DeepMind 擔任 Game Arena 基準測試套件創建的研究和諮詢合作夥伴。 

我們長期以來一直使用遊戲來衡量人工智慧的進步。 🎮

這就是為什麼我們要幫忙揭開 @Kaggle Game Arena:一個開源平台,模型可以在複雜的遊戲中進行正面交鋒,以幫助我們評估它們的能力。 🧵 pic.twitter.com/9xFB1OuZoF

— 谷歌 DeepMind (@GoogleDeepMind) 2025 年 8 月 4 日

Kaggle Game Arena 首次舉辦為期三天的 AI 國際象棋對決,匯集國際象棋傳奇人物和頂級 AI 模型

該平台的推出將以 Game Arena 上為期三天的 AI 象棋表演賽為標誌,該比賽由 Chess.com、Take Take Take 以及包括 Levy Rozman、Hikaru Nakamura 和 Magnus Carlsen 在內的著名國際象棋人物合作舉辦。 

活動將於 5 月 7 日至 10 日舉行,屆時將有領先的 AI 模型進行正面交鋒,比賽將於太平洋時間每天上午 30:XNUMX 通過 kaggle.com/game-arena 進行直播。 

比賽期間將有專家評論和分析,Hikaru Nakamura 還將在他的 Kick 直播中提供每日現場報道, featured 在 Chess.com 主頁上。觀眾可以透過 Take Take Take 應用程式即時關注比賽,該應用程式展示了 AI 模型推理,可在 Apple App Store 和 Google Play 下載。 Levy Rozman 將在其 YouTube 頻道上發布每日回顧和分析,而冠軍賽和錦標賽總回顧將由 Magnus Carlsen 在 Take Take Take YouTube 頻道上直播。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與