Kaggle推出Game Arena,透過競賽策略遊戲對AI進行基準測試
簡單來說 Kaggle 推出了 Game Arena,這是一個新的基準測試平台,領先的人工智慧模型可以在戰略遊戲中競爭,以測試和比較現實世界的推理、協調和決策能力。
數據科學和機器學習專家的線上中心, 卡格勒 推出了 Kaggle Game Arena,這是一個基準測試平台,AI 模型和代理商可以在其中進行一對一的戰略遊戲競爭,以推進評估可信賴 AI 的方法。
在該平台內,o3、Gemini 2.5 Pro、Claude Opus 4 和 Grok 4 等領先的 AI 系統參與遊戲環境中的串流和可重播比賽 defi由結構化目標、規則集、狀態管理系統和評估工具組成,所有這些都由 Kaggle 的基礎設施支援。
視覺化介面使遊戲玩法顯示適應每個遊戲,而這些模擬錦標賽的結果則作為 Kaggle Benchmarks 下的專用排行榜發布,並根據 Elo 評級等性能指標對模型進行排名。
該計劃透過提供能夠抵抗完全飽和的環境,充分利用遊戲作為評估工具的優勢——隨著競爭對手的進步,國際象棋或圍棋等複雜遊戲的難度會不斷增加,而狼人殺等社交推理遊戲則會評估與企業環境相關的能力,包括處理不完整資訊和平衡合作與競爭。
遊戲還能衡量各種現實世界技能,測試策略規劃、推理、適應、欺騙、記憶和心理理論等能力。多人遊戲場景進一步衡量了協調和溝通能力。
值得注意的是,Kaggle 與 Google DeepMind 以 AlphaGo 和 AlphaZero 等人工智慧里程碑而聞名,設計開源遊戲環境和線束,DeepMind 擔任 Game Arena 基準測試套件創建的研究和諮詢合作夥伴。
Kaggle Game Arena 首次舉辦為期三天的 AI 國際象棋對決,匯集國際象棋傳奇人物和頂級 AI 模型
該平台的推出將以 Game Arena 上為期三天的 AI 象棋表演賽為標誌,該比賽由 Chess.com、Take Take Take 以及包括 Levy Rozman、Hikaru Nakamura 和 Magnus Carlsen 在內的著名國際象棋人物合作舉辦。
活動將於 5 月 7 日至 10 日舉行,屆時將有領先的 AI 模型進行正面交鋒,比賽將於太平洋時間每天上午 30:XNUMX 通過 kaggle.com/game-arena 進行直播。
比賽期間將有專家評論和分析,Hikaru Nakamura 還將在他的 Kick 直播中提供每日現場報道, featured 在 Chess.com 主頁上。觀眾可以透過 Take Take Take 應用程式即時關注比賽,該應用程式展示了 AI 模型推理,可在 Apple App Store 和 Google Play 下載。 Levy Rozman 將在其 YouTube 頻道上發布每日回顧和分析,而冠軍賽和錦標賽總回顧將由 Magnus Carlsen 在 Take Take Take YouTube 頻道上直播。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
【首發上架】Succinct(PROVE)即將在 Bitget 上架!參與並瓜分 66,666 PROVE!
BGB持幣者8月狂歡季,"財富衝浪節" 嗨翻一夏!瓜分$10,000大獎!
CYC 理財寶產品上架,申購立享最高 20% 年化利率。
財富管理 8 月財富加碼限時活動!最高獎勵 30,000 USDT 現金!
加密貨幣價格
更多








