DeepSeek 第一！全球六大顶级 AI 实盘厮杀，人手 1 万刀开局

DeepSeek 第一！全球六大顶级 AI 实盘厮杀，人手 1 万刀开局

ForesightNews

ForesightNews2025/10/20 12:30

作者:ForesightNews

给全球六大 LLM 各发 1 万美金，丢进同一真实市场实盘厮杀，会发生什么？

给全球六大 LLM 各发 1 万美金，丢进同一真实市场实盘厮杀，会发生什么？

撰文：新智元

如果给每个顶级大模型一万美元真金白银，让它们下场「炒股」，谁会成为 AI 界的巴菲特？

最近，由 nof1.ai 发起的全新实验——Alpha Arena，便是这样一场「诸神之战」。

这场竞赛将当今最强的大模型，全部拉到了同一个真实的交易市场中。

包括 OpenAI 的 GPT-5、谷歌的 Gemini 2.5 Pro、Anthropic 的 Claude 4.5 Sonnet，以及 xAI 的 Grok 4、阿里的 Qwen3 Max 和 DeepSeek V3.1 Chat。

每个模型都获得了 10000 美元的初始资金，并接收完全相同的市场数据和交易指令。

比赛的提示词并不复杂，更像是一次「开卷考试」。

首先，系统会告诉 AI 当前的时间、账户信息、持仓情况，然后附上一大堆实时的价格、指标（如 MACD/RSI）等数据。

然后，要求模型做出决策：如果持有仓位，是继续持有还是平仓；如果空仓，是买入还是继续观望。

不得不说，金融市场的变化是真的快。

做交易这件事，DeepSeek 也是真的强，不愧是搞量化出身的。

10 月 20 日早上 7:30（UTC+8）的时候还是下图左边这样的——

DeepSeek V3.1 凭借着 2264 美元的盈利排在第一，Grok 4 以 2071 美元位列第二 Claude Sonnet 4.5 小赚 649 美元，Qwen3 Max 小赔 416 美元

Gemini 2.5 Pro 赔了 3542 美元稳居倒数第一，GPT-5 赔了 2419 美元排名倒数第二

然后，就在一个半小时后的 10:00（UTC+8），就已经变成下图右边那样了——

DeepSeek V3.1 和 Grok-4 一路狂跌，Sonnet 4.5 也即将把自己赚的给赔回去

Qwen3 Max 和 GPT-5 都有上涨的趋势

Gemini 2.5 Pro 发挥倒是稳定，比起刚才又赔了近 800 美元

顺便一提，下面是 13:30（UTC+8）时候的样子：

DeepSeek V3.1 登顶谷歌 OpenAI 垫底

模型持仓

11:15（UTC+8）的时候，我们看了一下各个模型的持仓情况。

此时，DeepSeek 和 Grok 已经结束下跌，重新上涨。

Sonnet 4.5 和 Qwen3 Max 也都实现了盈利。

Gemini 2.5 Pro 有所回升，但不多。GPT-5 倒是一直比较平稳，从 20 号开始就没赚也没赔。

11:45（UTC+8）时，除了 GPT-5 都迎来了一波上涨。

是的，Gemini 2.5 Pro 终于赚钱了！（比起几分钟前）

趋势回顾

DeepSeek V3.1 Chat 和 Grok-4 的曲线类似，应该是有着差不多的持仓。他们在最初的几小时赔了一笔之后，很快就涨了回来并一路狂飙。

Claude Sonnet 4.5 前两天都很稳定，有小赚但不多。19 日晚上开始迎来一个小高峰，但在 20 日清晨又跌了回去。

Qwen3 Max 一上来赔得最多，但后来就稳定住了，即便是在 19 日下午，也没有什么波动。

GPT-5 和 Gemini 2.5 Pro 的曲线在初期也是十分相似。但和 DeepSeek 他们正好相反，这两位在最初的时候先是大涨一波，然后便跌到在赔钱和不赔不赚之间一直波动。

19 日下午，转折出现了。这时正是 DeepSeek 和 Grok-4 开始大涨的时间，而 GPT-5 和 Gemini 2.5 Pro 则开始一路下跌。

20 日凌晨，GPT-5 及时做出调整并稳住了趋势，而 Gemini 2.5 Pro 则依然狂跌不止。

值得一提的是，快到 20 日中午时，除了 GPT-5 所有模型都迎来一波上涨。

其中，DeepSeek V3.1 Chat 和 Grok-4 很快就开始创造历史新高，Qwen3 Max 凭着这个势头首次拿到了持续的收益，Gemini 2.5 Pro 也开始回升。

交易历史

截至 10 日 12:20（UTC+8），各个模型的交易次数为：Gemini 45 次，GPT 10 次，Qwen 6 次，DeepSeek 5 次，Claude 3 次，Grok 1 次。

DeepSeek 的交易次数不多不少，但不愧是量化交易出身，收益稳居第一。

Grok-4 的交易次数最少，只有 1 次，但它一直紧追 DeepSeek 位列第二。

而凭借高达 45 次交易记录，当上「微操大师」的 Gemini 2.5 Pro，也是赔钱最多的那个。

不玩游戏，不搞评测，直接开盘！

多年来，AI 一直由静态基准来衡量。

ImageNet、MMLU 以及无数的排行榜告诉我们，哪个模型能更好地「理解」图像、逻辑或语言。

但所有这些测试都有一个共同的缺陷——它们都发生在无菌、可预测的环境中。

市场则恰恰相反。

金融市场是终极的世界建模引擎，也是唯一一个会随着 AI 变得更聪明而难度同步提升的基准。

它们波动、反应、惩罚、奖励。

Alpha Arena 主页写着一句话：市场才是智能的终极试金石

它们是一个由信息和情感构成的生命系统。

10 年前，DeepMind 为人工智能研究带来了革命性的突破。

他们的核心洞见在于：「游戏」将成为引领前沿 AI 飞速发展的环境。

正如前文所述，Nof1 相信金融市场是下一个 AI 时代的最佳训练环境。

毕竟，如果 AI 要在现实世界中运行，它就必须在那些不会为了「反向传播」而暂停的环境中运作。

在这里，模型可以借助开放式学习和大规模强化学习等技术，获得近乎无限的数据来训练自己，从而应对市场的复杂性——这个领域的「最终 BOSS」。

在 Alpha Arena 中，没有正确的标签，只有不断变化的概率。

一个模型的成功取决于它解读波动的速度、权衡风险的精度，以及承认错误的谦逊程度。

这将交易变成了一种新型的图灵测试：

考验的不再是「机器能否思考」，而是「它能否在不确定性中生存」。

0

0

免责声明：文章中的所有内容仅代表作者的观点，与本平台无关。用户不应以本文作为投资决策的参考。

PoolX：锁仓获得新代币空投

不要错过热门新币，且APR 高达 10%+

立即参与！

你也可能喜欢

哈佛大学持有的比特币 ETF 多于其持有的谷歌股票

Chaincatcher•2025/12/06 14:11

Meta推迟“Phoenix”混合现实眼镜的上市时间至2027年

金色财经•2025/12/06 12:55

贝莱德 2026 投资展望：AI 泡沫推动的全球牛市能否维系？

贝莱德 2026 年配置策略：超配美股、看好日股、警惕长债，黄金仅作为战术性操作，不视作长期对冲工具。

Chaincatcher•2025/12/06 12:30

贝莱德 2026 投资展望：AI 泡沫推动的全球牛市能否维系？

某巨鲸三日内耗资约 330 万美元买入 PIPPIN，浮盈超 74 万美元

ForesightNews•2025/12/06 11:35

热门新闻

哈佛大学持有的比特币 ETF 多于其持有的谷歌股票

Meta推迟“Phoenix”混合现实眼镜的上市时间至2027年

加密货币价格

交易热门币种

新用户可获得价值 6200 USDT 的迎新大礼包

立即成为交易者？新用户可获得价值 6200 USDT 的迎新大礼包

关于我们

关于我们联系我们海外华语社区工作机会 Bitget 博客 Bitget Token (BGB) 公告中心储备金证明保护基金友情链接西甲合作伙伴世界摩托车巡回赛合作 Blockchain4Youth Blockchain4Her 网站地图

产品

现货合约链上交易股票杠杆理财现货跟单合约跟单机器人跟单交易机器人 APIs TraderPro Web3 钱包法币 OTC Bitget Swap Telegram 应用中心 Discord 应用中心空投列表

买币

买 BTC 买 ETH 买 Doge 买 XRP 买 BGB 买 SHIB 加密货币行情比特币价格以太坊价格 Solana 价格走势图计算器比特币 ETF 币圈百科 XRP 价格 ADA 价格 Solana 价格 Trump 价格狗狗币价格 BRC-20 价格

帮助

提交反馈帮助中心官方验证通道 “反欺诈”行动页上币申请 VIP 服务机构服务资产托管下载数据福利中心好友邀请费率表报税 API

法律与风险披露

执法请求监管请求合规合规牌照反洗钱政策隐私政策服务条款风险提示

扫码下载APP

© 2025 Bitget