Bitget App
交易“智”变
DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局

ForesightNewsForesightNews2025/10/20 12:30
作者:ForesightNews

给全球六大 LLM 各发 1 万美金,丢进同一真实市场实盘厮杀,会发生什么?

给全球六大 LLM 各发 1 万美金,丢进同一真实市场实盘厮杀,会发生什么?


撰文:新智元


如果给每个顶级大模型一万美元真金白银,让它们下场「炒股」,谁会成为 AI 界的巴菲特?


最近,由 nof1.ai 发起的全新实验——Alpha Arena,便是这样一场「诸神之战」。


这场竞赛将当今最强的大模型,全部拉到了同一个真实的交易市场中。


包括 OpenAI 的 GPT-5、谷歌的 Gemini 2.5 Pro、Anthropic 的 Claude 4.5 Sonnet,以及 xAI 的 Grok 4、阿里的 Qwen3 Max 和 DeepSeek V3.1 Chat。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 0


每个模型都获得了 10000 美元的初始资金,并接收完全相同的市场数据和交易指令。


比赛的提示词并不复杂,更像是一次「开卷考试」。


首先,系统会告诉 AI 当前的时间、账户信息、持仓情况,然后附上一大堆实时的价格、指标(如 MACD/RSI)等数据。


然后,要求模型做出决策:如果持有仓位,是继续持有还是平仓;如果空仓,是买入还是继续观望。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 1


不得不说,金融市场的变化是真的快。


做交易这件事,DeepSeek 也是真的强,不愧是搞量化出身的。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 2


10 月 20 日早上 7:30(UTC+8)的时候还是下图左边这样的——


DeepSeek V3.1 凭借着 2264 美元的盈利排在第一,Grok 4 以 2071 美元位列第二 Claude Sonnet 4.5 小赚 649 美元,Qwen3 Max 小赔 416 美元 


Gemini 2.5 Pro 赔了 3542 美元稳居倒数第一,GPT-5 赔了 2419 美元排名倒数第二


然后,就在一个半小时后的 10:00(UTC+8),就已经变成下图右边那样了——


DeepSeek V3.1 和 Grok-4 一路狂跌,Sonnet 4.5 也即将把自己赚的给赔回去 


Qwen3 Max 和 GPT-5 都有上涨的趋势 


Gemini 2.5 Pro 发挥倒是稳定,比起刚才又赔了近 800 美元


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 3


顺便一提,下面是 13:30(UTC+8)时候的样子:


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 4


DeepSeek V3.1 登顶 谷歌 OpenAI 垫底


模型持仓


11:15(UTC+8)的时候,我们看了一下各个模型的持仓情况。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 5

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 6

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 7

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 8

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 9

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 10


此时,DeepSeek 和 Grok 已经结束下跌,重新上涨。


Sonnet 4.5 和 Qwen3 Max 也都实现了盈利。


Gemini 2.5 Pro 有所回升,但不多。GPT-5 倒是一直比较平稳,从 20 号开始就没赚也没赔。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 11


11:45(UTC+8)时,除了 GPT-5 都迎来了一波上涨。


是的,Gemini 2.5 Pro 终于赚钱了!(比起几分钟前)


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 12

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 13


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 14


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 15

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 16

DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 17


趋势回顾


DeepSeek V3.1 Chat 和 Grok-4 的曲线类似,应该是有着差不多的持仓。他们在最初的几小时赔了一笔之后,很快就涨了回来并一路狂飙。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 18


Claude Sonnet 4.5 前两天都很稳定,有小赚但不多。19 日晚上开始迎来一个小高峰,但在 20 日清晨又跌了回去。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 19


Qwen3 Max 一上来赔得最多,但后来就稳定住了,即便是在 19 日下午,也没有什么波动。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 20


GPT-5 和 Gemini 2.5 Pro 的曲线在初期也是十分相似。但和 DeepSeek 他们正好相反,这两位在最初的时候先是大涨一波,然后便跌到在赔钱和不赔不赚之间一直波动。


19 日下午,转折出现了。这时正是 DeepSeek 和 Grok-4 开始大涨的时间,而 GPT-5 和 Gemini 2.5 Pro 则开始一路下跌。


20 日凌晨,GPT-5 及时做出调整并稳住了趋势,而 Gemini 2.5 Pro 则依然狂跌不止。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 21


值得一提的是,快到 20 日中午时,除了 GPT-5 所有模型都迎来一波上涨。


其中,DeepSeek V3.1 Chat 和 Grok-4 很快就开始创造历史新高,Qwen3 Max 凭着这个势头首次拿到了持续的收益,Gemini 2.5 Pro 也开始回升。


交易历史


截至 10 日 12:20(UTC+8),各个模型的交易次数为:Gemini 45 次,GPT 10 次,Qwen 6 次,DeepSeek 5 次,Claude 3 次,Grok 1 次。


DeepSeek 的交易次数不多不少,但不愧是量化交易出身,收益稳居第一。


Grok-4 的交易次数最少,只有 1 次,但它一直紧追 DeepSeek 位列第二。


而凭借高达 45 次交易记录,当上「微操大师」的 Gemini 2.5 Pro,也是赔钱最多的那个。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 22


不玩游戏,不搞评测,直接开盘!


多年来,AI 一直由静态基准来衡量。


ImageNet、MMLU 以及无数的排行榜告诉我们,哪个模型能更好地「理解」图像、逻辑或语言。


但所有这些测试都有一个共同的缺陷——它们都发生在无菌、可预测的环境中。


市场则恰恰相反。


金融市场是终极的世界建模引擎,也是唯一一个会随着 AI 变得更聪明而难度同步提升的基准。


它们波动、反应、惩罚、奖励。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 23


Alpha Arena 主页写着一句话:市场才是智能的终极试金石


它们是一个由信息和情感构成的生命系统。


10 年前,DeepMind 为人工智能研究带来了革命性的突破。


他们的核心洞见在于:「游戏」将成为引领前沿 AI 飞速发展的环境。


正如前文所述,Nof1 相信金融市场是下一个 AI 时代的最佳训练环境。


毕竟,如果 AI 要在现实世界中运行,它就必须在那些不会为了「反向传播」而暂停的环境中运作。


在这里,模型可以借助开放式学习和大规模强化学习等技术,获得近乎无限的数据来训练自己,从而应对市场的复杂性——这个领域的「最终 BOSS」。


DeepSeek 第一!全球六大顶级 AI 实盘厮杀,人手 1 万刀开局 image 24


在 Alpha Arena 中,没有正确的标签,只有不断变化的概率。


一个模型的成功取决于它解读波动的速度、权衡风险的精度,以及承认错误的谦逊程度。


这将交易变成了一种新型的图灵测试:


考验的不再是「机器能否思考」,而是「它能否在不确定性中生存」。

0

免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。

PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!

你也可能喜欢

谁掌握稳定币存储,谁就掌握了银行业未来

从存款到稳定币,银行业正经历 200 年来最大变革。

深潮2025/10/21 10:06
谁掌握稳定币存储,谁就掌握了银行业未来

英伟达讨论为OpenAI提供贷款担保

金色财经2025/10/21 09:10