Sam Altman的OpenAI o3模型——於上週末隨著GPT-5的發布而被淘汰——在週四連續四場比賽中擊敗了Elon Musk的Grok 4,贏得了Google的KaggleGame ArenaAI棋藝展覽。
你可能會認為這是一場高科技巨頭的超複雜盛況,將他們的推理能力進行終極考驗,但作為開胃菜,讓我們說世界冠軍Magnus Carlsen將這兩個機器人比作“像個不懂棋子如何移動的有才華的小孩。”
這場為期三天的錦標賽於8月5日至7日舉行,迫使通用聊天機器人——是的,就是那些幫你寫電子郵件並聲稱接近人類智能的機器人——在沒有任何專業訓練的情況下下棋。沒有棋類引擎,沒有查詢走法,僅僅是隨機從互聯網上吸收的任何棋藝知識。
結果大約如你所預期的那樣優雅,強迫一個語言模型玩棋類遊戲。Carlsen在決賽中共同解說,估計這兩個AI的棋藝水平大約在剛學會規則的休閒玩家之間——約800 ELO。為了提供一些背景,他無疑是有史以來最好的棋手,ELO為2839分。這些AI的下法就像從一個損壞的PDF學習棋藝一樣。
“它們在非常好和難以理解的走法之間來回擺動,”Carlsen在比賽後的廣播中說。在某一時刻,看到Grok將它的國王直接置於危險之中,他開玩笑說它可能認為他們在玩“山頂之王”而不是棋類遊戲。
實際的比賽就像是一堂如何不下棋的大師課,甚至對於那些不懂這個遊戲的人來說。在第一場比賽中,Grok基本上白白放棄了一個重要的棋子,然後在已經落後的情況下又交換了更多的棋子,讓情況變得更糟。
第二場比賽變得更加奇怪。Grok試圖執行棋手稱之為“毒兵”的策略——這是一種風險但合法的策略,抓住一個看似免費但實際上不自由的敵方棋子。結果Grok完全抓錯了棋子,抓住了一個明顯被防守的棋子。它的皇后(棋盤上最強大的棋子)立即被困住並被捕。
到第三場比賽時,Grok似乎建立了看起來穩固的局面——良好的位置控制,沒有明顯的危險,基本上是一個可以幫助你贏得比賽的佈局。但在中局時,它基本上將球直接拋給了對手。它接連失去了多個棋子。
這實際上很奇怪,因為在與o3的比賽之前,Grok是一個相當強勁的競爭者,顯示出堅實的潛力——甚至連棋壇大師Hikaru Nakamura都稱讚它。“Grok無疑是到目前為止最好的,客觀地說,無疑是最好的。”
第四場(也是最後一場)比賽提供了唯一真正的懸念。OpenAI的o3在比賽初期犯了一個重大錯誤,這在任何合理的比賽中都是一個重大危險。正在直播比賽的Nakamura表示,儘管處於劣勢,o3仍然有“幾個技巧”可以使用。
他是對的——o3設法找回了自己的皇后,並慢慢擠出一場勝利,而Grok的殘局表現像濕紙板一樣崩潰。
“Grok在這些比賽中犯了很多錯誤,但OpenAI卻沒有,”Nakamura在他的直播中說。這與本週早些時候的情況形成了鮮明對比。
對Elon Musk來說,時機簡直糟糕透了。在Grok的強勁早期回合之後,他在X上發帖表示他的AI棋藝僅僅是“副作用”,並且xAI在棋藝上“幾乎沒有花費任何精力。”這最終被證明是低估了。
在這場“官方”棋類錦標賽之前,國際大師Levy Rozman早些時候主持了自己的比賽,使用了較不先進的模型。他尊重所有聊天機器人建議的走法,整個情況最終變成了一場完全的混亂,出現了非法走法、棋子召喚和不正確的計算。專為棋類設計的AI Stockfish最終在比賽中擊敗了ChatGPT。Altman的AI在半決賽中與Musk的AI交手,Grok敗北。因此,Sam的比分是2-0。
不過,這場比賽是不同的。每個機器人都有四次機會進行合法走法——如果他們失敗四次,就自動失去。這不是假設。在早期回合中,AI試圖在棋盤上瞬移棋子,將死棋復活,並將兵向側面移動,就像它們在玩自己發明的某種夢幻版本的棋類遊戲。
它們被取消資格。
Google的Gemini以戰勝另一個OpenAI模型獲得第三名,為比賽組織者挽回了一些尊嚴。那場銅牌賽出現了一場特別荒謬的和棋,兩個AI在不同的時間都有完全的勝利局面,但卻無法找出如何結束。
Carlsen指出,這些AI在計算被捕棋子方面比實際送上將死要更好——它們理解物質優勢,但不懂如何獲勝。這就像是擅長收集食材但無法做出一頓飯。
這些正是科技高管聲稱正在接近人類智能、威脅白領工作並徹底改變我們工作的AI模型。然而,它們卻無法在一個已存在1500年的棋類遊戲中而不試圖作弊或忘記規則。
因此,可以安全地說,我們安全了,AI目前不會控制人類。