OpenAI發布開放權重語言模型
OpenAI於週二發布了兩個開放權重語言模型,這些模型在消費者硬體上運行時,其性能與商業產品相媲美——gpt-oss-120b需要一個80GB的GPU,而gpt-oss-20b則可在僅有16GB記憶體的設備上運行。
這些模型在Apache 2.0授權下可用,並在推理基準上達到了與OpenAI的o4-mini幾乎相同的水平。1200億參數版本透過其專家混合架構每個標記僅激活51億參數,而20億參數模型則激活36億。兩者都支持長達128,000個標記的上下文長度,與GPT-4o相同。
它們以這種特定授權發布是相當重要的。這意味著任何人都可以不受限制地使用、修改和從這些模型中獲利。這包括從您到OpenAI的競爭對手,例如中國初創公司DeepSeek。
此次發布恰逢對GPT-5即將到來的猜測加劇,以及開源AI領域競爭的加劇。這些OSS模型是OpenAI自2019年GPT-2以來最新的開放權重語言模型。
目前並沒有GPT-5的具體發布日期,但山姆·奧特曼暗示這可能會比預期更早發生。他今天早些時候在推特上表示:“我們接下來幾天有很多新東西要告訴你,”並承諾“本週晚些時候會有重大升級。”
今天發布的開源模型非常強大。“這些模型在推理任務中超越了類似大小的開放模型,展示了強大的工具使用能力,並針對消費者硬體的高效部署進行了優化,”OpenAI在其公告中表示。該公司使用增強學習和來自其o3及其他前沿系統的技術對其進行了訓練。
在Codeforces競賽編碼中,gpt-oss-120b在使用工具的情況下得分2622的Elo等級,而在不使用工具的情況下為2463——超過o4-mini的2719等級,接近o3的2706。該模型在AIME 2024數學競賽中達到96.6%的準確率,相比之下o4-mini的準確率為87.3%,在HealthBench評估中達到57.6%,超過o3的50.1%分數。
較小的gpt-oss-20b在這些基準中達到或超過o3-mini的表現,儘管其規模較小。它在Codeforces上使用工具的情況下得分2516 Elo,在AIME 2024中達到95.2%,在HealthBench中達到42.5%——這一切都在使其能夠適合邊緣部署的記憶體限制內。
兩個模型支持三種推理努力級別——低、中、高,這些級別在延遲與性能之間進行權衡。開發人員可以通過在系統消息中輸入一句話來調整這些設置。這些模型使用類似於o4-mini的過程進行後訓練,包括監督微調和OpenAI所描述的“高計算RL階段”。
但不要以為任何人都可以隨意修改這些模型,你就會輕鬆。OpenAI在預訓練過程中篩選了與化學、生物、放射和核威脅相關的某些有害數據。後訓練階段使用了深思熟慮的對齊和指令層次來教導拒絕不安全提示和防禦提示注入。
換句話說,OpenAI聲稱其模型被設計得非常安全,即使在修改後也無法生成有害的回應。
OpenAI的對齊專家埃裡克·華萊士透露,該公司在發布前進行了前所未有的安全測試。“我們微調了模型,以故意最大化其生物和網絡能力,”華萊士在X上發帖表示。該團隊為生物學策劃了領域特定數據,並在編碼環境中訓練模型以解決旗幟捕獲挑戰。
經過對抗性微調的版本經過三個獨立專家組的評估。“在我們的前沿風險評估中,我們的惡意微調gpt-oss的表現低於OpenAI o3,這是一個低於準備高能力的模型,”華萊士表示。測試表明,即使使用OpenAI的訓練堆棧進行強化微調,這些模型也無法達到根據該公司的準備框架所定義的危險能力水平。
話雖如此,這些模型保持無監督的思維鏈推理,OpenAI表示這對於保持對AI的警惕至關重要。“我們並沒有對任何gpt-oss模型的思維鏈進行直接監督,”該公司表示。“我們認為這對於監控模型的不當行為、欺騙和濫用至關重要。”
OpenAI隱藏了其最佳模型的完整思維鏈,以防止競爭對手複製其結果——並避免出現另一個DeepSeek事件,而如今這種事件的發生變得更加容易。
這些模型在Huggingface上可用。但正如我們在開頭所說,您需要一個至少擁有80GB VRAM的巨大GPU(例如價值17,000美元的Nvidia A100)來運行1200億參數的版本。而20億參數的較小版本則需要至少16GB VRAM(例如價值3,000美元的Nvidia RTX 4090),這雖然很多,但對於消費者級硬體來說也不算太瘋狂。