晶片製造商Nvidia於週一宣布,其Spectrum-X網絡技術幫助擴展了初創公司xAI的Colossus超級計算機,該計算機現在被認可為全球最大的AI訓練集群。
Colossus位於田納西州的孟菲斯,作為xAI第三代Grok大型語言模型的訓練基地,這些模型旨在為X Premium訂閱者提供聊天機器人功能。
Colossus在僅122天內完成建設,並在安裝後19天開始訓練其首批模型。Nvidia在週一的聲明中表示,科技億萬富翁埃隆·馬斯克的初創公司xAI計劃將系統的容量擴大至200,000個GPU。
Colossus的核心是一個巨大的互聯GPU系統,每個GPU專門處理大型數據集。在訓練Grok模型時,它們需要分析大量的文本、圖像和數據,以改善其回應。
馬斯克稱Colossus為全球最強大的AI訓練集群,它通過統一的遠程直接記憶體訪問網絡連接了100,000個NVIDIA Hopper GPU。Nvidia的Hopper GPU通過將工作負載分散到多個GPU上並進行並行處理來處理複雜任務。
這種架構允許數據直接在節點之間移動,繞過操作系統,確保低延遲以及在大規模AI訓練任務中的最佳吞吐量。
傳統以太網絡往往會遭遇擁塞和數據包丟失,將吞吐量限制在60%——而Spectrum-X在不降低延遲的情況下實現了95%的吞吐量。
Spectrum-X使大量GPU能夠更加順暢地相互通信,因為傳統網絡可能會因數據過多而變得堵塞。
該技術使Grok的訓練更加迅速且準確,這對於構建能有效回應人類互動的AI模型至關重要。
週一的公告對Nvidia的股票影響不大,股價略有下跌。截至週一,股價為141美元,公司的市值為3.45萬億美元。
編輯:Sebastian Sinclair