在經過數月的延遲後,OpenAI 不斷吊足大家的胃口,而騰訊卻悄然推出了一款已經顯示出與現有頂級視頻生成工具相媲美的模型。
騰訊推出了 Hunyuan Video,一款免費且開源的 AI 視頻生成工具,其推出時間恰巧與 OpenAI 進行為期 12 天的公告活動相吻合,這次公告活動廣泛預期將包括其備受期待的視頻工具 Sora 的首度亮相。
「我們呈現了 Hunyuan Video,一個新穎的開源視頻基礎模型,其在視頻生成方面的表現與領先的閉源模型相當,甚至在某些方面優於它們。」騰訊在其官方公告中表示。
這家總部位於中國深圳的科技巨頭聲稱,其模型在專業人員的評估結果中「超越」了 Runway Gen-3、Luma 1.6 以及「三個表現最優異的中國視頻生成模型」。
這一時機可謂恰到好處。
在其視頻生成器發布之前——該工具處於開源影像生成器的 SDXL 和 Flux 時代之間——騰訊已經推出了名為 HunyuanDit 的圖像生成器。該工具提供了出色的結果並增強了對雙語文本的理解,但並未被廣泛採用。該家族的成員還包括一組大型語言模型。
Hunyuan Video 使用了一個僅解碼的多模態大型語言模型作為其文本編碼器,而不是其他 AI 視頻工具和圖像生成器中常見的 CLIP 和 T5-XXL 組合。
騰訊表示,這有助於模型更好地跟隨指令,更精確地掌握圖像細節,並能夠在無需額外訓練的情況下即時學習新任務——此外,其因果注意力設置也得到了一個特殊的令牌精煉器的提升,這使其能夠比傳統模型更全面地理解提示。
它還會重寫提示,以使其更具豐富性,並提高生成的質量。例如,一個簡單的提示「一個男人牽著狗走路」可以通過增加細節、場景設置、光照條件、質量瑕疵和種族等元素來進行增強。
對大眾免費
像 Meta 的 LLaMA 3 一樣,Hunyuan 也可免費使用並進行變現,直到用戶達到 1 億人次——這一門檻對大多數開發者來說,短期內不太可能達到。
有條件嗎?你將需要一台配備至少 60GB GPU 記憶體的強大電腦來本地運行其 130 億參數的模型——比如 Nvidia H800 或 H20 顯卡。這比大多數遊戲 PC 的總顯存還要多。
對於沒有超級計算機的人來說,雲端服務已經開始加入其中。
FAL.ai,一個為開發者量身定制的生成媒體平台,已經集成了 Hunyuan,並收取每個視頻 0.5 美元的費用。其他雲服務提供商,包括 Replicate 或 GoEhnance,也開始提供該模型的訪問權限。官方的 Hunyuan Video 伺服器提供 150 顆積分,價格為 10 美元,每次視頻生成最少需要 15 顆積分。
當然,用戶也可以使用 Runpod 或 Vast.ai 等服務在租用的 GPU 上運行該模型。
初步測試顯示,Hunyuan 的質量與商業巨頭如 Luma Labs Dream Machine 或 Kling AI 相當。視頻生成大約需要 15 分鐘,生成的序列具有逼真的畫面,並展現出自然的人類和動物運動。
測試顯示,當前的弱點之一是該模型對英文提示的理解可能不如競爭對手那麼精確。然而,作為開源工具,這意味著開發者現在可以對其進行調整和改進。
騰訊表示,其文本編碼器的對齊率達到了 68.5%,即輸出的內容與用戶需求的匹配程度,同時在內部測試中保持了 96.4% 的視覺質量分數。
完整的源代碼和預訓練權重已經可以在 GitHub 和 Hugging Face 平台上下載。
編輯:Sebastian Sinclair