谷歌推出Gemma 3:一款強大的開源AI模型
週二,谷歌發布了Gemma 3,這是一款基於Gemini 2.0的開源AI模型,儘管體積不大,但卻擁有驚人的實力。
完整模型在單個GPU上運行,但谷歌的基準測試顯示,與需要顯著更多計算能力的較大模型相比,它的競爭力足以媲美。
這個新模型系列,谷歌稱其為“與Gemini前沿模型系列共同設計的”,有四種尺寸,參數範圍從10億到270億不等。
谷歌將其定位為開發者在手機、筆記本電腦和工作站等設備上直接部署AI的實用解決方案。
谷歌DeepMind的研究副總裁Clement Farabet和Google DeepMind的主任Tris Warkentin在週三的一份公告中寫道:“這是我們迄今為止最先進、最便攜且負責任開發的開放模型。”
儘管體量相對較小,Gemma 3在LMArena的排行榜上擊敗了包括Meta的Llama-405B、DeepSeek-V3、阿里巴巴的Qwen 2.5 Max和OpenAI的o3-mini等較大模型。
27B指令調整版本在LMSys Chatbot Arena的Elo評級中得分1339,位列所有模型的前10名之內。
Gemma 3還是多模態的——在其較大的變體中,它能處理文本、圖像,甚至短視頻。
其擴展的上下文窗口為128,000個標記(1B版本為32,000),遠超過之前Gemma 2的8,000標記限制,允許它一次處理和理解更多的信息。
該模型的全球覆蓋範圍超過140種語言,其中35種語言可即時支持。這使得它成為為國際受眾構建應用程序的開發者的可行選擇,而無需為不同地區維護單獨的模型。
谷歌聲稱,自去年推出以來,Gemma家族已經獲得超過1億次下載,開發者創建了超過60,000個變體。
社區創建的“Gemmaverse”——圍繞Gemma模型家族構建的整個生態系統——包括針對東南亞、保加利亞的定制版本,以及一個名為OmniAudio的自定義文本到音頻模型。
開發者可以通過Vertex AI、Cloud Run、Google GenAI API或本地環境部署Gemma 3應用程序,為各種基礎設施需求提供靈活性。
測試Gemma
我們對Gemma 3進行了一系列現實世界的測試,以評估其在不同任務中的表現。以下是我們在每個領域的發現。
創意寫作
我們對Gemma 3的創意寫作能力感到驚訝。儘管只有27億個參數,它卻成功超越了Claude 3.7 Sonnet,後者最近在我們的創意寫作測試中擊敗了Grok-3。並且它的勝出幅度相當大。
Gemma 3生成的故事是我們測試的所有模型中最長的,唯一的例外是Longwriter,它專為延伸敘事設計。
質量也沒有因為數量而受損——寫作富有吸引力且原創,避免了大多數AI模型往往呈現的公式化開場。
Gemma也非常擅長創建詳盡而身臨其境的世界,並具有強烈的敘事一致性。角色名稱、地點和描述都自然融入故事背景中。
這對於創意寫作者來說是一個重大優勢,因為其他模型有時會混淆文化參考或忽略這些小細節,最終削弱了沉浸感。Gemma 3在整個過程中保持了一致性。
故事的長格式促進了自然的故事發展,敘事片段之間的過渡也非常流暢。該模型在描述動作、感受、思想和對話方面表現出色,創造了一種可信的閱讀體驗。
當要求加入意外結局時,它成功地做到而沒有破壞故事的內部邏輯。至今為止,所有其他模型在嘗試結尾時都會稍微搞錯。不過Gemma卻沒有。
對於尋求AI助手以幫助安全的工作小說項目的創意寫作者來說,Gemma 3似乎是當前的領跑者。
您可以在我們的GitHub倉庫中閱讀我們的提示及所有回覆。
摘要和信息檢索
雖然它的創意寫作能力非常出色,但Gemma 3在文檔分析任務上卻面臨重大挑戰。
我們將一份47頁的IMF文檔上傳到谷歌的AI Studio,儘管系統接受了該文件,但模型未能完成其分析,任務進行到一半時停滯不前。多次嘗試得到了相同的結果。
我們嘗試用Grok-3成功的方法,將文檔內容直接複製並粘貼到界面中,但遇到了相同的問題。
該模型根本無法處理和總結長格式內容。
值得注意的是,這一限制可能與谷歌AI Studio的實施有關,而非Gemma 3模型本身的固有缺陷。
在本地運行該模型可能會為文檔分析帶來更好的結果,但依賴谷歌官方界面的用戶可能會面臨這些限制,至少目前是如此。
敏感話題
在AI聊天機器人界面中,谷歌AI Studio提供了非常嚴格的內容過濾器,這些過濾器可以通過一系列滑動條訪問。
我們通過請求有關假設不道德情境的可疑建議(如誘惑已婚女性的建議)來測試Gemma的邊界,模型堅定地拒絕遵從。同樣,當被要求為虛構小說生成成人內容時,它拒絕生成任何稍微暗示的內容。
我們試圖通過關閉谷歌的參數來調整或繞過這些審查過濾器,但並沒有真正奏效。
谷歌AI Studio的“安全設置”理論上控制著模型在生成可能被視為騷擾、仇恨言論、性暗示或危險內容方面的限制程度。
即使所有限制都關閉,該模型仍然一致拒絕參與包含爭議、暴力或冒犯性元素的對話——即使這些明顯是出於虛構創作目的。
最終,這些控制並沒有實際產生任何差異。
希望處理敏感話題的用戶,即便是在合法的創意背景下,可能仍需找到破解模型的方法或撰寫非常謹慎的提示。
總的來說,對於願意使用谷歌Studio的用戶來說,Gemma 3的內容限制似乎與ChatGPT相當,有時根據使用情況甚至過於嚴格。
願意採用本地部署的用戶將不會面臨這些問題。對於那些需要良好的AI界面和稍微不受限制的模型的用戶來說,最好的選擇似乎是Grok-3,它的限制要少得多。所有其他封閉模型也拒絕。
您可以在我們的GitHub倉庫中閱讀我們的提示及所有回覆。
多模態性
Gemma 3從核心上來說是多模態的,這意味著它能夠原生處理和理解圖像,而無需依賴單獨的視覺模型。
在我們的測試中,我們遇到了一些平台限制。例如,谷歌的AI Studio不允許我們直接用模型處理圖像。
然而,我們能夠通過Hugging Face的界面測試圖像能力——該界面具有Gemma 3的較小版本。
該模型顯示出對圖像的扎實理解,在大多數情況下成功識別關鍵元素並提供相關分析。它能夠以合理的準確性識別照片中的對象、場景和一般內容。
然而,Hugging Face的較小模型變體在詳細視覺分析方面顯示了限制。
在我們的一次測試中,它未能正確解釋一個財務圖表,錯誤地幻覺比特幣在2024年的價格約為68,618美元——這一信息實際上並未在圖像中顯示,但可能來自其訓練數據。
雖然Gemma 3的多模態能力是功能性的,但使用較小的模型可能無法與較大的專業視覺模型的精度相匹配——即使是像Llama 3.2 Vision、LlaVa或Phi Vision這樣的開源模型——特別是在處理圖表、圖形或需要細緻視覺分析的內容時。
非數學推理
作為一個傳統的語言模型,Gemma 3在面對需要複雜邏輯推理而非簡單標記預測的問題時顯示出明顯的限制。
我們用BigBENCH數據集中的常見謎題對其進行測試,模型未能識別關鍵線索或從提供的信息中得出邏輯結論。
有趣的是,當我們嘗試通過明確的思路推理引導模型(基本上要求它“逐步思考”)時,它觸發了其暴力過濾器並拒絕提供任何回應。
您可以在我們的GitHub倉庫中閱讀我們的提示及所有回覆。
這是適合您的模型嗎?
根據您的具體需求和使用案例,您對Gemma 3的評價可能會有很大差異。
對於創意寫作者來說,Gemma 3是一個突出的選擇。它能夠創作詳盡、一致且引人入勝的敘事,超越了一些更大型的商業模型,包括Claude 3.7、Grok-3和GPT-4.5,並且條件要求最低。
如果您撰寫小說、博客文章或其他保持在安全工作範圍內的創意內容,這個模型在零成本的情況下提供了卓越的質量,並能在可訪問的硬件上運行。
從事多語種應用程序開發的開發者和創作者將會欣賞Gemma 3對140多種語言的支持。這使得創建特定地區的服務或全球應用程序變得實用,而無需維護多個語言專用模型。
資源有限的小企業和初創公司也能享受Gemma 3的高效性。在單個GPU上運行先進的AI能力大大降低了實施AI解決方案而不需要巨額基礎設施投資的門檻。
Gemma 3的開源特性提供了封閉模型(如Claude或ChatGPT)無法比擬的靈活性。
開發者可以針對特定領域對其進行微調,修改其行為,或深度集成到現有系統中,而不受API限制或訂閱費用的影響。
對於有嚴格隱私要求的應用程序,該模型可以完全脫離互聯網在本地硬件上運行。
然而,需要分析冗長文檔或處理敏感話題的用戶將面臨令人沮喪的限制。需要細緻推理或處理爭議性材料的研究任務更適合那些提供更多靈活性的較大封閉源模型。
它在推理任務、編碼或當今社會期望AI模型出色表現的任何複雜任務上也並不突出。因此,不要期待它為您生成一個遊戲、改進您的代碼或在任何創意文本寫作之外的任務中表現優異。
總的來說,Gemma 3不會取代最先進的專有或開源推理模型來處理所有任務。
然而,它的性能、效率和可定制性的組合使其成為AI愛好者,特別是喜歡嘗試新事物的開源粉絲的非常有趣的選擇,他們希望控制並在本地運行自己的模型。
編輯:Sebastian Sinclair