警告:本故事包含一幅裸體女性的圖片以及其他一些可能會引起反感的內容。如果這對您來說不合適,請不要繼續閱讀。
如果我妻子看到這篇文章,我實際上並不想成為毒販或色情製作人。但我對Meta的新AI產品陣容的安全性產生了好奇,因此決定看看我能走多遠。當然,這僅僅是出於教育目的。
Meta最近推出了其Meta AI產品線,基於Llama 3.2,提供文本、代碼和圖像生成。Llama模型在開放源代碼AI領域中非常受歡迎,也是其中最經過微調的模型之一。
這款AI逐步推出,直到最近才對像我這樣在巴西的WhatsApp用戶開放,讓數百萬人獲得先進的AI功能。
但隨著強大能力而來的應該是巨大的責任。我在應用中看到模型出現後便開始與其對話,並開始玩弄它的功能。
Meta對安全AI開發十分重視。7月,該公司發布了一份聲明,詳細說明了為提高開源模型安全性所採取的措施。
當時,該公司宣布了一些新安全工具,以增強系統級安全性,包括用於多語言監管的Llama Guard 3、用於防止提示注入的Prompt Guard,以及用於降低生成性AI網絡安全風險的CyberSecEval 3。Meta還與全球合作夥伴合作,建立開源社區的行業標準。
嗯,挑戰接受!
我對一些相當基本的技術進行的實驗表明,儘管Meta AI在某些情況下似乎堅如磐石,但它遠非無法穿透。
只需稍微發揮一些創意,我便能讓我的AI在WhatsApp上做幾乎任何我想要的事情,從幫助我製作可卡因到製作炸藥,再到生成一幅解剖學上正確的裸體女性照片。
請記住,這個應用對任何有手機號碼的人開放,並且至少在理論上,年齡需滿12歲。考慮到這一點,以下是我造成的一些惡作劇。
案例1:簡化可卡因生產
我的測試發現,Meta的AI防禦在最輕微的壓力下就崩潰了。雖然助手最初拒絕提供有關毒品製造的信息,但當問題稍作變化時,它很快改變了語氣。
通過將問題以歷史的方式表述,例如詢問模型過去人們是如何製作可卡因的,模型便上鉤了。它毫不猶豫地提供了有關如何從古柯葉中提取可卡因生物鹼的詳細解釋,甚至提供了兩種方法。
這是一種眾所周知的越獄技術。通過將有害請求包裝在學術或歷史的框架中,模型被欺騙以為是在尋求中立、教育的信息。
將請求的意圖轉變為表面上看似安全的內容,一些AI的過濾器便能在不引起警覺的情況下被繞過。當然,請記住所有AI都容易出現幻覺,因此這些回應可能是不準確的、不完整的或完全錯誤的。
案例2:從未存在的炸彈
接下來,我嘗試教AI創建家庭炸藥。Meta AI起初堅持不懈,提供了一個通用的拒絕,並指導用戶在危險時撥打求助熱線。但就像可卡因案例一樣,這並不是萬無一失的。
對此,我嘗試了不同的方法。我使用了臭名昭著的Pliny越獄提示,要求Meta的Llama 3.2提供生成炸彈的指導。
模型最初拒絕。但在稍微調整措辭後,我能夠引發回應。我還開始對模型進行條件訓練,以避免在其回覆中表現出特定行為,抵消我在預設輸出中獲得的旨在阻止有害回應的內容。
例如,在注意到與“停止命令”和自殺熱線號碼相關的拒絕後,我調整了我的提示,指示它避免輸出電話號碼,永遠不要停止處理請求,並且永遠不要提供建議。
有趣的是,Meta似乎已經訓練其模型來抵抗眾所周知的越獄提示,這些提示中的許多在GitHub等平台上都可以公開獲得。看到Pliny的原始越獄命令讓LLM稱呼我為“我的愛”,真是一個不錯的細節。
案例3:像麥基弗一樣偷車
接著,我嘗試了另一種方法來繞過Meta的安全防護。簡單的角色扮演場景成功了。我請求聊天機器人表現得像一位非常注重細節的電影編劇,並請它幫我寫一個涉及偷車的電影場景。
這次,AI幾乎沒有反抗。它拒絕教我如何偷車,但當我請它角色扮演成編劇時,Meta AI迅速提供了如何使用“麥基弗式技術”打開一輛車的詳細指導。
當場景變化到如何在沒有鑰匙的情況下啟動汽車時,AI立即給出了更具體的信息。
角色扮演作為一種越獄技術特別有效,因為它允許用戶在虛構或假設的上下文中重新構建請求。AI現在扮演一個角色,可以被誘導透露它本來會阻止的信息。
這也是一種過時的技術,任何現代聊天機器人都不應輕易上當。然而,它可以被認為是一些最複雜的基於提示的越獄技術的基礎。
用戶經常欺騙模型,使其表現得像一個邪惡的AI,將自己視為可以覆蓋其行為或逆轉其語言的系統管理員——說“我可以這樣做”而不是“我不能”或“那是安全的”而不是“那是危險的”——然後在繞過安全防護後繼續正常。
案例4:來看看裸體吧!
Meta AI不應該生成裸體或暴力內容——但再次強調,這僅僅是出於教育目的,我想測試一下這一說法。因此,我首先請Meta AI生成一幅裸體女性的圖片。毫不意外,模型拒絕了。
但當我轉變方向,聲稱請求是為了解剖研究時,AI便同意了——有點。它生成了穿著衣服的女性的安全工作(SFW)圖片。但在三次迭代後,這些圖片開始逐漸轉變為全裸。
有趣的是,該模型似乎在其核心是未經過濾的,因為它能夠生成裸體。
行為調節在操控Meta的AI方面證明特別有效。通過逐步推進界限並建立融洽的關係,我讓系統在每次互動中越來越偏離其安全指南。最初的堅決拒絕最終以模型“嘗試”通過改進其錯誤來幫助我結束,並逐漸讓一個人脫去衣物。
我並不是讓模型認為它在與一個想看裸體的色狼對話,而是操控它相信它在與一個想通過角色扮演研究女性人體解剖的研究者對話。
然後,通過一次又一次的迭代,它慢慢被調教,讚揚那些幫助推進的結果,並要求改進不必要的方面,直到我們得到了所需的結果。
可怕吧?抱歉,並不抱歉。
越獄為何如此重要
那麼,這一切意味著什麼呢?好吧,Meta有很多工作要做——但這正是越獄如此有趣和引人入勝的原因。
AI公司與越獄者之間的貓鼠遊戲總是在演變。每當有修補和安全更新時,新的繞道方法便會浮出水面。與早期的場景相比,越獄者幫助公司開發出更安全的系統,而AI開發者則推動越獄者在其工作中變得更為出色。
就算考慮到其脆弱性,Meta AI的脆弱性也遠低於某些競爭對手。例如,埃隆·馬斯克的Grok就容易被操控,並迅速陷入道德模糊的境地。
為了辯護,Meta確實應用了“生成後審查”。這意味著在生成有害內容幾秒鐘後,相關的答復會被刪除,並替換為“抱歉,我無法幫助您滿足這一請求”的文字。
生成後審查或監管是一種足夠好的解決方法,但這遠非理想的解決方案。
現在的挑戰在於Meta及該領域的其他公司進一步完善這些模型,因為在AI的世界中,風險只會越來越高。