為何嘗試理解Z世代的俚語,當與動物溝通可能更簡單?
今天,谷歌推出了DolphinGemma,這是一個開源的AI模型,旨在通過分析海豚的點擊聲、口哨聲和突發音來解碼海豚的溝通。此次公告恰逢全國海豚日。
該模型是與喬治亞理工學院及野生海豚項目(WDP)合作創建的,能夠學習海豚聲音的結構,並生成類似海豚的聲音序列。
這一突破可能有助於確定海豚的溝通是否達到語言的水平。
在全球歷史最悠久的水下海豚研究項目上訓練的DolphinGemma,充分利用了自1985年以來由WDP收集的數十年精心標註的音頻和視頻數據。
該項目使用一種他們稱為“在他們的世界中,以他們的條件”的非侵入性方法,研究巴哈馬的亞特蘭大斑點海豚,跨越多代進行調查。
谷歌在公告中表示:“通過識別重複的聲音模式、簇和可靠的序列,該模型可以幫助研究人員發現海豚自然溝通中的隱藏結構和潛在含義——這是一項以前需要大量人力的任務。”
該AI模型包含大約4億個參數,足夠小,可以在研究人員在現場使用的Pixel手機上運行。它使用谷歌的SoundStream標記器處理海豚聲音,並預測序列中的後續聲音,就像人類語言模型預測句子中的下一個單詞一樣。
DolphinGemma並不是孤立運作的。它與CHAT(鯨類聽覺增強遙測)系統一起工作,該系統將合成的口哨聲與海豚喜歡的特定物體(如浮藻、海草或圍巾)關聯起來,可能建立共享的互動詞彙。
谷歌表示:“最終,這些模式,加上研究人員創建的合成聲音以指代海豚喜歡玩的物體,可能會為海豚建立共享的互動溝通詞彙。”
現場研究人員目前使用Pixel 6手機進行海豚聲音的實時分析。
該團隊計劃在2025年夏季研究季升級到Pixel 9設備,該設備將同時運行深度學習模型和模板匹配算法,並集成揚聲器和麥克風功能。
轉向智能手機技術大幅減少了對定制硬件的需求,這對於海洋現場工作來說是一個至關重要的優勢。DolphinGemma的預測能力可以幫助研究人員更早預測和識別聲音序列中的潛在模仿者,使互動更加流暢。
理解無法理解的事物
DolphinGemma加入了幾個其他AI計劃,旨在破解動物溝通的代碼。
地球物種項目(ESP)是一個非營利組織,最近開發了NatureLM,一種音頻語言模型,能夠識別動物物種、近似年齡以及聲音是否表示痛苦或遊戲——這不是真正的語言,但仍然是建立某種原始溝通的方式。
該模型訓練於人類語言、環境聲音和動物聲音的混合,已顯示出即使與未曾接觸過的物種也能取得良好結果。
CETI項目代表了這一領域的另一個重要努力。
由包括倫敦帝國學院的Michael Bronstein在內的研究人員主導,該項目專注於抹香鯨的溝通,分析它們在長距離使用的複雜點擊模式。
該團隊已識別出143種點擊組合,可能形成一種語音字母表,並正在使用深度神經網絡和自然語言處理技術進行研究。
雖然這些項目專注於解碼動物聲音,但紐約大學的研究人員從嬰兒發展中獲得了AI學習的靈感。
他們的對比學習模型(CVCL)通過從6個月到2歲的嬰兒佩戴頭戴式相機拍攝的畫面,從嬰兒的視角學習語言。
紐約大學的團隊發現,該AI可以從自然數據中高效學習,類似於人類嬰兒的學習方式,這與傳統的AI模型需要數萬億字進行訓練形成鮮明對比。
谷歌計劃在今夏分享DolphinGemma的更新版本,可能將其效用擴展到亞特蘭大斑點海豚之外。但該模型可能需要針對不同物種的聲音進行微調。
WDP已廣泛關注將海豚聲音與特定行為相關聯,包括母親和幼崽重聚時使用的標誌性口哨聲、衝突期間的突發“尖叫”聲,以及求偶或追逐鯊魚時使用的點擊“嗡嗡”聲。
谷歌指出:“我們不再只是聆聽。我們開始理解聲音中的模式,為未來人類與海豚溝通之間的差距可能會縮小鋪平道路。”
編輯:Sebastian Sinclair和Josh Quittner