OpenAI的ChatGPT-4.5達成了曾經被認為需要數十年才能實現的里程碑:說服大多數參與者在類圖靈測試評估中認為它是人類。
在加利福尼亞大學聖地亞哥分校最近的一項研究中,旨在評估大型語言模型是否能通過經典的三方圖靈測試,報告指出GPT-4.5在基於文本的對話中成功率達到73%。
該研究顯示,最新的大型語言模型超越了早期的版本,如GPT-4.0及其他模型,包括ELIZA和LLama-3.1-405 B。
根據加州大學聖地亞哥分校的博士後研究員卡梅隆·瓊斯(Cameron Jones)的說法,GPT-4.5於今年2月推出,能夠檢測微妙的語言線索,使其看起來更像人類。
瓊斯在接受Decrypt的採訪時表示:“如果你問它們作為人類的感受,這些模型往往能夠很好地回答,並能令人信服地假裝擁有情感和感知經歷。但它們對即時信息或當前事件的理解則存在困難。”
圖靈測試是由英國數學家艾倫·圖靈(Alan Turing)於1950年提出的,用於評估一台機器是否能夠足夠令人信服地模仿人類對話,以至於能夠欺騙人類評審。如果評審無法可靠地區分機器和人類,則該機器被認為已通過測試。
為了評估人工智能模型的表現,研究人員測試了兩種類型的提示:一種是帶有最少指示的基線提示,另一種是更詳細的提示,指導模型採用一個內向、精通網絡、使用俚語的年輕人的語氣。
研究人員表示:“我們根據一項探索性研究選擇了這些見證,該研究評估了五種不同的提示和七種不同的LLM,發現LLaMa-3.1-405B、GPT-4.5和這個角色提示表現最佳。”
該研究還探討了大型語言模型通過圖靈測試的更廣泛的社會和經濟影響,包括潛在的誤用。
瓊斯表示:“一些風險包括虛假信息,例如草根運動(astroturfing),即機器人假裝是人來提高對某個原因的關注。其他風險則涉及詐騙或社會工程——如果一個模型隨時間向某人發送電子郵件並看起來真實,可能會說服他們分享敏感信息或訪問銀行賬戶。”
週一,OpenAI宣布推出其旗艦GPT模型的下一個版本GPT-4.1。這個新AI更為先進,能夠處理大量文件、代碼庫甚至小說。OpenAI表示將在今年夏天停止使用GPT-4.5,並用GPT-4.1取而代之。
儘管圖靈從未見證過今天的人工智能格局,瓊斯指出,他於1950年提出的測試仍然具有現實意義。
他說:“圖靈測試仍然符合圖靈的初衷。”在他的論文中,他談到了學習機器,並建議通過創建一個從大量數據中學習的計算孩子來構建通過圖靈測試的東西。這基本上就是現代機器學習模型的工作原理。”
當被問及對該研究的批評時,瓊斯承認其價值,同時澄清圖靈測試所測量的內容及其不測量的內容。
他表示:“我想說的主要是,圖靈測試並不是智慧的完美測試——甚至不是人類相似性的完美測試。但它對於它所測量的內容是有價值的:即機器是否能說服一個人它是人類。這是值得測量的,並且具有真實的影響。”
編輯:塞巴斯蒂安·辛克萊(Sebastian Sinclair)