OpenAI於星期四正式推出了ChatGPT一直承諾的視頻功能,讓用戶能夠用手機對準物體進行實時AI分析——這一功能自5月首次展示以來一直未能推出。
此前,用戶可以輸入文本、圖表、語音或靜態照片並與GPT進行互動。這一在星期四晚間發布的功能允許GPT實時觀看用戶並進行對話式的反饋。例如,在我的測試中,這一模式能夠解決數學問題、提供食譜、講故事,甚至能夠化身為我女兒的新摯友,與她互動,一起煎煎餅,給予建議並通過不同的遊戲鼓勵她的學習過程。
此次發布恰逢谷歌展示其由新推出的Gemini 2.0驅動的相機增強AI助手的方案。Meta也在這個領域中進行探索,推出了能夠通過手機攝像頭進行視覺和對話的AI。
不過,ChatGPT的新功能並不對所有人開放。只有Plus、Team和Pro訂閱用戶可以使用OpenAI所稱的“具視覺的高級語音模式”。Plus訂閱每月費用為20美元,而Pro級別的費用為200美元。
OpenAI的首席產品官Kevin Weil在星期四的一段視頻中表示:“我們很高興地宣布,我們將視頻引入高級語音模式,讓您能夠在與ChatGPT的對話中帶入實時視頻和實時屏幕共享。”
該直播是其“OpenAI的12天”活動的一部分,將在接下來的12天內展示12個不同的公告。目前為止,OpenAI已經為所有用戶推出了o1模型,並推出了每月200美元的ChatGPT Pro計劃,介紹了用於自定義模型的強化微調,發布了其生成視頻應用Sora,更新了其畫布功能,並通過科技巨頭的Apple Intelligence功能將ChatGPT推出至Apple設備。
該公司在星期四的直播中展示了其能做的事情。用戶可以在與高級語音相同的界面中啟用視頻模式,並開始與聊天機器人進行實時互動。聊天機器人具備出色的視覺理解能力,能夠以低延遲提供相關反饋,使對話感覺自然。
然而,達到這一步並不完全順利。OpenAI最初在4月底承諾這些功能“在幾週內”推出,但因為在高級語音模式中模仿女演員斯嘉麗·約翰遜的聲音——未經她的允許——而推遲了這一功能。由於視頻模式依賴於高級語音模式,這顯然延緩了推出進程。
競爭對手谷歌並未閒著。Project Astra本週已在Android設備上交到“可信測試者”手中,承諾提供類似的功能:一個能夠說多種語言的AI,能夠利用谷歌的搜索和地圖,並記住對話長達10分鐘。
不過,這一功能尚未廣泛推出,預計將在明年初進行更大範圍的發布。谷歌對其AI模型有更雄心勃勃的計劃,賦予它們在實時執行任務的能力,展現出超越視聽互動的主動行為。
Meta也在爭取在下一個AI互動時代中占有一席之地。其助手Meta AI在今年9月亮相,展現出與OpenAI和谷歌的新助手類似的能力,提供低延遲的反應和實時視頻理解。
不過,Meta則希望利用增強現實推動其AI產品的發展,推出了名為Project Orion的“隱形”智能眼鏡,能夠支持這些互動,並內建小型攝像頭。
目前的ChatGPT Plus用戶可以通過點擊聊天欄旁邊的語音圖標來嘗試新視頻功能,然後點擊視頻按鈕。共享屏幕需要通過三點(即“漢堡”)菜單再點擊一次。
對於渴望嘗試新視頻功能的企業和教育版ChatGPT用戶來說,1月將是關鍵的月份。至於歐盟的訂閱用戶?他們目前只能在一旁觀望。
編輯:Andrew Hayward
Related Posts
Add A Comment