電子發燒友網報道(文/李彎彎)當地時間5月13日,OpenAI舉行春季發布會,宣布將推出桌面版ChatGPT,并發布全新旗艦AI模型GPT-4o。
根據OpenAI官方網站介紹,GPT-4o中的“o”代表Omni,也就是“全能”的意思。GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。
GPT-4o速度更快,且能感知用戶情緒
根據OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語音對談機制不同。GPT-3.5和GPT-4會先將音頻轉換為文本,再接收文本生成文本,最后將文本轉換為音頻,經歷這三個過程,音頻中的情感表達等信息會被折損,而GPT-4o是跨文本、視覺和音頻的端到端模型,是OpenAI第一個綜合了這些維度的模型,可更好進行對談。
OpenAI技術負責人Mira Murati表示:“這是我們第一次在易用性方面真正邁出的一大步。”OpenAI研究員Mark Chen表示,新模型具有“感知情緒”的能力,能輸出笑聲、歌唱或表達情感,還可以處理用戶打斷它的情況。
GPT-4o極大地改進了OpenAI的AI聊天機器人ChatGPT的體驗。在發布會上,OpenAI研究主管Mark Chen和OpenAI的后訓練團隊負責人Barret Zoph通過現場演示展示出了新模型GPT-4o的強大。
如在演示對話中,Mark Chen表現得有點緊張,然后開始急促地呼吸。當GPT-4o聽到Chen過度呼氣時,它似乎從中察覺到了他的緊張,并說到:別緊張,你喘得像個吸塵器,深呼吸,再吐氣。接著GPT開始指導Chen怎么深吸慢呼平復心情。
在另一段對話演示中,Chen讓GPT給Zoph講個睡前故事哄他入睡,Chen反復打斷GPT的講述,問它能不能講得更刺激點,最后GPT用非常迪士尼的方式唱出了一個故事。
GPT-4o還可以通過視覺識別檢測人的情緒。在一個演示中,Zoph將手機舉到自己面前正對著臉,要求ChatGPT告訴他自己長什么樣子。GPT-4o注意到了Zoph臉上的微笑,對他說:“看起來你感覺非??鞓?,喜笑顏開。”
GPT-4o也能夠進行實時快速翻譯,OpenAI技術負責人Mira Murati在現場對ChatGPT說起了意大利語,GPT則將她的話翻譯成英語。
OpenAI首席執行官山姆·奧特曼(Sam Altman)表示,新的語音和視頻模式是他用過的最好的電腦界面,感覺就像電影里的AI。達到人類水平的反應時間和表達能力是一個很大的變化。
Sam Altman談到:“對我來說,與電腦交談從來都不是一件很自然的事,現在它做到了。隨著我們增加(可選的)個性化、訪問你的信息、代表你采取行動的能力等等,我真的可以看到一個令人興奮的未來,我們能夠使用計算機做比以往任何時候都多的事情。”
GPT-4o功能未來將會進一步發展
自發布之日,GPT-4o可在ChatGPT的免費版本中使用,并提供給OpenAI的高級ChatGPT Plus和Team計劃訂戶,具有“5倍更高”的消息限制。OpenAI指出,當用戶達到速率限制時,ChatGPT將自動切換到GPT-3.5。
OpenAI稱,基于GPT-4o的ChatGPT文本和圖像輸入功能將于本周一上線,語音和視頻選項將在未來幾周內推出。另外,OpenAI將在未來1個月左右向Plus用戶推出基于GPT-4o改進的語音體驗,目前GPT-4o的API并不包含語音功能。
OpenAI指出,在API使用方面,相比去年11月發布的GPT-4-turbo,GPT-4o價格降低一半。成本下降對于大模型的調用至關重要。OpenAI開始致力于將大模型推向市場。
另外據Murati介紹,GPT-4o的功能在未來將會進一步發展。比如,盡管目前GPT-4o可以查看不同語言的菜單照片并進行翻譯,但未來,該模型可能使ChatGPT能夠觀看直播的體育比賽并向您解釋規則。
Murati表示:“我們知道這些模型變得越來越復雜,但我們希望交互體驗實際上變得更加自然、簡單,您不需要關注UI,而只需專注于與ChatGPT的合作?!?br />
對于大家一直關注的安全性問題,OpenAI也重點提及。據稱,通過過濾訓練數據和訓練后改進模型行為等技術,GPT-4o在設計中內置了跨模式的安全性,并創建了新的安全系統,為語音輸出提供護欄。
GPT-4o還與來自社會心理學、偏見和公平、錯誤信息等領域的70多名外部專家開展廣泛的外部合作,以識別新增加的模式引入或放大的風險,提高與GPT-4o互動的安全性。
OpenAI表示,將繼續減少新發現的風險。由于認識到GPT-4o的音頻模式存在各種新的風險,目前公開的是文本和圖像輸入以及文本輸出,在接下來的幾周和幾個月里將圍繞技術基礎設施、訓練后的可用性、發布其他模式所需的安全性開展工作,例如音頻輸出將僅限于選定的預設聲音,并將遵守現有安全政策。
寫在最后
可以看到,大模型技術正在快速發展,而OpenAI新模型GPT-4o無疑又將大模型技術和應用推向了一個新高度。目前全球科技廠商都在積極角逐,微軟、谷歌等頭部企業都紛紛召開發布會,密集推出大模型產品,蘋果傳言也已與OpenAI達成協議,在 iPhone使用其技術。不難看到,接下來大模型無論是在技術升級還是應用落地上都將會呈現一番新景象。
-
GPT
+關注
關注
0文章
352瀏覽量
15315 -
OpenAI
+關注
關注
9文章
1045瀏覽量
6411 -
ChatGPT
+關注
關注
29文章
1549瀏覽量
7507 -
AI大模型
+關注
關注
0文章
307瀏覽量
294
發布評論請先 登錄
相關推薦
評論