OpenAI深夜放大招:GPT-4o正式發布!奧特曼:媲美人類的表現力

科技真探社 2024-05-14 06:40:12

爲什麽叫做GPT-4o?這裏的「o」代表了英文單詞:Omni,代表了全能。不得不說,生成式AI又朝著AGI邁出了一大步,正如OpenAI首席執行官Sam Altman所說:這是一個魔法一樣的新功能。

關鍵是:GPT-4o的能力向免費用戶開放(但會限制數量,免費用戶達到數量之後,會自動跳回GPT-3.5)。

北京時間5月14日淩晨,OpenAI召開了一個不到30分鍾的發布會,正式發布了新的AI模型:GPT-4o,除了可以給普通用戶使用之外,還將開放相應API給GPT的開發者,比原來的GPT 4-Turbo 快 2 倍,價格便宜 50%。

已經支持50種語言。

首先,發布會展示了GPT-4o在實時語音對話上的表現。這次用戶能夠隨時打斷GPT-4o,隨時插話,並獲得AI模型的實時響應,不必在尴尬的等待2-3秒。

在對話過程中,GPT-4o可以捕捉到用戶語音中蘊含的情緒,並根據這些情緒調整GPT-4o的AI語音風格,使之實現更加情緒化、戲劇化的表達,這個新升級,讓GPT-4o更像是一個交流自然且具備共情能力的AI聊天機器人。

結合數據:GPT-4o 可以在 232 毫秒內回應用戶的音頻輸入,這個速度已經非常接近人類交流時的反應時間。

接下來在多模態輸入方面,GPT-4o提升了視覺信息的實時處理能力。

用戶通過手機攝像頭、實時共享屏幕等方式,就可以讓GPT-4o掃描各種視覺信息,包括文本、圖表、外部信息等等,與GPT-4o進行視頻互動。

簡單說,這就像是用戶在給GPT-4o打“視頻通話”,並在它的幫助下解決各類問題,比如說實時幫孩子輔導作業、掃描文件等等。GPT-4o可以通過攝像頭捕捉用戶表情,借此判斷他此時的情緒,給出相應建議。

請注意,這裏是指語音和視頻的同時交互,所以說:GPT-4o對多模態交互的支持能力變得更強,使之更貼近一個全能型的個人智能助手。

在未來幾周內,GPT-4o會逐步向所有人開放,與此同時,OpenAI還發布了ChatGPT的桌面版(首先是MacOS,Windows平台要在今年晚些時候發布)。

發布會後,OpenAI首席執行官Sam Altman表示:“新的語音(和視頻)模式是我用過的最好的計算機界面。感覺(GPT-4o)就像電影中的人工智能;對我來說,它是真實的有點讓人驚訝。(GPT-4o)可以達到媲美人類的響應時間和表現力被證明是一個很大的變化。”

沒錯,新的GPT-4o朝著更自然的人機交互又邁出了一大步。

當然,此時最開心應該還是微軟。

1 阅读:185

科技真探社

簡介:真實、具體、不抽象的科技産品體驗分享。