OpenAI深夜放大招：GPT-4o正式發布！奧特曼：媲美人類的表現力

爲什麽叫做GPT-4o？這裏的「o」代表了英文單詞：Omni，代表了全能。不得不說，生成式AI又朝著AGI邁出了一大步，正如OpenAI首席執行官Sam Altman所說：這是一個魔法一樣的新功能。

關鍵是：GPT-4o的能力向免費用戶開放（但會限制數量，免費用戶達到數量之後，會自動跳回GPT-3.5）。

北京時間5月14日淩晨，OpenAI召開了一個不到30分鍾的發布會，正式發布了新的AI模型：GPT-4o，除了可以給普通用戶使用之外，還將開放相應API給GPT的開發者，比原來的GPT 4-Turbo 快 2 倍，價格便宜 50%。

已經支持50種語言。

首先，發布會展示了GPT-4o在實時語音對話上的表現。這次用戶能夠隨時打斷GPT-4o，隨時插話，並獲得AI模型的實時響應，不必在尴尬的等待2-3秒。

在對話過程中，GPT-4o可以捕捉到用戶語音中蘊含的情緒，並根據這些情緒調整GPT-4o的AI語音風格，使之實現更加情緒化、戲劇化的表達，這個新升級，讓GPT-4o更像是一個交流自然且具備共情能力的AI聊天機器人。

結合數據：GPT-4o 可以在 232 毫秒內回應用戶的音頻輸入，這個速度已經非常接近人類交流時的反應時間。

接下來在多模態輸入方面，GPT-4o提升了視覺信息的實時處理能力。

用戶通過手機攝像頭、實時共享屏幕等方式，就可以讓GPT-4o掃描各種視覺信息，包括文本、圖表、外部信息等等，與GPT-4o進行視頻互動。

簡單說，這就像是用戶在給GPT-4o打“視頻通話”，並在它的幫助下解決各類問題，比如說實時幫孩子輔導作業、掃描文件等等。GPT-4o可以通過攝像頭捕捉用戶表情，借此判斷他此時的情緒，給出相應建議。

請注意，這裏是指語音和視頻的同時交互，所以說：GPT-4o對多模態交互的支持能力變得更強，使之更貼近一個全能型的個人智能助手。

在未來幾周內，GPT-4o會逐步向所有人開放，與此同時，OpenAI還發布了ChatGPT的桌面版（首先是MacOS，Windows平台要在今年晚些時候發布）。

發布會後，OpenAI首席執行官Sam Altman表示：“新的語音（和視頻）模式是我用過的最好的計算機界面。感覺（GPT-4o）就像電影中的人工智能；對我來說，它是真實的有點讓人驚訝。（GPT-4o）可以達到媲美人類的響應時間和表現力被證明是一個很大的變化。”

沒錯，新的GPT-4o朝著更自然的人機交互又邁出了一大步。

當然，此時最開心應該還是微軟。

文采家