今日淩晨,OpenAI舉行了一場發布會,正式發布了一款最新的GPT-4o多模態大模型。
OpenAI介紹,與現有模型相比,GPT-4o在視覺和音頻理解方面尤其出色,可以在232毫秒內對音頻輸入做出反應,平均響應速度爲320毫秒,這與人類在對話中的反應時間相近。而GPT-3.5和GPT-4用戶以語音模式Voice Mode與ChatGPT對話的平均延遲時間爲2.8秒和5.4秒。
在發布會演示中,GPT-4o甚至能夠從OpenAI高管的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸。
該大模型可以處理50種不同的語言,並實時對音頻、視覺和文本進行推理。相比GPT-4 Turbo,GPT-4o的速度快兩倍,成本降低50%,API速率限制提高五倍。
OpenAI官網顯示,GPT-4o將對用戶免費開放,免費用戶可獲得分析數據、幫助總結、寫作和分析等功能。
OpenAI的CEO Sam Altman發布博客文章表示,“新的語音(和視頻)模式是我用過的最佳計算機界面。感覺(GPT-4o)就像電影裏的AI一樣。它的成真讓我感到驚訝。”C114通信網 顔翊