像真人一樣聊天,ChatGPT向AI助理更進一步|新京報快評

新京報評論5 2024-05-14 19:30:57
模擬人類日常生活場景,實現“所見所得”或語音實時交互,已經成爲當下大模型行業的重要升級方向。

▲ChatGPT的本次升級,意味著“AI助理”的技術競爭開始進入了新的階段。圖/IC photo

文 | 馬爾文

據媒體報道,北京時間5月14日淩晨,OpenAI在春季發布會展示了ChatGPT的更新功能。這些功能主要集中在用戶的交互體驗上,用戶可以通過文本、音頻、圖像等任意方式進行組合輸入,並得到ChatGPT的實時回複響應。

在現場演示中,OpenAI重點展示了實時對話交互和語音多樣化的功能。現場展示顯示,ChatGPT不僅可以像真人一樣語音聊天,還可以根據用戶需求,識別和模擬不同的情緒、語調進行輸出。

此次升級盡管不是參數或算力上的重大前進,但其在用戶體驗尤其是使用門檻上的價值仍然不容小觑。

OpenAI的CEO山姆·奧特曼將本次更新總結爲“人類級別的響應”。從使用體驗上看,使用大模型的場景將變得更像是與“智能助理”進行對話交互,你可以用語音、文本等綜合方式不斷提出要求,並得到即時的答案回複。

例如,此前如果你希望通過ChatGPT來幫忙做數學題,那麽,用戶需要做的步驟有:打開ChatGPT,以文本形式複制題目,等待ChatGPT響應,得到完整答案。如果希望聽到有步驟的語音講解,則需要等待文本答案全部生成之後,再發出新的指令。

而隨著此次交互升級之後,這一體驗被改進爲了:用戶正常在電腦上做題,需要詢問的時候,直接語音或者讓ChatGPT根據當前屏幕內容進行解答,而ChatGPT則會根據用戶做題場景的需求,進行步驟引導,而不是直接給出答案。

如果你正在使用書本做數學題,則可以打開設備的攝像頭,由ChatGPT通過攝像頭看見的內容來完成解答。並且,中間用戶可以隨時打斷ChatGPT進行提問與交互。

本次ChatGPT的體驗升級,主要是圍繞人類信息交互的核心場景與方式來進行。人類日常信息輸入的主要方式是“觀看與聽說”,而信息處理的主要方式是“邏輯與情緒”。因此,新升級後的ChatGPT重點加入了“觀看屏幕”“情緒模擬”等功能,以適配于人類日常的交流習慣。

過去基于特定任務指令而出現的生成性交互,仍然只是大模型應用于特定生産場景的初步嘗試。大模型如果要真的進入人類生活,模擬人類信息交互的真實場景與邏輯則是必需的關鍵一步。

在關于“人工智能”的諸多想象中,不管是文學作品還是科幻電影,都默認人工智能是“使用人類交互形式來溝通”的信息處理助手。這次實時語音交互功能的加入,毫無疑問使得大模型的使用體驗更加符合人們對一個“人工智能助理”的期待。

模擬人類日常生活場景,實現“所見所得”或語音實時交互,已經成爲當下大模型行業的重要升級方向。不久前,Meta(美國互聯網公司,原名Facebook)發布的第二代人工智能眼鏡,同樣也實現了利用攝像頭傳感器,對用戶所看到的一切進行實時的交互、翻譯等功能,從而一躍成爲了廣受歡迎的智能硬件。

設想一下,如果大模型可以“看到人眼所看到的一切並隨時給出答案”,或者可以“隨時聽懂你要問的問題並隨時給出答案”,甚至可以“讀懂你當前的情緒並根據你的情緒提供答案”,那麽,大模型就離人們設想中的“生活助理”的功能不遠了。

從顛覆性的角度看,大模型除了在作圖、作曲、數據處理等生産領域發揮特定作用之外,更大的挑戰任務,是進入公衆的日常生活,真正成爲每個人的“生活智能助理”。如果大模型可以承接住用戶日常生活中絕大多數的信息檢索、處理、決策,我們剛剛熟悉的商業世界、技術應用也將隨之發生巨大變化。

此前,微軟嘗試將Copliot融入Windos11,谷歌和亞馬遜也正在嘗試將自己的大模型融入到系統與産品之中,這些動作,都是在爭奪用戶“AI助理”的入口。而ChatGPT的本次升級,意味著“AI助理”的技術競爭開始進入了新的階段。

或許很快,大模型將不再是一個只有少數人或特定行業使用的生産力提升工具,而將迅速成爲普通人日常生活的重要助理,並最終成爲公衆日常信息交互的主要入口。

撰稿 / 馬爾文(媒體人)

編輯 / 遲道華

校對 / 李立軍

運政人員“碰瓷式執法”,執法目的和手段都需正當 | 新京報快評 “貓狗能否上高鐵”,討論即有價值 | 新京報快評 歡迎投稿: 新京報評論,歡迎讀者朋友投稿。投稿郵箱:xjbpl2009@sina.com 評論選題須是機構媒體當天報道的新聞。來稿將擇優發表,有稿酬。 投稿請在郵件主題欄寫明文章標題,並在文末按照我們的發稿規範,附上作者署名、身份職業、身份證號碼、電話號碼以及銀行賬戶(包括戶名、開戶行支行名稱)等信息,如用筆名,則需要備注真實姓名,以便發表後支付稿酬。
0 阅读:4