像真人一樣聊天，ChatGPT向AI助理更進一步|新京報快評

模擬人類日常生活場景，實現“所見所得”或語音實時交互，已經成爲當下大模型行業的重要升級方向。

▲ChatGPT的本次升級，意味著“AI助理”的技術競爭開始進入了新的階段。圖/IC photo

文 | 馬爾文

據媒體報道，北京時間5月14日淩晨，OpenAI在春季發布會展示了ChatGPT的更新功能。這些功能主要集中在用戶的交互體驗上，用戶可以通過文本、音頻、圖像等任意方式進行組合輸入，並得到ChatGPT的實時回複響應。

在現場演示中，OpenAI重點展示了實時對話交互和語音多樣化的功能。現場展示顯示，ChatGPT不僅可以像真人一樣語音聊天，還可以根據用戶需求，識別和模擬不同的情緒、語調進行輸出。

此次升級盡管不是參數或算力上的重大前進，但其在用戶體驗尤其是使用門檻上的價值仍然不容小觑。

OpenAI的CEO山姆·奧特曼將本次更新總結爲“人類級別的響應”。從使用體驗上看，使用大模型的場景將變得更像是與“智能助理”進行對話交互，你可以用語音、文本等綜合方式不斷提出要求，並得到即時的答案回複。

例如，此前如果你希望通過ChatGPT來幫忙做數學題，那麽，用戶需要做的步驟有：打開ChatGPT，以文本形式複制題目，等待ChatGPT響應，得到完整答案。如果希望聽到有步驟的語音講解，則需要等待文本答案全部生成之後，再發出新的指令。

而隨著此次交互升級之後，這一體驗被改進爲了：用戶正常在電腦上做題，需要詢問的時候，直接語音或者讓ChatGPT根據當前屏幕內容進行解答，而ChatGPT則會根據用戶做題場景的需求，進行步驟引導，而不是直接給出答案。

如果你正在使用書本做數學題，則可以打開設備的攝像頭，由ChatGPT通過攝像頭看見的內容來完成解答。並且，中間用戶可以隨時打斷ChatGPT進行提問與交互。

本次ChatGPT的體驗升級，主要是圍繞人類信息交互的核心場景與方式來進行。人類日常信息輸入的主要方式是“觀看與聽說”，而信息處理的主要方式是“邏輯與情緒”。因此，新升級後的ChatGPT重點加入了“觀看屏幕”“情緒模擬”等功能，以適配于人類日常的交流習慣。

過去基于特定任務指令而出現的生成性交互，仍然只是大模型應用于特定生産場景的初步嘗試。大模型如果要真的進入人類生活，模擬人類信息交互的真實場景與邏輯則是必需的關鍵一步。

在關于“人工智能”的諸多想象中，不管是文學作品還是科幻電影，都默認人工智能是“使用人類交互形式來溝通”的信息處理助手。這次實時語音交互功能的加入，毫無疑問使得大模型的使用體驗更加符合人們對一個“人工智能助理”的期待。

模擬人類日常生活場景，實現“所見所得”或語音實時交互，已經成爲當下大模型行業的重要升級方向。不久前，Meta（美國互聯網公司，原名Facebook）發布的第二代人工智能眼鏡，同樣也實現了利用攝像頭傳感器，對用戶所看到的一切進行實時的交互、翻譯等功能，從而一躍成爲了廣受歡迎的智能硬件。

設想一下，如果大模型可以“看到人眼所看到的一切並隨時給出答案”，或者可以“隨時聽懂你要問的問題並隨時給出答案”，甚至可以“讀懂你當前的情緒並根據你的情緒提供答案”，那麽，大模型就離人們設想中的“生活助理”的功能不遠了。

從顛覆性的角度看，大模型除了在作圖、作曲、數據處理等生産領域發揮特定作用之外，更大的挑戰任務，是進入公衆的日常生活，真正成爲每個人的“生活智能助理”。如果大模型可以承接住用戶日常生活中絕大多數的信息檢索、處理、決策，我們剛剛熟悉的商業世界、技術應用也將隨之發生巨大變化。

此前，微軟嘗試將Copliot融入Windos11，谷歌和亞馬遜也正在嘗試將自己的大模型融入到系統與産品之中，這些動作，都是在爭奪用戶“AI助理”的入口。而ChatGPT的本次升級，意味著“AI助理”的技術競爭開始進入了新的階段。

或許很快，大模型將不再是一個只有少數人或特定行業使用的生産力提升工具，而將迅速成爲普通人日常生活的重要助理，並最終成爲公衆日常信息交互的主要入口。

撰稿 / 馬爾文（媒體人）

編輯 / 遲道華

校對 / 李立軍

運政人員“碰瓷式執法”，執法目的和手段都需正當 | 新京報快評 “貓狗能否上高鐵”，討論即有價值 | 新京報快評歡迎投稿：新京報評論，歡迎讀者朋友投稿。投稿郵箱：xjbpl2009@sina.com 評論選題須是機構媒體當天報道的新聞。來稿將擇優發表，有稿酬。投稿請在郵件主題欄寫明文章標題，並在文末按照我們的發稿規範，附上作者署名、身份職業、身份證號碼、電話號碼以及銀行賬戶（包括戶名、開戶行支行名稱）等信息，如用筆名，則需要備注真實姓名，以便發表後支付稿酬。

文采家

像真人一樣聊天，ChatGPT向AI助理更進一步|新京報快評

新京報評論5