不用喚醒詞就能對話,蘋果的AI要先爲Siri賦能

三易生活 2024-03-25 21:27:09

在放棄造車後,AI無疑就成爲了空間計算之外,蘋果未來持續增長的另一個引擎。毫無意外的是,繼Android陣營友商開始造勢“AI手機”後,有傳言稱蘋果即將在今年秋季登場的iPhone 16系列和iOS 18上,AI就會占據不小的比重。就在蘋果方面3月22日剛剛發表的一篇論文中,就透露了他們的研究人員正在嘗試利用人工智能消除智能語音助手Siri的喚醒詞。

這篇出現在預印本網站Arxiv的論文中顯示,蘋果的研究人員使用捕獲的語音以及來自背景噪音等總計超過129小時的聲學數據,訓練了一個大型語言模型,該模型部分基于OpenAI的GPT-2構建,因爲它相對輕量級,可以在智能手機等設備上運行。並且相關研究人員聲稱,該模型能夠比純音頻或純文本模型做出更准確的預測,並且會隨著模型規模的擴大而進一步改進。

借助AI讓用戶不需要使用特定的“Hey Siri”喚醒詞,隨時隨地與Siri展開對話,盡管可能不如“AI手機”那樣看似高大上,但也更符合蘋果一貫審慎地在iPhone上增加新功能的策略。必須要承認的是,Siri等智能語音助理是手機完成AI化的最佳切入點,而AI手機的理想形態,當然是將AI技術與操作系統整合,將AI的能力播灑在手機系統的每一個角落,最終達到潤物細無聲的效果。

只可惜,目前的端側大模型也僅僅只是做到了在手機上運行大模型而已,用AI賦能操作系統,並通過API來支撐不同場景、不同任務還是鏡花水月。由于現階段端側大模型與用戶下載大模型App獲得的體驗沒有質的區別,這也是爲什麽現在有不少人認爲“AI手機”是僞命題。所以借助智能語音助手將AI大模型的能力提供給用戶,並成爲AI觸達用戶的入口,也是當下許多手機廠商最簡單、且有效的解決方案。

五六年前,手機圈曾有過一輪智能語音助手熱潮,諸如小愛同學、Jovi、小布、小藝等,也都曾作爲新品發布會上的主角。得益于此,用語音助手來實現AI的認知早已埋藏在消費者的腦海中,所以用戶用語音來作爲媒介與AI進行自然語言對話,或許就是最符合當下普通用戶對于AI的想象。

那麽問題就來了,蘋果利用人工智能來消除Siri的喚醒詞到底有什麽意義呢?

爲什麽智能語音助手會過氣,使用體驗不佳無疑是核心。借助Siri等語音助手用聲音來操控手機,其實是一件很有未來感的事情,此前各大廠商在發布會上展示的效果,就已經有了科幻片中展現的未來生活範式味道。可當大家實際使用的時候卻發現,“Hey Siri,打開抖音”、“小愛同學,打電話給張三”等操作與人類之間的對話有著明顯區別,甚至可以說喚醒詞的存在將用戶從科幻拉回了現實。

實際上,爲什麽語音助手一定需要一個喚醒詞呢?從某種程度上來說,喚醒詞也成爲了各廠商的招牌,是品牌形象的一個組成部分,通過每次激活語音助手時所說出的喚醒詞,用戶關于品牌的記憶也會在這日複一日的重複中被強化。除此之外,讓語音助手一直處于激活狀態會增加手機的功耗,進而導致用戶感知到續航下降。

爲了節能,手機廠商想出了語音喚醒(keyword spotting),並通過低功耗協處理器來實時監聽麥克風,一旦監聽到類似“Hey Siri”、“小愛同學”等提前設置的喚醒詞時,就會將語音助手從休眠狀態激活到工作狀態。就像人類用姓名來區分個體一樣,“Hey Siri”、“小愛同學”其實就是語音助手的名字。

其實語音喚醒技術的原理並不複雜,即利用聲紋識別技術實現定向人聲分離,將人聲從複雜的環境噪聲中挑選出來,再搭配聲紋識別編碼器,來准確分辨用戶提前錄制好的喚醒詞聲紋特征。說出喚醒詞,就和人類發起與他人談話時會叫出名字是一回事,但是人類之間的對話屬于“一次喚醒、多輪交互”,我們還可以用視線、手勢等其他感官輔助,讓他人知道有人在和我對話。

但一邊思考一邊說話,就會造成用戶在使用語音助手時需要重複喚醒,而這就成爲了語音助手的命門。但如果想要做到無感化,讓用戶無需說出“Hey Siri”這類喚醒詞、而語音助手知道用戶准備和自己對話,這背後的差別可就大了。就好比我們不用說出對方的名字、對方卻知道我們要與TA說話,就需要在龐雜的對話中精准分析出哪句話是對TA說的。用成語來形容,就是蘋果希望做到Siri與用戶之間達到“心有靈犀”的狀態。

讓Siri能聽懂用戶說話時的語境,通過收集海量的用戶語音信息,預訓練出一個專精于“察言觀色”的大模型,就是這次蘋果研發人員的核心工作。經過海量語料訓練出的多模態大模型具有共情能力、會“讀空氣”,這是經過了實踐檢驗的。可是免喚醒詞激活語音助手是有風險的,因爲這就意味著iPhone會全天候保持錄音狀態,以響應用戶的對話需要,這背後蘊含著巨大的隱私安全風險。

要知道,時刻保持錄音狀態就意味著iPhone變成了一個用戶身邊的監聽設備,在經過了此前大批智能音箱未經用戶允許主動監聽的風波,蘋果方面顯然知曉其中的風險。Siri則是目前智能語音助手中可以不向廠商分享數據,甚至能夠只在設備端運行,而其被許多用戶吐槽“智障”的原因,就是因爲它不能使用雲端算力。

隱私無疑是蘋果如今爲旗下設備主動營造的一張王牌,所以不可能爲了AI、而讓用戶有其主動監聽自己的感受。這也是爲什麽蘋果會選擇GPT-2,而非Mate Llama 2、谷歌Gemimi,乃至自家MM1等參數更大大模型的原因。能夠實現端側部署的大模型,才是蘋果做到免喚醒詞激活Siri的前提條件。不過如今小尺寸模型真的能做到在複雜聲學條件下,准確識別用戶語境的能力嗎?

0 阅读:13

三易生活

簡介:專注IT,最快最專業資訊!