不用喚醒詞就能對話，蘋果的AI要先爲Siri賦能

在放棄造車後，AI無疑就成爲了空間計算之外，蘋果未來持續增長的另一個引擎。毫無意外的是，繼Android陣營友商開始造勢“AI手機”後，有傳言稱蘋果即將在今年秋季登場的iPhone 16系列和iOS 18上，AI就會占據不小的比重。就在蘋果方面3月22日剛剛發表的一篇論文中，就透露了他們的研究人員正在嘗試利用人工智能消除智能語音助手Siri的喚醒詞。

這篇出現在預印本網站Arxiv的論文中顯示，蘋果的研究人員使用捕獲的語音以及來自背景噪音等總計超過129小時的聲學數據，訓練了一個大型語言模型，該模型部分基于OpenAI的GPT-2構建，因爲它相對輕量級，可以在智能手機等設備上運行。並且相關研究人員聲稱，該模型能夠比純音頻或純文本模型做出更准確的預測，並且會隨著模型規模的擴大而進一步改進。

借助AI讓用戶不需要使用特定的“Hey Siri”喚醒詞，隨時隨地與Siri展開對話，盡管可能不如“AI手機”那樣看似高大上，但也更符合蘋果一貫審慎地在iPhone上增加新功能的策略。必須要承認的是，Siri等智能語音助理是手機完成AI化的最佳切入點，而AI手機的理想形態，當然是將AI技術與操作系統整合，將AI的能力播灑在手機系統的每一個角落，最終達到潤物細無聲的效果。

只可惜，目前的端側大模型也僅僅只是做到了在手機上運行大模型而已，用AI賦能操作系統，並通過API來支撐不同場景、不同任務還是鏡花水月。由于現階段端側大模型與用戶下載大模型App獲得的體驗沒有質的區別，這也是爲什麽現在有不少人認爲“AI手機”是僞命題。所以借助智能語音助手將AI大模型的能力提供給用戶，並成爲AI觸達用戶的入口，也是當下許多手機廠商最簡單、且有效的解決方案。

五六年前，手機圈曾有過一輪智能語音助手熱潮，諸如小愛同學、Jovi、小布、小藝等，也都曾作爲新品發布會上的主角。得益于此，用語音助手來實現AI的認知早已埋藏在消費者的腦海中，所以用戶用語音來作爲媒介與AI進行自然語言對話，或許就是最符合當下普通用戶對于AI的想象。

那麽問題就來了，蘋果利用人工智能來消除Siri的喚醒詞到底有什麽意義呢？

爲什麽智能語音助手會過氣，使用體驗不佳無疑是核心。借助Siri等語音助手用聲音來操控手機，其實是一件很有未來感的事情，此前各大廠商在發布會上展示的效果，就已經有了科幻片中展現的未來生活範式味道。可當大家實際使用的時候卻發現，“Hey Siri，打開抖音”、“小愛同學，打電話給張三”等操作與人類之間的對話有著明顯區別，甚至可以說喚醒詞的存在將用戶從科幻拉回了現實。

實際上，爲什麽語音助手一定需要一個喚醒詞呢？從某種程度上來說，喚醒詞也成爲了各廠商的招牌，是品牌形象的一個組成部分，通過每次激活語音助手時所說出的喚醒詞，用戶關于品牌的記憶也會在這日複一日的重複中被強化。除此之外，讓語音助手一直處于激活狀態會增加手機的功耗，進而導致用戶感知到續航下降。

爲了節能，手機廠商想出了語音喚醒（keyword spotting），並通過低功耗協處理器來實時監聽麥克風，一旦監聽到類似“Hey Siri”、“小愛同學”等提前設置的喚醒詞時，就會將語音助手從休眠狀態激活到工作狀態。就像人類用姓名來區分個體一樣，“Hey Siri”、“小愛同學”其實就是語音助手的名字。

其實語音喚醒技術的原理並不複雜，即利用聲紋識別技術實現定向人聲分離，將人聲從複雜的環境噪聲中挑選出來，再搭配聲紋識別編碼器，來准確分辨用戶提前錄制好的喚醒詞聲紋特征。說出喚醒詞，就和人類發起與他人談話時會叫出名字是一回事，但是人類之間的對話屬于“一次喚醒、多輪交互”，我們還可以用視線、手勢等其他感官輔助，讓他人知道有人在和我對話。

但一邊思考一邊說話，就會造成用戶在使用語音助手時需要重複喚醒，而這就成爲了語音助手的命門。但如果想要做到無感化，讓用戶無需說出“Hey Siri”這類喚醒詞、而語音助手知道用戶准備和自己對話，這背後的差別可就大了。就好比我們不用說出對方的名字、對方卻知道我們要與TA說話，就需要在龐雜的對話中精准分析出哪句話是對TA說的。用成語來形容，就是蘋果希望做到Siri與用戶之間達到“心有靈犀”的狀態。

讓Siri能聽懂用戶說話時的語境，通過收集海量的用戶語音信息，預訓練出一個專精于“察言觀色”的大模型，就是這次蘋果研發人員的核心工作。經過海量語料訓練出的多模態大模型具有共情能力、會“讀空氣”，這是經過了實踐檢驗的。可是免喚醒詞激活語音助手是有風險的，因爲這就意味著iPhone會全天候保持錄音狀態，以響應用戶的對話需要，這背後蘊含著巨大的隱私安全風險。

要知道，時刻保持錄音狀態就意味著iPhone變成了一個用戶身邊的監聽設備，在經過了此前大批智能音箱未經用戶允許主動監聽的風波，蘋果方面顯然知曉其中的風險。Siri則是目前智能語音助手中可以不向廠商分享數據，甚至能夠只在設備端運行，而其被許多用戶吐槽“智障”的原因，就是因爲它不能使用雲端算力。

隱私無疑是蘋果如今爲旗下設備主動營造的一張王牌，所以不可能爲了AI、而讓用戶有其主動監聽自己的感受。這也是爲什麽蘋果會選擇GPT-2，而非Mate Llama 2、谷歌Gemimi，乃至自家MM1等參數更大大模型的原因。能夠實現端側部署的大模型，才是蘋果做到免喚醒詞激活Siri的前提條件。不過如今小尺寸模型真的能做到在複雜聲學條件下，准確識別用戶語境的能力嗎？

文采家

不用喚醒詞就能對話，蘋果的AI要先爲Siri賦能

三易生活