蔚來任少卿:AI進入現實世界,車企會更有優勢|36氪專訪

36氪 2024-04-29 10:20:21

采訪|李勤 李安琪

文|李安琪

編輯|李勤

今天智能駕駛的發展節奏,幾乎所有從業者都未預料到。

2022年底,在蔚來智能駕駛研發副總裁任少卿的判斷裏,城區NOA(領航輔助駕駛)的規模鋪開,需要挨個開城。

但進入2023年,一下子就要“全國都能開”。始作俑者是華爲。甚至華爲提出的“全國都能開”,也是在同行不斷加碼開城目標後,被動做出的調整。

智能駕駛是嫁接在智能汽車核心屬性中的技術變量,它被認爲是最大勢能的變革之一。在各家車企的落地節奏中,自然寸步難讓。

但可能少有人料到,是蔚來緊跟華爲,把“全國都能開”的高階智駕交付給用戶。去年開始,華爲喊出智駕“全國都能開”,不斷刺激著同行的神經。蔚來智駕則相對低調,鮮少參與開城數字交鋒。

今年開始,蔚來智駕風格突變,鬥志拉滿。

按照蔚來的計劃,將于4月30日開啓全域領航輔助NOP+全量推送。不僅成爲華爲之後,第二家交付全域領航輔助駕駛的車企,從用戶推送規模看,也是目前體量最大的一家,超20萬量級。

蔚來節奏激變是如何發生的?

數日前,36氪在北京見到了蔚來智能駕駛研發副總裁任少卿。近3個小時交流中,任少卿分享了智駕工程、技術和安全等問題,以及對端到端自動駕駛、世界模型等前沿技術的洞察。

蔚來智能駕駛研發副總裁任少卿

2020年8月加入蔚來前,任少卿已經是計算機視覺領域的風雲人物。其畢業于中國科大與微軟亞洲研究院聯合培養博士班,2016年曾獲得全球計算機視覺頂級會議CVPR 最佳論文獎。畢業後還參與創立智能駕駛公司Momenta,擔任研發總監。

然而,智駕量産之路荊棘遍地。雖然投入重資,蔚來直到2023年才發布全域領航輔助NOP+功能。質疑伴隨著蔚來智駕團隊。

任少卿說,蔚來有自己的邏輯和節奏,“我們習慣于把基礎的東西先做完”。團隊除了經曆早期4顆Orin芯片的域控制器控選型,還重寫了軟件架構。2022年,任少卿判斷,智駕必然會從高速走向城區,因此帶領團隊開始部署兼容城市場景的算法架構,“我們不是第一個推出城區智駕功能的公司,但是第一個城區技術架構上車的”。

蔚來CEO李斌爲團隊構建了以汽車工業爲基礎的認知邏輯,即圍繞“十幾年車輛生命周期”做技術布局。

蔚來的思路是,智駕軟件至少做到10年更新,三代軟件同架構,硬件起碼要保證6-7年的最佳體驗。

蔚來在二代平台車型標配4顆英偉達Orin芯片,整車AI算力1016 Tops。蔚來的堅持一度被質疑,畢竟同行普遍采用2顆Orin方案,即便蔚來第3顆Orin作爲系統冗余,仍有1顆Orin“賦閑”。

但在蔚來的技術體系下,節奏突變的關鍵,也是找到了第4顆Orin的用武之地,跑出“群體智能”路線。

2023年9月,任少卿和智駕團隊定下目標,在今年二季度完成60萬公裏城市道路驗證。

行業普遍的做法是,自建測試車隊,即一城城驗證後開通路線。但結合群體智能,蔚來可以通過每台量産車的1顆Orin算力,乘以規模數量,得以驗證道路的智駕功能是否可用。這超出蔚來意料,原定9個月的才能完成任務,實際只用了3個多月。

蔚來智駕開始“狂飙”。任少卿表示,目前每月的道路驗證裏程達數千萬公裏,蔚來智駕已經在全國726個城市鋪開。

在任少卿看來,在整個智能駕駛的技術落地背後,根基是安全。

蔚來推送全域領航輔助駕駛的一個核心標准,就是事故率低于人類開車,未來2-3年,蔚來還計劃將事故率降低30%乃至更低。

爲了減少事故風險,蔚來選擇了一條枯燥的道路:分析用戶的所有智駕接管數量。“每天可能達幾百萬次。”第4顆Orin可以篩掉99%無用數據,再經過複雜流程,得到萬分之一安全接管案例,回傳至雲端。此外,蔚來還能通過ADAS(輔助駕駛)和ADMS(增強型駕駛員感知系統)等系統精准地提醒用戶,減少事故發生。

技術演進方面,“端到端”被視爲智駕行業下一代方案。

據任少卿介紹,蔚來的端到端智駕方案是將感知模型與規控模型合並,實現信息無損傳遞。當前行業各家基本都在構建感知大模型與規控大模型。

大模型化很重要的一點是,讓智駕擁有更強的預測能力。就像大語言模型ChatGPT能夠預測下一個字詞,智駕也要具備對物理世界的時空認知能力,認識“路面下雨會打滑”等物理規律。

這背後是更龐大的世界模型。去年中,蔚來開始探索機器人世界模型,目前已有階段性成果,端到端方案也將在年內發布。

任少卿認爲,機器人世界模型的建立強依賴于機器硬件如智能汽車、機器人等。而這些硬件生産與供應鏈能力,恰恰是中國公司的強項。這也是車企做世界模型的優勢所在。“車企一定會是真實世界中領先的人工智能企業。”

以下是36氪汽車與蔚來智能駕駛研發副總裁任少卿的對話,經編輯:

「談城區智駕:華爲教會了大家打“心智戰”」

36氪汽車:從競爭角度來看,大家加快開城速度與華爲有關系嗎?

任少卿:華爲教會了行業怎麽打心智戰。智駕的使用和熟悉成本確實比較高,像座椅電視這種,10秒鍾搞不明白,一分鍾總搞明白了。但智駕說不清楚,一些測試和試駕最少得跑兩三個小時。華爲讓消費者認知到了智駕。

36氪汽車:“全國都能開”對于智駕行業有什麽特別的意義?

任少卿:自動駕駛每年都有熱詞,2022年的BEV(鳥瞰圖),2023年Occupancy Network(占用網絡),今年的全國開城、端到端大模型。對于頭部玩家,今年上半年開城就會進入尾聲。

城區智駕屬于高端功能,但其實智駕還有兩條線,往下走,做好更便宜的方案;往上走,探索L3級自動駕駛,法規、保險全部都要跟上。

36氪汽車:智駕功能之前是按城市是挨個驗證的,現在明顯感覺大家都來不及了,這對你們的價值觀來說有挑戰嗎?

任少卿:之前大家不太理解我們的邏輯,最近逐漸有一些理解了。

我是2020年下半年加入蔚來,那時候正好是設計第二代平台。第一個不被理解的問題是,爲什麽把激光雷達裝到頭頂?

它確實挑戰了很多傳統車的設計語言,內部設計同學一開始也很難受。

這其實是基于我們的認知。激光雷達裝在車頂比裝在車前感知更遠,泥點子、灰塵影響更小、維修成本更低,還不容易被撞到,對用戶價值更高。

斌哥(蔚來CEO李斌)就去溝通造型設計的同事,他說這是挑戰,也是個機遇,這是之前沒有過的設計語言,如果做得足夠好,可能會引領一個時代。

現在已經有很多車的激光雷達裝在車頂,但細看,整體協調性和流線感還比不上蔚來的設計。

第二個被诟病的是4顆英偉達Orin芯片。但換個角度,大多數人的車怎麽也得開個5-10年。Orin是2022年下半年量産,Thor(英偉達下一代芯片)明年量産,三年換代,難道三年也要換車嗎?

芯片行業變化很快。從2017-2018年到現在,算力變化百倍千倍。Mobileye 的EyeQ4是2018年量産,算力2.5 Tops,但2022年的Orin算力254 Tops了,100倍差距。如果到2025年Thor量産,6年時間算力上漲500倍。

所以軟硬件設計平台生命周期要足夠長,這對用戶的長期持有是最有價值的。我們想做到軟件更新10年,三代軟件同架構,硬件上要做到兩代,6-7年時間。

36氪汽車:所以李斌的邏輯還是從汽車工業出發,不是消費電子?

任少卿:他考慮的是生命周期。車不是手機,不能一年一換,要看10年-15年。消費者買的時候可能加了一些錢。30萬以上的車加3%成本,總比三年換一輛車成本低得多。

今年,能實現城區智駕的車,ET7是最老的一輛。很多比它晚上市的車,都做不了城區智駕。

36氪汽車:蔚來全量推送的標准是什麽?

任少卿:我們的紅線的是,全域領航功能的安全性一定要比人開要好。不管是全域智駕開放,還是車輛使用全生命周期,我們都希望能夠減少事故。

減少事故,涉及到一個非常複雜的系統。首先要知道有沒有事故?這不是一件容易的事。像氣囊炸了這種很容易監控,但有些剮蹭,用戶自己可能都不知道,也不知道別人蹭了你還是你蹭了別人。

我們從去年中開始建系統,一開始用氣囊、IMU(慣性傳感器)的數據,但都很難判斷,後面把視覺和Occupancy(占用網絡)加入進來做剮蹭判斷。

36氪汽車:很多時候是車輛快要蹭到了,用戶安全接管,這種也會納入數據分析嗎?

任少卿:會有。冰山上的問題永遠是小的,還需要看冰山下面的數據。所以我們建了第二套系統,分析所有接管。這是什麽概念?一天幾百萬次接管,包括高速NOA的接管。這是一個更複雜的系統。因爲數據量太大,可能都沒有辦法回傳。

怎麽辦?群體智能。比如100公裏接管了10次,車端一顆Orin可以篩掉99%不是安全接管的案例,剩下1%的安全性接管,再經過一個複雜自動化流程,再篩掉99%,得到萬分之一的案例。所以其實是兩個指標,真實事故和潛在事故。

36氪汽車:數據分析完了,怎麽減少事故率?

任少卿:所以這是一套多級體系。第一級是基礎功能加強,比如用OCC(占用網絡)、激光雷達等增強對安全接管的分析。

然後是功能級警報。我們有兩套系統,ADAS(輔助駕駛)和ADMS(增強型駕駛員感知系統)。之前駕駛員的監測邏輯是,用戶可能不處于緊張狀態,DMS也會做提醒,但現在我們車內外傳感器都融合,判斷風險場景的出現,更多信息輸入,可以更精准地提醒。

我們還做了另一套系統,智駕分數。結合我們的事故分析,會發現低分用戶與高分用戶的事故率差8倍以上。低分數用戶的事故率較高。高分用戶能開的智駕功能或者小路就會多一些,低分用戶可能在主幹道上用智駕更安全。

36氪汽車:智駕全國都能開在二季度推送,這個決策是什麽時候做的?

任少卿:可能就今年年初。一方面是,我們原定60萬公裏可能要9個月才能完成,就是去年9月到今年6月,但我們發現去年12月就已經差不多了,用戶熱力道路都搞完了。剩下的就是,解決安全和體驗上的問題。這是一個巨大的拐點。

36氪汽車:如果沒有華爲,你們全量推送的節奏會不會更往後一點?

任少卿:華爲也是因爲之前有人喊出了100城,所以才往前走一點。中國跟美國智駕市場不一樣,特斯拉更多按照自己的節奏來走,但中國是一堆人在旁邊,大家都在互相卷。

36氪汽車:智駕追求安全和穩健,這跟這行業競爭的快節奏有沖突嗎?

任少卿:我們的長期目標大家可能都認同,但短時間內確實非常卷,每個月不發一個智駕版本可能都會覺得落後,所以每個月都在發版。客觀問題逃脫不了的。

但長期工作一定要堅持。工程師如果只爲了每個月發版而卷,那沒有意義。比如這版開發了某個功能,但下一版就沒有了。長期的認知框架,可以保證做的事持續有用。

還要有很強的測試能力,測試叠代的能力能保證能夠實現終極目標。比如原來智駕半年做一次測試,但現在每月一測。如果測試搞不定,就隨便發出去嗎?這肯定不行。

全國道路都能開,實際有兩件事要做。第一是路真的能開,包括通用檢測能力,去複雜路口記一些東西。這都是技術算法範疇。

第二是能驗證。中國城區道路各種各樣,北京朝陽跟海澱,跟平谷就不是一個世界。怎麽能驗證這些路都能開,其實是一個複雜系統。

「談蔚來智駕:我們習慣把基礎的東西做完」

36氪汽車:有技術公司認爲,智駕是標准化的功能,不是産品,車企不應該做,您怎麽看?

任少卿:我們不覺得智駕是功能,甚至也不是産品,我們覺得它是個服務。服務需要長期更新的,給用戶提供可用、安全的、領先的東西。所以這也是我們一直在推訂閱服務的原因,從商業邏輯上來說,買斷智駕是不現實的。

買斷一定會導致大家短視。就是現在很多車賣了,功能裝到車上就結束了,後面更新就看車企的良心。

從價值來看,車如果要讓用戶事故率下降30%,肯定不能只把它當功能來做。功能只是智駕的低級階段,但是中高階段一定很快會來。

36氪汽車:一些車企智駕做的不錯了,但市場還是懷疑,智駕是不是真得能幫助賣車?

任少卿:說白了智駕還是個小衆市場,還沒有進入大衆市場。

這是需要我們從業者去做的。第一,價值持續擴大,城區智駕就是一個價值擴大的點。之前高速NOA的體驗成本太高了,繞兩小時才能體驗到。城區智駕,可以降低用戶試駕的認知成本。第二,智駕的安全性需要很強的第三方證明。有了證明報告,消費者能看到實際的智駕價值。

36氪汽車:現在智能駕駛的技術構型成熟了嗎?還會有大的技術拐點嗎?

任少卿:從技術角度來看,基本框架都在了,後面需要持續叠代和運營,是個系統性工程。比如怎麽證明蔚來的總體事故率 (包括人駕、人機共駕)真的減少30%,很難。因爲用戶只有在出事故時,才有明顯體感。

但從規模群體來看,是有可能的。所以我們也在探索保險業務,跟第三方合作驗證。

36氪汽車:L3大概在什麽節點?商業模式上會有大的變化嗎?

任少卿:L3就跟城區一樣,小規模的使用和全量之間,還是會差1~2年。小規模可能會比較快。L3的決定性因素還是安全。如果遇到接管場景,用戶可能要等一段時間,給系統幾秒鍾再接過來。

商業角度,從保險和責任維度上肯定有一些轉移,原來個人負責,L3狀態的話車企主責,保險邏輯和商業邏輯可能就要變發生變化。我們也在籌備保險相關的東西。

當然,還有政策等因素。蔚來也一直在積極推進政策落地,今年應該會有政策允許L3試點車型。原來的L4自動駕駛的測試都是紙質車牌,L3發會發鐵牌,算是新型號的車。

36氪汽車:蔚來智駕開始服務樂道,會考慮別的合作嗎?技術複用度如何?

任少卿:我們是一個很open的狀態。現在我們的第二個品牌就在複用平台的技術,包括NT2.0和NT3.0也要同平台。硬件會換,但我們自己要求模塊級的複用度——就是模塊級複用的比例85%以上。我們也要在新的車輛平台驗證,智駕架構能做到這些事,以及成本足夠低。

另外,我們是國內第一個能夠跨洲量産智駕的。在歐洲我們的高速NOP已經推送了。這是我們純自研的第一代NOP,2022年3月份在國內量産ET7後,我們在當年9月份在歐洲量産了ET7,建立了功能安全、智能安全這些大規模量産能力。現在我們在歐洲去測純感知、純無圖的NOP+。當然,也要在歐洲建立當地的數據中心。

36氪汽車:您從2020年8月加入蔚來,2022年12月全域智駕才推出來。這個過程應該是有很多外界的噪音和壓力,您怎麽應對的?

任少卿:加入的一年半,開始半年是傳感器、芯片選型,建立團隊。因爲Orin 是全球第一個量産的,而且提前了半年;高線束激光雷達也是全球第一個量産的,所以前一年半從團隊和工程上的挑戰是很大的。

2022年3月份ET7量産之後,我們又在歐洲做量産,這又是一個很有挑戰的事情。2022年底才推了高速NOP,這可能也讓大家覺得慢了。

但慢的背後故事是,爲了推高速NOP功能,我們把所有架構都重建重寫了。當時有兩個選擇,NT1.0的高速功能(基于Mobileye的方案)是比較成熟的,可以直接拿過來用,第二是全部推翻、重搞,我們選了後者。

我們的判斷是,智駕功能一定不會止于高速,但NT1.0的架構是不可能支持高速以外的東西,城區智駕做不了。

所以在2022年3月量産了ET7之後,花了9月時間,重構了高速NOP的功能,到2022年12月才推出,接著推出城區功能。

而其他家,是用原來的方案做完高速領航,再做重寫城區架構,車上有兩套不一樣的架構,然後反過來把城區智駕架構開放給高速NOA功能。

但我們不一樣。我們是先把能夠進化的架構重建了,先推了高速,然後再順著推城區。我們是第一個有城區智駕架構,只是功能還沒有實際推給用戶。大家各自有的東西不一樣,我們習慣于把基礎的東西先做完。

36氪汽車:城區智駕的仗打完了嗎?

任少卿:全量全國都開了,往後走,還有城區的持續優化。

我們覺得,智駕開城整體需要兩年的周期。開點是去年年中,第一年大家要解決的問題是智駕功能可用,全國道路能開。第二年要解決的問題就是,智駕好用。

所以我們還需要花一年左右的時間,把城區的智駕體驗推到現在高速領航的等級。

「談AI:車企做世界模型更有優勢」

36氪汽車:你之前在微軟研究院提出了Resnet圖像識別架構,那怎麽看Transformer也用來做圖像識別,它會是更加主流的東西嗎?怎麽看行業端到端智駕趨勢?

任少卿:Transformer已經是主流的東西。AI未來10-15年就兩個趨勢,一是性能更好,比人幹的好。原來AI對話覺得很傻,但現在已經靠譜很多,看起來更像人了。二是追求更通用,原來模型只能做3件事,現在做5件事。Transformer架構的好處就是,一下這兩個方向都卷完了,算是一個裏程碑,但演進還會持續。

36氪汽車:端到端會對現在的城區智駕是個顛覆性的事嗎?

任少卿:特斯拉FSD V12在北美的表現已經非常好了,但特斯拉也不容易,搞了6年才全量推給用戶。

大家都說“端到端大模型”,我把它分爲三個事兒,第一層叫模型,現在國內車輛完整上模型的都沒幾家,別說端到端大模型了。感知模型大家可能都上了,但規控還沒有。

但這裏有很多工程的挑戰。舉個例子,原來的多模塊方案,如果要改個控制策略,就在10萬行代碼中找到具體的幾行參數改寫一下。這10萬行代碼可能寫了一年,但只改三行,只測1%的case,3天能完成。

現在上了模型後,如果場景的規控策略不行,就得重新訓練一個,重新測一遍。那三天能不能測完?很難。這都不是算法的問題,是底層能力,只能靠自動化。

去年中,蔚來在高速NOA的規控裏加入AI神經網絡。所以第二層是端到端,其核心是把感知模型、下遊的規控模型連在一起。有了模型,才能有端到端。

之前感知模型輸出、規控模型的輸入是一個數據結構,由人工來定義,很容易有信息丟失的。比如描述一個人,人工會定義描述身高、體重、性別,但寫的再多,也不全面。如果某天AI神經網絡需要知道人的表情,但不好意思,之前沒有定義沒有學習。

而端到端不用再定義數據結構,直接把原始數據扔進去,AI神經網絡需要什麽就自己選擇,解決了數據流失的問題。我們今年也會推出一些端到端的東西,但最大的挑戰還是在工程上。

第三是大模型。大模型有兩種,一種是語言模型,另一種是世界模型。

語言模型是對一些人工抽象概念的認知能力。世界模型則是要建立對世界時間、空間的認知能力。比如現在會議室有四個人,但如果要把場景細節都說出來,是說不完的。

除了精細描述,還要學一些物理規律,比如杯子掉了會碎,路面下雨會打滑,建立這種世界認知。

這還非常早階段。我們從去年底開始訓練世界模型。某種程度上它是一個預測器,或者是對世界仿真器。表現形式就是,車輛預測一個場景之後發生的事情,如果跟人的認知一致,某種程度上可以說他學會了認知。

36氪汽車:那這個世界模型會首先用在智駕哪些地方?

任少卿:一種方式是,直接讓模型輸出軌迹去控制車輛,這有點激進了。現在我們只把它作爲一種預測參考,接到下遊的規劃模型。

36氪汽車:端到端方案的過程比較黑盒,智駕系統的下限是可以把握的嗎?

任少卿:現在能看到提升,但下限確實是需要工程化手段去保證。畢竟馬斯克只是說他在FSD v12刪了多少行代碼,但沒說他留了多少代碼。如果功能回退,要麽改模型,但周期很長,要不然就加規則。這是個螺旋上升的過程。

36氪汽車:自動駕駛會遭遇高質量數據的瓶頸嗎?大語言模型已經遇到了。

任少卿:語言模型的瓶頸是因爲互聯網的語言數據要沒了,但機器人的世界模型,遠沒到那個階段。語言本身是個高信息密度的東西,用人類幾萬年、幾千萬年的數據來訓練。但如果把它轉成圖像或者說激光雷達信息,同樣的時間長度數據會非常可怕。

現在上萬小時的視頻訓練,已經是大家的極限。只要付得起帶寬費用,幾十萬上百萬的車輛數據幾乎是無窮的,沒有到瓶頸階段。但機器人訓練的數據沒有互聯網這麽公開,相對比較難弄,這點車企會比較有優勢。

36氪汽車:車企真的有可能成爲一個領先的人工智能企業嗎?

任少卿:現在AI更在虛擬世界發揮作用,還沒進入真實世界終端。進入真實世界時,就需要更大規模的實際數據源。車企一定會是真實世界中領先的人工智能企業。

36氪汽車:端到端大模型實際上車會是什麽時間節點?

任少卿:我們其實會分開來看,端到端肯定已經在桌上了。大模型我們還在驗證,把它接進去到底能産生多大的價值。

大模型不是指絕對的大小,而是訓練方式和邏輯不一樣,太太底層了,並且用戶其實沒有太大的體感。它是一個漸進的過程,很多公司連模型化的工程積累都還沒有,就要考慮端到端,跨度有點大。

36氪汽車:現在AI大模型成爲新風口,車企怎麽跟AI科技公司拼人才吸引力?

AI的風口其實是一波接一波的。2016年火的是AI四小龍,後面是L4自動駕駛、然後AI制藥、2022年開始是量産智能駕駛,2023年是AI大模型。風口熱鬧的時候,賽道都是最有吸引力的時候。

但對從業者來說,肯定要經曆風口到冷靜期的階段,更多還是要看長期價值、長期競爭力。

自動駕駛所代表的機器人賽道,肯定是有長期價值的。中國和中國車企在這些點上是有長期競爭力的。

回到語言模型,國內的語言模型的劣勢在于,用戶的規模,說英語和中文的用戶體量不是一個量級。但機器人世界模型,中國是有一定優勢的。世界的本質是一樣的,而國內公司的優勢在于,需要硬件去觸摸世界。生産能力、供應鏈能力,是中國公司的強項,數據積累的能力並不弱。

大模型這一仗能打一打,就看怎麽打。所以AI人才是一波一波的,但要講好自己的故事,走好自己的路。從業者也不傻,想清楚自己的積累,找到要發揮的價值,就可以搞明白。

0 阅读:10