2024谷歌開發者大會：三句話不離AI

I/O 大會（開發者大會）是谷歌一年一度的秀肌肉時刻，也是人工智能時代不容錯過的大舞台。今日淩晨，新一屆I/O 大會在谷歌加州總部開幕。據悉，本次大會結束後統計提到了 AI 共 121 次（包括文本的話實際應該還不止），全面展示了谷歌如何將AI技術融入其核心産品，從搜索引擎到移動操作系統，再到專用硬件，AI的應用無處不在。

特別是Gemini 1.5 Pro的發布，標志著谷歌在處理大規模數據和提升用戶體驗方面邁出了重要一步。此外，谷歌還推出了更輕量級的模型Gemini 1.5 Flash，以及進一步升級的開源模型Gemma 2，這些舉措不僅展示了谷歌在AI技術上的創新，也彰顯了其推動AI技術普及和應用的決心。

Gemini 全家桶叠代

Gemini 1.5 Pro是本次的重頭戲。谷歌將Gemini 1.5 Pro的上下文長度從原有的100萬tokens提升到了200萬tokens，這一升級將極大地增強其數據處理能力，使得模型在處理更加複雜和龐大的數據時更加遊刃有余。同時，谷歌還宣布Gemini 1.5 Pro將全面支持Workspace。

據悉，全新Gemini 1.5 Pro具有原生音頻理解、系統指令、JSON模式等，能夠使用視頻計算機視覺來分析圖像和音頻的視頻，這使其具有人類水平的視覺感知。使用深度神經網絡，Gemini 1.5 Pro可以以超人的精度識別圖像中的物體、場景和人物。此外，谷歌宣布將Gemini 1.5 Pro面向全球開發者開放。

同時，爲了快速響應與成本效益，谷歌還推出更輕的模型Gemini 1.5 Flash，其在摘要生成、聊天應用、圖像和視頻字幕、以及從長文檔和表格中提取數據等方面表現出色，主要面向廣大開發者群體。

值得一提的是，谷歌將進一步升級開源模型Gemma 2。據了解，Gemma 2模型的高效設計使其所需的計算量少于同類模型的一半，使更廣泛的用戶能夠輕松部署並享受成本效益。

谷歌還宣布爲Gemini平台引入旅行規劃功能。該功能將結合個人信息和公共出行信息，幫助用戶進行航班、酒店等度假行程的預訂和規劃。谷歌表示，Gemini可以根據用戶的提示，快速挖掘出航班時間和酒店預訂等具體細節，在短短幾秒鍾內制定出合適的度假計劃。與手動規劃一次旅行可能需要數小時、數天甚至數周的時間相比，Gemini幾乎可以瞬間完成這一過程。

谷歌表示，新的旅行計劃功能將在未來幾個月內登陸Gemini Advanced平台。

搜索引擎升級

谷歌相信人工智能是搜索的未來。爲此，谷歌開始向搜索引擎“動刀”。

谷歌即將向美國和世界各地的用戶推出“AI概述”——在搜索結果的頂部將出現人工智能生成的摘要，而這只是人工智能如何改變搜索的開始。

谷歌搜索主管Liz Reid說：“我們從生成式人工智能中看到的是，谷歌可以爲您進行更多的搜索。”過去幾年，她一直在研究人工智能搜索的所有部分。“它可以從搜索中完成很多艱苦的工作，所以你可以專注于你想完成事情的部分，或者你覺得令人興奮的探索部分。”

AI概述，旨在讓用戶大致了解查詢的答案，以及獲取更多信息的資源鏈接。谷歌正在使用其Gemini人工智能來弄清楚你在問什麽，無論你是在打字、說話、拍照還是拍攝視頻。然而，Reid說，並非每次搜索都需要這麽多人工智能，也不是每次搜索都會得到它。“如果您只想導航到URL，您可以搜索沃爾瑪，然後前往walmart.com。添加人工智能並不真正有益。”她認爲Gemini最有幫助的地方是在更複雜的情況下，你要麽需要進行大量搜索，要麽甚至一開始就得到一個大概的預覽。

對于本地搜索，有了Gemini，“我們可以做一些事情，比如‘在比肯山步行半小時內找到波士頓最好的瑜伽或普拉提工作室，評分超過四星級。’”也許，她繼續說，你也想知道哪些對第一次來的人有最大的幫助。對于用戶來說，這可能意味著一種與互聯網互動的全新方式：更少的打字，更少的標簽，以及更多的搜索引擎聊天，獲得信息將更加高效。

針對競對推出 Project Astra 和 Veo

針對昨日OpenAI發布的GPT-4o，谷歌也發布了對標的大模型Project Astra。

據介紹，谷歌是在 Gemini 的基礎上開發了智能體原型，它可以通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中並緩存此信息以進行有效調用，從而更快地處理信息。通過語音模型，谷歌還強化了智能體的發音，爲智能體提供了更廣泛的語調。這些智能體可以更好地理解他們所使用的上下文，並在對話中快速做出響應。

另外，爲了對抗 Sora，谷歌開發的AI視頻生成軟件Veo，同樣支持使用文本生成視頻，並且能創建超過60s的1080P視頻，同時還能使用多種電影風格和更好地理解自然語言。

谷歌表示，創作者在使用Veo時，可以使用各種電影拍攝術語來指導Veo達到想要的視覺效果，如“延時攝影”和“風景航拍”，減少調整提示詞的時間。另外，Veo還支持擴展視頻的功能。如果創作者對現有的視頻長度不滿意，可以讓Veo自動擴展視頻，或者補充提示詞來生成更長的視頻。

目前谷歌已經開放了試用通道，未來其還准備將Veo的一些功能添加到YouTube的短視頻模塊中。

Android 15

毫無疑問，人工智能是谷歌在本次大會上的重中之重。在移動操作系統上，Android 15得到了Gemini的助力，包括它即將提供的設備端功能。

當前的Android 15預發布版帶來了新功能，如更多的應用程序內相機控制、部分屏幕共享和響度控制，以及對PDF、NFC和衛星連接支持的改進。谷歌移動操作系統的新增內容側重于生産力，用戶隱私和安全，通信和性能等。

除了融合谷歌Gemini大模型，Android 15還新增了多項功能，比如弱光增強功能，這是一種新的自動曝光模式，它與夜間模式相機創建靜態圖片的方式不同，後者會通過多張合成來提升夜景表現。弱光增強的重點在于提升相機預覽界面的效果，以便用戶更好地在弱光環境下取景構圖，或者在光線昏暗的環境下掃描二維碼。

目前，Android 15開發人員和測試版僅在某些Google Pixel設備上可用，從Pixel 6到Pixel 8 Pro，以及Pixel Fold和Pixel Tablet。

第六代 TPU 問世

TPU（張量處理器）是谷歌爲機器學習定制的專用芯片，發端于十一年前，在谷歌諸多産品和服務中都能看到其身影，爲谷歌AI帝國的建立立下了赫赫之功。

谷歌表示，全新的Trillium 能夠以更快的速度訓練新一代 AI 模型，同時減少延遲和降低成本。與上一代 TPU v5e 相比，Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍，高帶寬內存 ( HBM ) 容量和帶寬提高了一倍，芯片間互聯 ( ICI ) 帶寬也提高了一倍。作爲迄今爲止谷歌最具可持續性的 TPU，與其前代産品相比，能效提高了超過 67%。

結語

時隔一天，谷歌緊隨對手 OpenAI，密集地推出了一系列AI産品或服務。在此，谷歌不僅展示了其在AI技術上的突破，更彰顯了其將AI融入日常生活各個方面尤其是生産力的決心。

對此，英偉達高級科學家Jim Fan發表了自己的觀後感，他認爲谷歌做對了一件事，“他們終于開始認真努力將人工智能融入搜索框，”他表示，谷歌最強大的護城河是分銷，“Gemini不必是最好的模型，就可以成爲世界上使用最廣泛的模型。”

文采家

2024谷歌開發者大會：三句話不離AI

動點科克