谷歌AI春晚宣告Gemini時代將至，10倍能效10倍上下文碾壓OpenAI？

文｜李然虞景霖

編輯｜李然

封面來源｜官方視頻截圖

看過了昨天OpenAI雖然短但是科幻感極強的發布會，相信所有人都在期待一天後的谷歌將會給出怎樣的回應。

如果說前一天OpenAI的發布會是一道精致的法餐，谷歌的I/O大會絕對算得上是一道量大管飽，誠意滿滿的滿漢全席——谷歌端出了最新的大模型，全模態AI助手，開源視覺模型，視頻生成模型，再到算力芯片等等一系列AI行業中最頂級的産品和技術前來應對。

整場發布會看下來，谷歌一洗前兩年發布會結束都會給自己造成公關危機的“前恥”，通過自己深厚的技術積累，強大的工程能力和豐富的産品生態，向世人展現了一個自信且目標遠大的AI大廠應該有的樣子。

具體來說，谷歌是唯一一家同時擁有自己的原生支持從文字到視頻的多模態大模型，觸及全球幾十億用戶的AI應用場景，完全自主的AI算力芯片的科技大廠。谷歌在AI領域中提前下的這些“硬功夫”，一定會在未來繼續奔湧的AI大潮中結出豐碩的果實。

被OpenAI截胡的Project Astra，不夠驚喜但足夠驚豔

縱觀整個發布會，最讓人眼前一亮的發布就是這個幾乎和OpenAI提前一天發布的基于GPT-4o的AI個人助理一樣的Project Astra。不過可惜的是，因爲OpenAI的搶跑，它成爲了世界上第二個多模態AI助手。

官方視頻截圖

我們先來看看谷歌放出的Project Astra演示效果。注意，DeepMind Hassabis專門介紹，這個視頻是在真實環境中一次拍攝完成的效果。

可以看到，Project Astra也能實時的感知外部環境，並根據用戶提出的問題進行非常智能的反饋。視頻中，它向用戶提供了包括代碼編寫，生活常識建議，周圍環境的理解和識別，甚至能記住之前看到過的物品擺放位置。

可以說，相比OpenAI強調的自然人機交互，Project Astra的宣傳視頻看起來真的更智能，更加科幻。如果說OpenAI的GPT-4o是把電影《Her》中的Samantha搬進了現實，那麽Project Astra真的有鋼鐵俠Javis那味了。

根據DeepMind CEO Hassabis的說法，Project Astra可以理解空間，處理視頻輸入，並且能夠記憶之前處理過的內容。

官方視頻截圖

基于Gemini強大的原生多模態能力和超長的上下文，對于視頻的理解和記憶確實讓人看到了科幻電影中那種無所不能的智能助手的影子了。

不過稍顯可惜的是，Project Astra依然還只是一個原型，實際的産品可能短期之內還難以上線，但是詳細在技術層面厚積薄發，在産品層面又能集中力量辦大事的谷歌，希望未來不會讓用戶們失望。

Gemini時代到來，10倍上下文10倍能效碾壓OpenAI？

官方視頻截圖

作爲谷歌AI的拳頭産品，Gemini從去年底發布之後，其長達100萬token的上下文長度已經吸引了全世界超過100萬開發者用戶。

官方視頻截圖

用戶憑借它超強的上下文能力，可以將大量的文檔和數據一次性處理，讓Geimini輸出複雜的結果。

而且因爲Gemini原生的多模態能力，它能除了使用文字之外，在輸出中還可以包括圖片等多模態的結果和代碼。

官方視頻截圖

從5月15日起，Gemini 1.5 Pro的100萬token上下文能力通過谷歌的Gemini Advanced服務向全球的普通用戶開放。

而未來，Gemini 1.5 Pro將陸續開放200萬token的上下文能力。

而作爲像谷歌這樣産品衆多的大公司，Gemini的除了直接服務用戶，它與現有的谷歌應用結合在一起，將會迸發出更大的能量。

Gemini Flash——輕量版的Gemini Pro，價格直接打骨折

谷歌針對Gemini依然還在不斷做出優化，此次推出的Gemini Flash可以看做是類似GPT-4向GPT-4Turbo的升級。

官方視頻截圖

而在支持的功能上，Gemini 1.5 Flash也和Gemini 1.5 Pro一樣，是一個原生多模態的大模型，而且也支持100萬token的上下文。

相比與Gemini Pro， Gemini Flash有著更高的推理性能和低得多的價格，但是性能幾乎沒有太大的下降。

官方視頻截圖

在谷歌官披露的價格，Gemini Flash的價格基本上只有Gemini Pro和其他主流大模型API價格的1/10。

官方視頻截圖

從這個API的定價能看出，谷歌通過自己在能耗和效率上非常有優勢的TPU，把大模型推理的成本降到了一個令人發指的程度。相信在如此低廉價格的吸引之下，未來會有越來越多的開發者轉向谷歌的模型。

官方視頻截圖

爲了幫助用戶能更加自然的與Gemini對話，谷歌將會上線Gemini Live。用戶可以通過手機和Gemini直接進行語音交互。它可以幫助用戶練習面試，直接回答生活中的難題。而且在今年年底，Live還將支持視頻攝像功能。

計劃行程這種頭疼的差事兒，也可以甩給Gemini Live。你只需告訴它你的時間、目的地、興趣愛好等，它就能幫你制定一份個性化行程，包括景點、餐廳、活動，連路線時長都安排得明明白白。有變動還能自動更新，簡直是旅行規劃小能手。

此外，Gemini Live還能與谷歌日曆、任務、備忘錄等應用無縫連接。拍張課程大綱，它就能自動爲每項作業創建日曆提醒；或者把新get的菜譜拍下來，食材清單就自動同步到備忘錄裏了。

官方視頻截圖

未來，借助Gemini Live作爲入口，Gemini的能力將和谷歌生態中的各項應用深度融合，真正將大模型能力彙入我們的生活當中。

谷歌同時也在Gemini平台上推出Gems——谷歌版GPTs。用戶可以根據自己的需求創建專屬于自己的AI助手：爲你指定日常鍛煉計劃，用積極向上、充滿激情的語氣鼓勵你堅持的健身夥伴Gem,又或者是烹饪助手Gem、編程搭檔Gem……

官方視頻截圖

谷歌AI帝國的硬件基石——Trillium

官方視頻截圖

谷歌作爲唯一一家擁有AI算力芯片的大模型公司，也發布了他們第6代TPU——Trillium。谷歌宣稱，在今天I/O大會上發布的幾乎所有AI産品，背後都有TPU的支持。

和上一代TPU v5e相比，Trillium TPU的每芯片峰值計算性能提高了4.7倍，高帶寬內存(HBM)容量和帶寬提高了一倍，芯片間互聯(ICI)帶寬也提高了一倍，能效提高了67%。

官方視頻截圖

此外，Trillium配備了第三代SparseCore，這是一種專門用于處理高級排名和推薦工作負載中常見的超大嵌入的專業加速器。Trillium TPU使谷歌能夠更快地訓練下一代基礎模型，並以更短的延遲和更低的成本爲這些模型提供服務。

Trillium可以在單個高帶寬、低延遲的Pod中擴展到最多256個TPU。除了這種Pod級別的可擴展性外，通過多切片技術和钛智能處理單元(IPU)，Trillium TPU可以擴展到數百個Pod，通過每秒數PB的數據中心網絡連接大樓規模的超級計算機中的數萬個芯片。

可以說，正是因爲谷歌牢牢的掌握了自己的“算力自由”，才能在全世界都被英偉達割韭菜的AI浪潮中獨享低成本高效率帶來的優勢，按照自己的節奏一步一步建立起AI帝國。

開源社區狂歡，谷歌發布首個開源視覺大模型

而面對開源社區的期待，谷歌這次也是誠意滿滿，發布了新的開源大模型Gema 2。

官網截屏

而且還發布首個開源的視覺大模型PaliGemma！

網頁截屏

Hugging Face：https://huggingface.co/google

Gema 2按照谷歌的說法，是目前開源模型中效率和性能結合得最好的模型。

網頁截屏

Gema 2 27B以不到Llama 3 70B一半的體量提供了與Llama 3 70B相當的性能，爲開源模型設立的新的性能標杆。

而且Gema 2的S高效設計使其適合的計算量不到同類模型的一半。27B機型經過優化，可以在英偉達的GPU或者Vertex AI中的單個TPU主機上高效運行，讓用戶更容易進行部署，並且更具成本效益。

而且Gema 2將爲開發人員提供跨不同平台和工具生態系統的強大微調能力。從像Google Cloud這樣的基于雲的解決方案到像Axolotl這樣的流行社區工具，Gema 2的微調將比以往任何時候都更加容易。此外，與Hugging Face和英偉達TensorRT-LLM的無縫合作夥伴集成，再加上谷歌自己的JAX和KERAS，確保用戶可以優化性能並在各種硬件配置中高效部署。

網頁截屏

而PaliGema是一個受Pali-3啓發的強大的開源VLM。PaliGema專爲在各種視覺語言任務上進行了微調，能完成包括圖像和短視頻字幕、視覺問題回答、理解圖像中的文本、對象檢測和對象分割等任務。

OpenAI的AI搜索沒有等來，谷歌的讓人驚喜不已

谷歌正在從頭到尾將AI全面融入它的搜索引擎，可謂一場全方位的AI革命。谷歌CEO劈柴在前幾天的專訪中，專門提到了AI搜索，對于谷歌來說是不允許失敗的一仗。

當你需要一個快速答案卻沒時間自己拼湊信息時，就可以讓“AI概覽”（AI Overview）來代勞。用谷歌搜索新任掌門人Liz Reid的話說就是：生成式AI讓谷歌可以“帶你完成更多搜索工作”，專注于用戶真正想做的事。

這項功能已開始在美國上線，陸續將登陸更多國家。谷歌預計，到今年年底，將有超過10億人獲得訪問權限。

數據顯示，AI概覽中的鏈接較傳統網頁列表更容易獲得點擊。未來，隨著這一功能的拓展，谷歌將持續關注爲出版商和創作者帶來有價值的流量。

多步推理，一次到位，解決複雜問題

借助Gemini模型的多步推理能力，AI概覽將幫助用戶更複雜問題。用戶可以一次性提出包含所有細節和注意事項的問題，而不用將問題拆解進行多次搜索。

舉例而言，你想找一家受當地人歡迎、通勤方便且爲新客提供優惠的瑜伽或者普拉提工作室，你只需要在搜索框輸入：

找到波士頓最好的瑜伽或普拉提工作室，並展示店鋪的新客優惠及其到Beacon Hill步行所需要的時間。

網頁截屏

此外還可以讓AI概覽爲你提供膳食和獨家規劃幫助，例如“爲一群人制定一個易于准備的3天膳食計劃”，你就可以得到一個包含各種食譜的方案。如果想做出些調整，如將晚餐替換成素食，只需簡單說明，搜索就會自動修改計劃。你還可以快速將計劃導出到Google Docs或者Gmail中。

網頁截屏

當你尋找靈感時，AI搜索也能和你一起頭腦風暴，創建一個AI組織的頁面。你可以看到有用的搜索結果被歸類在不同的標題下面，涵蓋了多種視角。

網頁截屏

得益于Gemini多模態能力的進步，用戶不僅可以用聲音直接搜歌曲，還可以用“圈選搜索”（Circle to Search）功能圈出圖片中的一部分進行圖片搜索，甚至可以利用視頻查找信息。

例如在舊貨商店買了一台唱片機，但打開開關後卻發現它無法工作，唱針也出現了異常漂移。這時，你可以直接用進行視頻搜索，從而免去了費時費力找合適詞語來描述問題的麻煩，並能獲得一份包含故障排除步驟和資源的AI概覽。

目前，以上功能都指向美國地區使用英文搜索的實驗室用戶開放，其他地區還需耐心等待。

視頻、圖片、音樂三管齊下：谷歌多模態進展更新

谷歌在多模態AI領域又有新動作：不僅發布了新的文生視頻生成模型Veo，並升級了文生圖模型Imagen 3。

先說說Veo，它可以生成各種電影和視覺風格的1080p分辨率的高質量視頻，時長還能超過一分鍾。它對自然語言和視覺語義有著深刻的理解，當創作者提到“延時攝影”“全景航拍”這些專業術語，它能准確捕捉你的創意，生成與構想高度匹配的視頻內容。

這樣的“懂你”的能力，得益于谷歌此前在GQN、DVD-GAN、Imagen-Video等領域的深厚積累。Veo的推出，意味著谷歌在視頻內容理解、高清渲染、物理模擬等方面都有了質的飛躍。

從這個視頻的效果來看，視頻的長度，變化的多樣性，視頻內容的一致性，與OpenAI放出的Sora生成的視頻相比一點也不差。

再來看看Imagen 3，這是是谷歌迄今爲止最先進的文本到圖像生成模型。與上一代相比，Imagen 3生成的圖像少了許多視覺僞影，質量更上一層樓。不僅如此，它還具備高水平的語義理解能力，可以完美融合長文本提示中的各種細節，並輕松駕馭不同的藝術風格。

網頁截屏

作爲文本渲染能力的“一哥”，Imagen 3有望在賀卡、PPT標題頁等個性化圖文生成任務中大顯身手。

網頁截屏

最後，谷歌和YouTube聯合推出的Music AI Sandbox也很有看點。他們爲音樂人提供了一系列智能工具，並與Wyclef Jean、Marc Rebillet等大咖展開合作，持續拓展Gemini AI在音樂創作領域的應用邊界。

作爲在AI浪潮中起得最早，投入最大的玩家，谷歌正在用自己的實際行動告訴世人，只要趕上了集，不分早晚，都有可能是最後的贏家。

文采家

谷歌AI春晚宣告Gemini時代將至，10倍能效10倍上下文碾壓OpenAI？

36氪