一次曝9個大模型,「字節AI」這一年都在做什麽?

極客公園 2024-05-15 21:30:57

整個 2023 年,字節並沒有對外官宣其內部自研的大模型。外界一度認爲,大模型這一技術變革,字節入場晚了。梁汝波在去年底的年會上也提到了這一點,他表示「字節對技術的敏感度不如創業公司,直到 2023 年才開始討論 GPT。」

盡管如此,字節做大模型和 AI 應用的消息不斷。

2023 年 8 月 31 日,國內首批大模型産品通過《生成式人工智能服務管理暫行辦法》備案,字節跳動雲雀大模型赫然在列。同一時間,字節被爆出成立了新 AI 部門——Flow,聚集了字節集團最能打的一批人才探索 AI 應用。過去大半年,字節跳動推出的 AI 應用幾乎涵蓋了所有熱門賽道,豆包、扣子是最具代表性的兩款。

5 月 15 日,在火山引擎原動力大會上,字節跳動首次揭開了上述自研大模型和 AI 應用神秘面紗的一角:豆包大模型(原雲雀大模型)家族首次亮相,其大模型産品——「豆包 App」和 AI 應用産品——「扣子」也首次對外詳細闡述。

火山引擎是字節跳動旗下雲服務平台,據火山引擎總裁譚待介紹,經過一年時間的叠代和市場驗證,字節自研大模型——豆包大模型(原雲雀大模型)正成爲國內使用量最大、應用場景最豐富的大模型之一,目前日均處理 1200 億 Tokens 文本,生成 3000 萬張圖片。

就豆包大模型而言,模型推理價格成爲一大亮點,這也是近兩周以來模型廠商重點發力傳播的方向。譚待表示,大模型從以分計價到以厘計價,將助力企業以更低成本加速業務創新。

當前,豆包大模型大幅降低了模型推理的單位成本,其主力模型在企業市場的定價只有 0.0008 元/千 Tokens,0.8 厘就能處理 1500 多個漢字,比行業便宜 99.3%。

除了模型産品本身,更值得關注的是:字節跳動對大模型和 AI 産品的思考。

豆包大模型家族的成員,爲什麽當前有這九個?

模型産品「豆包 APP」、應用産品「扣子」作爲字節跳動當前最主力的兩款應用,背後是怎麽思考的?

火山引擎作爲雲平台,在新時代的「野心」是什麽?

在這場發布會上,這些問題也都得到了回應。

01 9 個模型,豆包大模型家族首次亮相

今年的 AI 發布會,大模型廠商都不再只聚焦在基座大模型本身,而是模型、工具、應用全面推出。顯然,大模型落地,更進一步。

字節跳動也是如此,在火山引擎原動力發布會上,正式發布了字節跳動豆包大模型家族、火山方舟 2.0、AI 應用及 AI 雲基礎設施等一系列最新産品。

先來看模型,當前大模型行業的兩大進化方向分別是價格和性能:模型推理價格進一步降低,模型性能進一步提升。在這兩個方向上,豆包大模型家族,有自己的特點。

火山引擎總裁譚待公布豆包大模型定價|圖片來源:火山引擎

火山引擎方面稱,在模型價格上,豆包主力模型在企業市場的定價是 0.0008 元/千 tokens,0.8 厘就能處理 1,500 多個漢字,比行業便宜 99.3%。

譚待認爲,降低成本是推動大模型快進到「價值創造階段」的一個關鍵因素。在被問及「把價格壓得這麽低,是否虧錢補貼」時,譚待稱,「ToB 業務虧損換收入不可持續,火山引擎從來不走這條路。能做到降低推理價格,有一系列技術手段,未來還能做得更好」,比如優化模型結構和工程手段上通過分布式推理來替代單機推理。

在模型性能上,「豆包大模型家族」根據市場需求,帶著 9 個模型亮相,主要包括通用模型 pro、通用模型 lite、語音識別模型、語音合成模型、文生圖模型等九款模型。

當前階段之所以收斂到這九個大模型,字節跳動根據後台模型調用量和需求而來。

譚待向極客公園表示,首先要有一個最強的主力模型,能支持高級功能;其次是分場景或者端側對低延遲要求很高,所以也需要豆包 lite;也需要性能和低延遲折中的模型;還有一些大的垂直場景裏的模型,比如娛樂産品角色扮演,「大概率不需要它編程,但需要加強互動娛樂性」。

豆包大模型家族|圖片來源:字節跳動

豆包通用模型 pro:字節跳動自研 LLM 模型專業版,支持 128k 長文本,全系列可精調,具備更強的理解、生成、邏輯等綜合能力,適配問答、總結、創作、分類等豐富場景;

豆包通用模型 lite:字節跳動自研 LLM 模型輕量版,對比專業版提供更低 token 成本、更低延遲,爲企業提供靈活經濟的模型選擇;

豆包·角色扮演模型:個性化的角色創作能力,更強的上下文感知和劇情推動能力,滿足靈活的角色扮演需求;

豆包·語音合成模型:提供自然生動的語音合成能力,善于表達多種情緒,演繹多種場景;

豆包·聲音複刻模型:5 秒即可實現聲音 1:1 克隆,對音色相似度和自然度進行高度還原,支持聲音的跨語種遷移;

豆包·語音識別模型:更高的准確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別;

豆包·文生圖模型:更精准的文字理解能力,圖文匹配更准確,畫面效果更優美,擅長對中國文化元素的創作;

豆包·Function call 模型:提供更加准確的功能識別和參數抽取能力,適合複雜工具調用的場景;

豆包·向量化模型:聚焦向量檢索的使用場景,爲 LLM 知識庫提供核心理解能力,支持多語言。

對于今天發布的豆包大模型家族,一位投資人認爲,「字節不強調參數、不強調數據和語料,直接把模型能力在場景裏做了垂直細分,這個決策因素是有應用和沒有應用的區別,更本質的是有數據和沒數據的區別。有用戶反饋、有數據反饋,字節能夠根據用戶和數據的反饋去做更精准的場景和服務。」

就像移動互聯網時代跑通的今日頭條和抖音,字節在 AI 上,也是是數據邏輯,根據不同的數據鏈反饋,決定産品或者模型的下一步動作。相反,如果只做基礎模型,不做服務升級,場景反饋、用戶數據反饋會越來越少,模型能力的差別就會拉開。

02 豆包,如何承載「App 工廠」的大模型産品思路

其實早在去年,豆包大模型(原名:雲雀)就在字節跳動內部完成了上線,其內部 50 多個業務也已經大量使用豆包大模型進行 AI 創新,包括抖音、番茄小說、飛書、巨量引擎等,用以提升效率和優化産品體驗。

字節跳動也基于豆包大模型打造了一系列 AI 原生應用,包括 AI 對話助手「豆包」、AI 應用開發平台「扣子」、互動娛樂應用「貓箱」,以及星繪、即夢等 AI 創作工具。

其中,豆包和「扣子」,是字節跳動發力的主要産品。

根據 QuestMobile,基于豆包大模型同名打造的豆包 App,在蘋果 App Store 和各大安卓應用市場,豆包 App 的下載量在 AIGC 類應用中排名第一。根據官方最新數據,豆包上已有超過 800 萬個智能體被創建,月度活躍用戶達到 2600 萬。

字節跳動産品和戰略副總裁 朱駿|圖片來源:火山引擎

發布會上,字節産品戰略負責人、Flow 部門朱駿,以豆包 App 爲例,首次講述了字節做 AI 原生應用的産品思路。他認爲,和 AI 時代之前做産品設計比較,現在用戶核心的需求沒有改變,包括高效獲取信息、工作提效、自我表達、社交娛樂等等。

差異點是,以前是在成熟的技術上想應用,只要用同理心去理解用戶的需求和使用體驗,就能做出一個還不錯的産品。現在産品底下的技術不再是一個穩定的地基,大模型的能力在很多維度還有缺陷,同時又在快速演進,每隔三個月、半年都會發生很大的變化,甚至不是線性的漸進變化,而是突然躍遷。

因此,他認爲做大模型應用一個很大的挑戰是,在這個動態發展的過程中,先判斷大模型現在能解決好什麽任務,同時更重要的是要嘗試預測半年、一年後大模型能把什麽樣的任務解決好。

以豆包 App 爲例,他分享了字節對做大模型應用的思考。

擬人化

朱駿稱,豆包的第一條産品設計原則是「擬人化」,這是大模型産品的新特性,自然語言新的交互方式,降低了使用門檻,也讓用戶在使用産品時感覺到産品有類似人的溫度。爲了體現這種擬人的感受,該款 APP 産品名字選用了「豆包」這樣像親密朋友日常稱呼的昵稱。

離用戶近

豆包的第二條設計原則,離用戶近。它要能隨時伴隨用戶,嵌入用戶的不同使用環境。「豆包到用戶身邊,而不是用戶到豆包身邊」。

一個例子在于語音交互入口的設計。爲了讓豆包在這種移動場景(比如戶外)裏交互更方便,像一個隨身攜帶的百事通,字節很早投入了很大力度優化語音交互體驗,包括基于大模型的 ASR 和超自然的 TTS 音色,盡量做到類似和一個真人對話的感受。豆包幾乎是國內最早確立語音交互入口作爲默認交互界面的大廠,後來語音交互入口也被加入了市面上其他大模型 APP。

個性化

第三個設計原則是「個性化」。雖然通用大模型能解決非常廣泛的任務,但實際上,用戶有自己個性化的需求,包括對智能體的功能定位,回答風格、聲音、形象、記憶都有非常個性化的需求。

朱駿認爲,未來用戶大概率會有一個主要的智能體(比如豆包)做最高頻的互動,解決很多任務;但是也會因爲個性化、多樣化的需要,和很多其他的智能體互動。

他總結稱,「做大模型産品的挑戰和樂趣是,需要在這種持續動態的技術發展中,不斷去判斷下一個産品的 PMF(産品市場匹配點)可能是什麽。」

03 模型落地,火山引擎的基礎設施

除了豆包大模型家族和字節的 AI 應用産品思路,在火山引擎發布會的主場上,大模型服務平台「火山方舟」也升級了多款插件和數據、營銷、銷售等 AI 應用服務。

在插件和工具鏈上,方舟 2.0 升級了聯網插件,提供頭條抖音同款搜索能力;升級內容插件,提供頭條抖音同源海量內容;升級知識庫插件,以提高搜索的相關性和准確性。

同時,火山方舟 2.0 也全面升級了底層基礎設施。在系統承載力上,提供充沛的 GPU 算力資源,分鍾級千卡擴縮容的超強彈性,保障業務穩定和成本可控;在安全防護上,通過安全沙箱構建可信的執行環境,多維度的安全架構,保障數據安全;此外,火山引擎提供專業的算法團隊服務,幫助客戶釋放獨有數據價值,落地大模型應用。

此外,針對大模型帶來的基于自然語言的應用開發模式,火山引擎也推出了新一代 AI 應用開發平台——扣子專業版。

扣子産品經理潘宇揚介紹,扣子(coze)作爲字節跳動推出的新一代 AI 應用開發平台,具備低門檻、個性化、實時性、多模態等優勢,並集合海量的 AI 資源、豐富的發布 API 服務。

對于扣子,譚待認爲「必須要一個扣子這樣的低代碼生態,應用的生態是一堆人的群體智慧,要能夠讓很多人以很低門檻做各種事情(AI 應用)。」

1 阅读:9