零一萬物發布千億參數模型Yi-Large,李開複:中國大模型趕上美國,立志比肩GPT-5

愛範兒 2024-05-13 18:10:26

時隔一年,李開複帶著「零一萬物」再次出圈。

去年 5 月,零一萬物成立,6 個月後就發布了旗下首款中英雙語大模型 Yi 系列。從一開始,李開複就定下了一個宏偉且艱難的目標:「成爲 World’s No.1」。

打一出生就是「當紅辣子雞」的零一萬物也依靠大廠背景團隊、優異模型表現,達到了 10 億美元的估值。

今天,它們又帶來了第二款産品:Yi-Large 閉源模型。

進擊全球 SOTA 大模型

去年 11 月,零一萬物所發布的 Yi-34B 以開源社區「甜點級」尺寸就在 Hugging Face 榜單中,超越了 Llama2-70B、Falcon-180B 等大幾倍的模型,成爲當時世界範圍內開源最強基礎模型之一。

半年後,零一萬物正式發布千億參數規模的 Yi-Large,在第三方權威評測中,零一萬物 Yi 模型在全球頭部大模型的中英文雙語 PK 上表現出色。

最新出爐的斯坦福評測機構 AlpacaEval 2.0 經官方認證的模型排行榜上,Yi-Large 模型的英語能力主要指標 LC Win Rate(控制回複的長度)排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一。

此前國內模型中僅有 Yi 和 Qwen 曾經登上此榜單的前 20。

大模型用起來聰明的一個重要前提,是它得清楚你在說什麽。

國外的模型表現優秀,但都是基于英語語境,而誕生在本土的國産大模型,天生就對中文理解有得天獨厚的優勢。

在中文能力方面,SuperCLUE 更新的四月基准表現中,Yi-Large 也位列國産大模型之首,Yi-Large 的綜合中英雙語能力皆展現了卓越的性能。

在更全面的大模型綜合能力評測中,Yi-Large 多數指標超越 GPT4、Claude3、Google Gemini 1.5 等同級模型,達到首位。在通用能力、代碼生成、數學推理、指令遵循方面都取得了優于全球領跑者的成績,穩穩跻身世界範圍內的第一梯隊。

隨著各家大模型能力進入到力求對標 GPT4 的新階段,大模型評測的重點也開始由簡單的通用能力轉向數學、代碼等複雜推理能力。

在針對代碼生成能力的 HumanEval、針對數學推理能力的 GSM-8K 和 MATH、以及針對領域專家能力的 GPQA 等評測集上,Yi-Large 也取得了耀眼的成績。

此外,從行業落地的角度來看,理解人類指令、對齊人類偏好已經成爲大模型不可或缺的能力,指令遵循(Instruction Following)相關評測也越發受到全球大模型企業重視。

斯坦福開源評測項目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評測集,AlignBench 則是由清華大學的團隊推出的中文對齊評測基准。

在中外權威指令遵循評測集中,Yi-Large 的表現均優于國際前五大模型。

發布會上,李開複還宣布,零一萬物已啓動下一代 Yi-XLarge MoE 模型訓練,將沖擊 GPT-5 的性能與創新性。

同時,零一萬物也在考慮一些非常複雜的議題,李開複總結了三個重點:

一方面,要預備技術的進步,我們能力所及産生什麽樣的模型; 第二,怎麽把推理成本做到最低,讓我們點燃普惠點; 第三,還有傳統的 PMF,找到用戶需求。

李開複說,這些考量是他們在硅谷公司一般沒有看到的:

這是我們獨特的方法,也是中國獨角獸的機會。

Yi-1.5 全面升級,API 平台全球首發

此次發布會上,零一萬物 Yi 系列開源模型也迎來全面升級,Yi-1.5 分爲 34B、9B、6B 三個版本,且提供了 Yi-1.5-Chat 微調模型可供開發者選擇。

從評測數據來看,Yi-1.5 系列延續了 Yi 系列開源模型的出色表現,數學邏輯、代碼能力全面增強的同時,語言能力方面也保持了原先的高水准。

經過微調後的 Yi-1.5-6B/9B/34B-Chat 在數學推理、代碼能力、指令遵循等方面更上一層樓。

Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數學能力評測集、HumanEval 和 MBPP 等代碼能力評測集上的表現遠同參數量級模型,也優于近期發布的 Llama-3-8B-Instruct。

在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數量級模型中也處于領先位置。

去年零一萬物選擇以開源首發 Yi 系列模型,其優異的性能受到國際開發者的高度認可。

Yi 開源版本 2023 年 11 月上線首月,便占據開源社區近 5 成熱門模型排行,發布一個月後 Yi-34B 被 Nvidia 大模型 Playground 收錄。

在大模型的開發和産品的落地等問題上,李開複也有著自己的解題思路。

在接受 APPSO 采訪時,李開複說:

我們是務實的 AGI 信仰者,我們一定要用最少的芯片,最低的成本訓練出我們能訓練最好的模型。同時我們會不斷的去摸索,找 TC-PMF。國內的初創公司,相對硅谷公司的差異,我們能夠仰望星空,但也能腳踏實地。

零一萬物不會用純大力出奇迹的唯一思維,追求能不能用一百億美金,一千億美金。OPEN AI 有資格嘗試這條道路,但這不是他們要走的道路,當然也不會花時間來預測 AGI 的點燃點,但是他很確定地告訴大家,跟他們相關度更高的是 AI 普惠點。

今天,零一萬物同時宣布,面向國內市場一次性發布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,Yi API Platform 英文站同步對全球開發者開放試用申請。

其中,千億參數規模的 Yi-Large API 具備超強文本生成及推理性能,適用于複雜推理、預測,深度內容創作等場景;

Yi-Large-Turbo API 則根據性能和推理速度、成本,進行了平衡性高精度調優,適用于全場景、高品質的推理及文本生成等場景。

Yi-Medium API 優勢在于指令遵循能力,適用于常規場景下的聊天、對話、翻譯等場景;

如果需要超長內容文檔相關應用,也可以選用 Yi-Medium-200K API,一次性可解讀 20 萬字的文本;

Yi-Vision API 具備高性能圖片理解、分析能力,可服務基于圖片的聊天、分析等場景;

Yi-Spark API 則聚焦輕量化極速響應,適用于輕量化數學分析、代碼生成、文本聊天等場景。

更重要的是,現在已經有了落地的應用,針對胰腺腫瘤患者設計的「小胰寶」就是其中之一。

小胰寶 AI 小助手可以 7×24 小時爲患者介紹綜合治療知識。

這一助手背後的技術支持正是零一萬物的 Yi 大模型。使用 Yi API 調用 AI 大模型後,小胰寶突破了胰腺腫瘤治療信息壁壘,可將胰腺癌治療路線圖和治療方案精准且系統性地呈現給胰腺腫瘤病友。

目前,該公益項目已經幫助了 3000 多位胰腺腫瘤病友。

一站式工作平台

今天的發布會,也同時介紹了零一萬物近期上線的一站式 AI 工作站「萬知」。

根據官方介紹,萬知是一個專門爲中國用戶量身打造的一站式 AI 工作平台,可以做會議紀要、周報、寫作助手、解讀財報、論文、做 PPT,中英雙語且完全免費。

目前,用戶可以通過官網和微信小程序「萬知 AI」登錄體驗。

發布會上萬知官方舉了一個非常實際的例子:

你剛到公司樓下,突然被領導要求做一個會議展示,但是電腦不在身邊,現在通過萬知,在手機上輸入你想演示的主題,然後等你從電梯到工位的兩分鍾裏,PPT 已經在萬知網頁端做好了,之後你只需要做一些簡單的文字、配圖和修改,就能直接使用。

除此之外,萬知還有許多其他的功能。

首先是文檔閱讀能力,萬知 AI 助手能夠快速閱讀和理解大量文檔內容,包括長文檔和複雜的財務數據。它能夠在幾秒鍾內提煉出關鍵信息,並支持中英雙語閱讀。

其次在通用問答場景中,萬知也展現出了不俗的産品性能,能夠快速地給出恰當的答案,和專業快速的反饋。

另外,萬知 AI 助手不僅支持文本輸出,還能以表格、公式、代碼等多種形式展現信息,使工作彙報和生活規劃更加清晰明了。

最後,萬知 AI 助手能夠實時訪問互聯網信息,確保用戶獲取的數據和見解是最新和最准確的。

根據萬知團隊的研究觀察,使用萬知之後的個人工作效率平均有五成以上的提升,尤其在知識檢索、文檔構思撰寫等方面節約時間顯著。

目前,萬知 AI 助手對用戶完全免費開放。

萬知官方說,類似的大模型的應用,在今年肯定會在國內成爲一個重要的落地點。

李開複也提到,今年會是 AI 生産力工具的元年,因爲有些領域今年就會爆發。

他覺得 AI-Frist 的真實價值,就是誰會打造一個 AI 抖音,AI 微信,AI 淘寶?零一萬物希望他們有可能作爲這樣一個點燃者。

不過,整個 AI 的普惠點一定不是同時來到,而且有些領域的應用要求會很高。

比如現在做的生産力工具,最終這個生産力工具産生的內容,還是用戶負責。所以如果裏面有一些錯誤不完美,需要微調,甚至有些少量的幻覺,是由用戶最後決定是否可以修改,所以用戶的指標就是我能不能比沒有這個工具,産生更好的內容在更快的時間。

李開複說 TC-PMF 其實已經達到了,但還可以更好,所以今年在生産力工具肯定會發生。

目前零一萬物海外生産力應用總用戶接近千萬,今年 ToC 單一産品收入達 1 億元人民幣。

李開複透露:

我們 ROI 還是在 1 左右。所以這樣的結果至少從國內大模型公司來看是非常有優勢的。

國內大模型領域陷入混戰的 2023 年初,各式各樣的評測榜單鋪天蓋地,跻身各大榜單 TOP 的模型不在少數。

在 AI 1.0 時代,人工智能還未展現出高泛化性和湧現能力,針對頭部客戶做私有化部署的模式成爲主流,但時間已經證明,偏項目制的重交付模式所帶來的營收增長存在上限,其可持續性挑戰嚴峻。

如今我們正處在 AI 2.0 時代,人工智能進入了一個新的發展階段,和 1.0 相比,AI 2.0 標志著從基于規則的自動化處理向深度學習和自主學習能力的飛躍。

以此看來,AI 領域的「百團大戰」,只會愈演愈烈。

從去年開始,越來越多的國産大模型激烈的競爭中脫穎而出,還在全球知名榜單中取得了不俗的成績。

今年,行業會進入更爲現實的商業落地階段,用戶都會按照應用側所展現的能力,用腳投票。如何基于基座模型能力,盡可能提升應用效果,是追趕 TC-PMF 的重要課題。

李開複表示:

一年前,中國大模型感覺太落後(于美國)了。但今天我們非常自豪的說,我們狂奔了一年,在模型方面至少趕上了美國最頂尖、一年前發布的(大模型)産品,當然以後還要繼續努力。但是,我們對未來會需要有一個沉澱和展望,不能只是拼命狂奔。

在長江後浪推前浪的 AI 時代,對于用戶來說最大的意義莫過于,在廠家的競爭中知道 AI,了解 AI,使用 AI,甚至把它帶到工作、學習和生活中。

而這,也是 AI 技術的初心和歸宿。

*付立群對本文亦有貢獻

#歡迎關注愛範兒官方微信公衆號:愛範兒(微信號:ifanr),更多精彩內容第一時間爲您奉上。

愛範兒|原文鏈接· ·新浪微博

0 阅读:5