日日新大模型更新，商湯公開“朋友圈”

作者|陶然編輯|魏曉

下午進行的這場大模型發布會，來給商湯站台的大廠前所未有的多：

小米、華爲、金山辦公、海通證券、閱文集團，有點像是商湯把好友列表公開展示，一眼看去，還都是科技圈裏的高手。

一直略顯低調的商湯到底掏出了什麽，能讓從科技到文娛再到金融等多個行業的頭部公司，同期抛來合作的橄榄枝？

答案還是大模型——商湯日日新大模型更新到了5.0版本。

這一次的模型，似乎有點強。

4月23日，在上海商湯臨港AIDC舉行的“2024年商湯技術交流日”活動現場，商湯科技發布了全新升級的日日新SenseNova5.0大模型，以及一系列配套或衍生的行業大模型、AI助手。

模型采用MOE混合專家架構，基于超過10TB tokens訓練，推理上下文窗口200K。商湯方面表示，新版本的大模型已經“全面對標GPT-4Turbo”。

從代碼到車機，從虛擬形象到辦公助手，幾小時的時間裏，關于AI的大量話題都在現場談起。

並且，都在日日新大模型5.0版本的“射程範圍”之內。

官方表示，本次更新後，日日新商量大模型5.0主模型在語言、知識、推理、數學、代碼等領域的能力，已經在主流客觀評測上達到或超越了GPT-4 Turbo。

具體來看，在數理邏輯層面，更新後的商量大模型已經實現了對標GPT-4 Turbo，並達到了能夠更深入地理解和處理複雜邏輯結構及問題的高階數學推理能力。

以數學解題爲例，新版本的商量大模型能夠自動生成python代碼來對用戶提出數學問題求解。相較于傳統方法，引入代碼將可以一定程度上減少大模型直接生成數值計算結果而帶來的錯誤，進一步提升LLM在數學解題方面的能力。

根據官方提供的資料，公開數學測評數據集上，商湯的大模型目前已經逼近了GPT-4 Turbo的水平。

而在AI開發者常用的編程領域，商量大模型的代碼能力，經Human-Eval測試集檢驗後，一次通過率已經達到了78.05%，超過GPT-4 Turbo (1106)的74.4%。

甚至，爲了配合程序員群體中的“高級玩家”，商量大模型5.0的主模型還新增了工具調用能力，程序員可以在對話模型中用自然語言直接啓動工具調用。

例如，設計函數調用的場景下，程序員用戶可以傳入自定義工具，而大模型會根據輸入的內容以及工具定義來自動選擇工具進行調用，還可以分析工具調用的返回結果來進行總結回複。

從商湯內部給出的測試工具調用結果來看，這套流程的准確度已然高達99%。

當然，在更C端的自然語言問答、多輪對話領域，國産大模型過去很長一段時間與GPT相比，雖說呈現結果的差異在逐漸縮小，但體驗上（如大模型對模糊語義的理解，生成答案的可讀性等層面）依然難稱完美，今年Kimi的橫空出世倒是給了行業一個驚喜。

此番大模型更新，商湯也在開放問答場景做了重點優化，聊天、多輪對話、信息提取、寫作等場景下，新版本的商量據稱已經能夠和GPT-4 Turbo媲美。

公司CEO徐立表示，現在的商量大模型在很多時候“甚至突破了GPT-4 Turbo的能力圈”。

伴隨模型基礎能力的提升，商湯似乎也一改往日AI落地緩慢、商業化前景不明的狀態，于發布會上接連展示出公司在金融、辦公和車機大模型等多個領域的新合作。

其中，就包括備受關注的小米、華爲——上半年互聯網圈和車圈的兩大頂流，現今都加入了商湯的“朋友圈”。

發布會現場，商湯科技官宣與華爲聯合發布面向金融、醫療、政務、代碼等行業的大模型。

實際上，早在三月份，商湯大裝置AI雲和日日新·商量大模型就已經通過了與華爲Atlas系列服務器的相互兼容性測試。

得到與華爲的“互信認證”，意味著商湯可以在昇騰Atlas服務器中進行訓練和部署，這次的行業大模型，或許正是成果之一。

而與小米，則自然是2024年最火的車，小米SU7。

在SU7的兩次發布會上，車機小愛同學頻繁出鏡，無疑是小米SU7智能座艙的重要組成部分，也是串聯人車家生態的關鍵環節之一。

在此次商湯發布會上，小米集團小愛總經理王剛透露，SU7的智能車艙中就應用了商湯的大模型技術和端雲大模型解決方案。與商湯科技首席科學家王曉剛對話時，王剛表示，商湯的雲邊端全棧組合，可以很好地賦能和適配小米物聯網生態。

眼見朋友圈逐漸擴大，AI領域起步很早的商湯，或許已經進入了收獲期。

來源|AI藍媒彙作者|陶然

文采家