商湯甩出大模型豪華全家桶!秀拳皇暴打GPT-4,首曬“文生視頻”,WPS小米現場助陣

智東西 2024-04-23 23:34:21

作者 | ZeR0

編輯 | 漠影

智東西4月23日報道,今日,商湯科技全新升級“日日新SenseNova 5.0”大模型體系,綜合能力全面對標GPT-4 Turbo。

同時,商湯在業界首次推出“雲、邊、端”全棧大模型産品矩陣,包括商湯端側大模型、端雲協同解決方案,以及面向金融、代碼、醫療、政務等領域的邊緣産品“商湯企業級大模型一體機”。

“日日新SenseNova 5.0”采用混合專家架構,基于超過10TB tokens訓練、覆蓋大量合成數據,推理時上下文窗口可支持200K,主要增強了知識、數學、推理、代碼能力,在主流客觀評測上達到或超越GPT-4 Turbo性能。

現場演示了“日日新5.0”與GPT-4多項功能對比,包括創意寫作、邏輯推理、文生圖、圖像理解、根據圖片計算食物熱量等。

爲了秀端側大模型的肌肉,商湯科技還“玩”起拳皇。一開始綠衣玩家GPT-4略占上風,但很快就被紅衣玩家SenseChat-lite各種連招打得反應不過來,最終紅方取勝。

商湯董事長兼CEO徐立說,不是模型能力有多強,是在不同的適用場景下,小模型的決策速度快,當大模型還在計算,小模型已經完成了判斷並出拳,不管它的拳是不是最優的,都實實在在地打到了對手的身上。

其端側大模型實現業內最快推理速度,旗艦平台最高達109.5字/秒,而人眼最快閱讀速度僅爲20字/秒,現場演示的處理對話、圖像處理速度快過雲端。商湯還正式發布端側業務SDK,可適配多款高通骁龍、聯發科天玑芯片。

企業級大模型一體機支持千億模型加速和知識檢索硬件加速,相比行業同類産品,千億大模型推理成本可節約80%。小浣熊·代碼大模型一體機輕量版每台售價35萬元起,單台支持100人團隊使用,每日使用成本低至每人4.5元。

同時,商湯發布了基于昇騰原生的行業大模型,與華爲共同打造面向金融、醫療、政務、代碼等大模型産業生態。

在自身應用方面,商湯“日日新SenseNova 5.0”在秒畫、如影、格物、瓊宇、大醫、小浣熊家族等産品均有重要更新。

還有One More Thing——文生視頻生成平台,徐立帶來了三段完全由大模型生成的視頻,並著重強調對人物、動作、場景的可控性。

未來,通過輸入一段文字描述即可生成一段視頻,而且人物的服飾、發型、場景都能根據預先設定,保持視頻內容的連貫性和一致性。

金山辦公CEO章慶元、海通證券副總經理兼首席信息官毛宇星、小米集團小愛總經理王剛、閱文集團築夢島總經理葛文兵均來到現場,分別作爲辦公、金融、出行、IP角色等行業的代表進行分享。幾位客戶代表的發言都很有料,或連爆金句,或幹貨頻出,對行業發展很有參考性。

一、文科數理能力均顯著提升,全面對標GPT-4 Turbo

商湯董事長兼CEO徐立首先提到Scaling Law尺度定律,即隨著模型參數變大、數據量變大、訓練時長加長,算法性能會越來越好。

還有兩條隱藏假設,一是可預測性,在小尺度上做很多實驗,跨越5~7個數量級尺度依然保持性能的准確預測;二是保序性,在小尺度上驗證的性能優劣,在大尺度上依然保持著優劣。

這可以指導在有限的研發資源上找到最優模型架構和數據配方,讓大模型能最高效地學習。

基于實驗結果,小模型在優化數據的情況下,性能可逼近甚至超越跨數據級的大模型。

“商湯在尺度定律的指導下,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。”徐立說。

爲了解決數據集質量的瓶頸,日日新5.0訓練用到10T+ tokens的中英文預訓練數據,進行了精細設計的清洗處理,形成高質量基礎數據。

此外,合成思維鏈數據,是激活大模型的強理解推理能力的關鍵。商湯在預訓練過程中大規模采用數千億tokens量級的邏輯型合成數據。

“日日新5.0”在中文理解、知識儲備、數理邏輯、代碼編程等方面的能力明顯提升,在主流客觀評測上達到或超越GPT-4 Turbo。

在文科能力方面,“日日新5.0”的創意寫作、推理、總結能力均大幅優化,相同的中文知識注入後,可獲得更好的理解總結及問答。

基于大量中文語料的構建,在開放式寫作,比如讓它寫2022年基于《紅樓夢》給匾額題名來探討創新的高考作文,可以看到GPT-4寫作風格比較生硬:“在學習上……在工作中,……”;“日日新5.0”則寫得更加發散,從詩經楚辭到文化革古鼎新,再到互聯網新知識的融合。

在理科能力方面,“日日新5.0”的數理、代碼及推理能力達到業內領先水平。

商湯展示了一個數學題示例:媽媽給圓圓沖了一杯咖啡,圓圓喝了半杯後,加滿水,她又喝了半杯後,再加滿水,最後全部喝完,問圓圓總共喝掉多少咖啡和水。如果理解成總共加了兩次半杯水即一杯水,那麽答案是一杯咖啡一杯水。如果從每次喝掉多少水來算,計算則比較複雜。

“日日新5.0”理解完後,得出跟剛才解讀一致的答案。而GPT-4把事情搞複雜了,得出的答案是喝了19/20杯咖啡和1+4/5杯水。

還有一個簡單的邏輯情景題,13個小朋友玩老鷹抓小雞,抓了5只小雞,問還剩幾只。GPT-4不理解老鷹抓小雞遊戲中有1人要當老鷹,給出的答案是8只。“日日新5.0”則給出正確答案。

在多模態能力方面,其在多模態大模型權威綜合基准測試MMBench中綜合得分排名首位,在多個知名多模態榜單中取得領先成績。

商湯將“日日新5.0”的文生圖能力與幾個業界最好的模型做直觀對比。

徐立說,文生圖的一個難點是如何將真正的理解與合成放在一起。其他主流文生圖模型對于文字嵌入到圖像中都有一定缺失,日日新5.0則能表現得非常好,有比較完整的指令跟隨生成效果。

在應用産品層面,“日日新5.0”支持高清長圖的解析和理解以及文生圖交互式生成,還可以實現複雜的跨文檔知識抽取及總結問答展示。

長圖上會有很多信息點,但推到多模態窗口中,往往圖像分辨率過高,上傳不了。對此,商湯給出了非常大的分辨率接口,支持用戶對長圖等級性提問,包括描述圖片細節、總結標題內容等。

再比如打車應用界面截圖,它可以識別捕捉到其中的時間、車輛距離、文字提示、車輛信息、功能按鈕、推廣活動等核心信息。

它也可以化身卡路裏助手,拍一張早餐照,讓它算算一共多少熱量。

相比GPT-4,日日新5.0在理解中式餐飲內容中表現更好。

小浣熊家族是基于商湯大語言模型打造的AI原生生産力系列工具,覆蓋軟件開發、數據分析、編程教育等多個場景,旨在提升工作效率,已推出代碼小浣熊、辦公小浣熊等成員。輸入商湯小浣熊網頁截圖,“日日新5.0”可以進行詳細描述。

再讓它根據前兩個小浣熊,來生成一張新的小浣熊形象,它會先解釋自己的設計思路,然後生成對應形象。而對GPT-4進行完全相同的輸入,GPT-4生出的形象毫不相關,並沒有將前兩個小浣熊形象融入到它的設計理念中。

通過用戶的自然語言輸入,辦公小浣熊可自動將數據轉化爲有意義的分析和可視化結果。比如導入數據庫文件,數據庫裏只有英文名,而用戶輸入查找的是中文名,第一波輸入後沒查到,接著告訴辦公小浣熊“肯定有的 你再找找”,它就會進行思考,再度檢查和篩選,找出模糊匹配的信息。

它還可以檢查數據庫中多個表格的交叉信息來彙總計算,並生成直觀的可視化圖表乃至雷達圖。

二、端側模型跨級領先,端雲協同方案大降推理成本

天下武功,唯快不破。

商湯推出SenseChat-Lite版本端側⼤模型,可落地手機、平板、VR眼鏡、智能汽車等端側。

商湯日日新·端側大語言模型的推理速度更快,首次加載低于0.4秒,解碼⼤于30tokens/秒,號稱“同等尺度性能最優,跨級尺度全面領先”。

人眼最快閱讀速度爲20字/秒,而該模型在中端平台實現18.3字/秒的平均生成速度,旗艦平台更是達到78.3字/秒,最高能達到109.5字/秒。

商湯通過SDK形式爲終端用戶提供量化部署工具鏈,數據處理均在終端設備上完成,有效保障⽤戶隱私安全。

商湯還推出端雲協同解決方案,進行高性能計算,處理複雜的任務。

該方案支持在不同的設備和平台上運行,使得模型可以在各種終端上進行部署和應用,同時實現在離線狀態下仍能保障服務和應用。

其端雲協同⽅案性能指標上,在綜合考試、語言、知識考試、推理等17個測試集下,平均性能接近雲側,但80%的推理將在端側處理,因此節省了大量雲側推理成本,模型能夠及時適應變化的環境和需求,保持高性能和准確性。

現場演示了端側離線運行商量平台,比如寫請假申請、將長篇大論總結成一句話。基本上眼睛還沒看清,模型已經生成出答案。

其端側擴散模型同樣實現了業內最快推理速度。

1B模型支持在高通、聯發科高端平台上端側離線運行,端側LDM-AI擴圖技術在主流平台上推理速度不到1.5秒,比友商雲端app快了10倍,可在數秒內生成1200萬像素及以上的高清大圖,並支持在端側快速進行等比例擴圖、非等比例擴圖、旋轉填充擴圖等多種圖像編輯功能。

端側智能體也很方便,能夠自動執行一連串複雜指令,比如打開郵箱-查看郵件-把郵件移動到指定文件夾-打開微信-進入指定微信群聊-在群公告中發布指定內容。

商湯宣布端側業務SDK正式發布,適配多種主流高通骁龍、聯發科天玑芯片,支持XR、PC、車載、安卓/iOS移動全平台。

三、發布企業級大模型一體機,大模型推理成本可節約80%

面向邊緣側,商湯面向金融、醫療、政務、代碼四個行業推出商湯企業級大模型一體機。

一體機同時支持千億模型加速和知識檢索硬件加速,實現本地化部署,即買即用,相比行業同類産品,千億大模型推理成本可節約80%;檢索大大加速,CPU工作負載減少50%,端到端延遲減少1.5秒。

金融大模型一體機采用國産雙路主控CPU及四顆智算加速卡,單機能夠滿足30人同時使用,支持萬量級的金融文檔管理和檢索,在萬級文檔知識庫規模下檢索准確率超過90%,滿足金融部門的精准檢索要求。

醫療大模型一體機是軟硬一體私有化醫療大模型解決方案,針對智能問診、導診、病曆結構化、影像報告解讀等場景,支持智能調整回複內容的語言風格、詳略程度、格式要求等,一鍵自定義專屬醫療場景,實現小成本高精度的醫療大模型部署。

政務大模型一體機是面向政務咨詢場景的邊緣大模型産品,采用國産雙路主控CPU及四顆智算加速卡,支持萬量級的政策文檔管理和檢索,面向有政務咨詢需求的部門單位, 輔助更高效地處理與法律法規、政策標准相關的咨詢和決策任務。

小浣熊·代碼大模型一體機輕量版是面向軟件開發的邊緣大模型産品,是一套安全可靠、開箱即用、高性價比的企業軟件研發軟硬件一體化解決方案,能夠幫助開發人員更高效地編寫、理解和維護代碼,提高軟件開發的效率和質量。

其在HumanEval的測試通過率高達75.6%,超過GPT-4的74.4%,能夠支持90多種變成語言和8K上下文,單機可滿足100人團隊應用需求。小浣熊·代碼大模型一體機輕量版每台售價35萬元起,每日使用成本低至每人4.5元。

相較于傳統的雲服務模式,這些一體機的所有數據處理過程均在客戶的私有環境內完成,能夠有效避免數據在傳輸過程中的泄露風險,及跨境傳輸等引發的合規問題。

四、四大客戶曬落地成果,金融大模型、擬人大模型發布

金山辦公CEO章慶元、海通證券副總經理兼首席信息官毛宇星、小米集團小愛總經理王剛、閱文集團築夢島總經理葛文兵均在現場分享了與商湯的合作進展,以及一些最新行業觀察與見解。

金山辦公CEO章慶元說,金山辦公從去年下半年開始一直在跟商湯合作。大約四年前,金山辦公就將AI定位爲其産品核心戰略之一,當時還沒有大模型;金山辦公一年陸續上線20多個AI功能,包括內容創作、智慧助理、知識洞察等。

兩周前,金山辦公發布WPS AI企業版,包括AI Hub智能基座、AI Docs智能文檔庫、Copilot Pro企業智慧助理。他分享說,企業關心的內容與C端應用完全不一樣,所以他們做了整合。未來金山辦公希望在Copilot方向有所突破。

“我始終認爲,如果AI只會吟詩作畫,其實AI是不可能改變世界,不可能顛覆世界。”章慶元說,AI要改變世界,真正提高生産力,不一定要多寫代碼,AI一定能夠做一個真正的Copilot,因爲它只有調取各種API,才能對企業生産力甚至對世界和社會産生巨大的影響。

金山辦公去年開始與商湯合作探索Copilot,4月發布WPS AI企業版Copilot Pro企業智慧助理,就是基于商湯日日新模型。其低代碼功能也接入了商湯模型,通過對話形式來生成各種自己的辦公自動化應用。他談到金山辦公測試過全球的Copilot,包括GPT-4,之所以選擇跟商湯合作,是因爲商湯在金山辦公的應用場景中准確度還是非常高的。

章慶元認爲理科能力比文科能力難,因爲涉及思維鏈推理,“文科說實話,有時候文章寫出來,聽君一席話,勝似一席話,總是沒錯的。”

海通證券是中國境內唯一一家至今仍在運營並且未更名、未被政府注資且未被收購重組過的大型證券公司,正在構建AI應用生態。海通證券副總經理兼首席信息官毛宇星分享說,海通證券與商湯科技做的最新是在生成服務上,重點分享了智能問答、智能研發、智能研報三個運營場景。

現場,商湯科技與海通證券聯合發布金融行業多模態全棧式大模型,雙方在智能客服、合規風控、代碼輔助、辦公助手等領域助推業務落地,並共研智能投顧、輿情監控等行業前沿場景,打通證券行業大模型落地的全棧式能力。

在個人出行場景,小米汽車SU7的智能車艙中應用了商湯的大模型技術,基于商湯端雲大模型解決方案。小米集團小愛總經理王剛說,小米人工智能助手小愛同學已經落地到小米最新發布的汽車、手機、AIoT和機器人中,這是一個軟硬件深度結合的産品,要做到全場景體驗一致。小愛同學不止有語音助手,還提供小愛建議、小愛視覺、小愛翻譯、小愛通話等智能服務。

小愛大模型已在多設備落地,8月份在手機上開啓內測,目前有900萬大模型用戶。王剛說,車上大模型和手機大模型的體驗設計差別很大,需要對大模型進行相應的適配調教,才能適用于汽車任務。有大模型後,月活躍用戶次日留存提升了10%,中長尾Query滿足率也提升至80%。

大模型技術給小愛帶來了三個方面的跨越式升級:一是通用對話,二是垂直領域AI,三是NLP任務。具體而言,整個技術架構可以簡化成如下圖所示,基本分爲4類問題,第一類偏工具類,第二類篇偏內容類,這兩類相對簡單,都是背後的一些執行類操作;第三類偏創作類,之前沒有大模型是做不到的;第四類需要更大參數規模的大模型去回答,因爲對知識的准確率要求極高。

如何選擇大模型?王剛認爲,首先要建設滿足業務需求的評測體系,然後選擇合適的模型(大小、擅長領域、性能),並針對業務場景將模型進行優化(Prompt優化、微調、預訓練)。

在大模型綜合能力評測方面,他關注的重要指標是效果指標和性能指標。效果指標會拆解成不同維度,綜合對比不同模型産生效果的差異,然後針對不同類別去構造一個混合系統,挑選最好的大模型。“現在我們在非常多的場景上使用了商湯的大模型。”王剛說。

在過去的合作過程中,他感受到商湯大模型有三個典型特點:

第一,模型性能好,速度快。當用戶說完話,他們希望1.4秒內完成所有處理步驟,讓用戶聽到相應的回複;但1.4秒對于大模型能力來說太苛刻了,現在要求放寬到了2秒內,王剛稱能滿足這一響應速度的大模型在行業內其實並不多。

第二,模型效果好,具備檢索能力,可以引用高質量信息來源。

第三,模型能力強,支持知識注入、指令追隨,包括能對生成內容要有一定約束和引導,支持快速對模型進行微調。在他看來,讓大模型輸出一個穩定的結果很不容易,大模型在實際産品場景中落地,通用基座能力要比較強大,更重要的是持續針對業務場景要求的大模型適配能力。

最後,他總結了小愛同學的未來規劃,一是基于大模型進行技術升級,二是用多模態創造全新産品體驗,三是和操作系統深度整合,四是端側大模型在無網環境下提供較好的體驗。

王剛還分享了一個小故事。今年1月,他所在的團隊要向小米創始人、董事長、CEO雷軍概括小米汽車大模型的效果,當時演示完後就被批了,團隊壓力很大,爲達要求,希望一周完成四五個需求的優化,並達到比較好的效果。結果商湯團隊在兩三天內就把所有需求做完了。一周後,他們再去給雷軍演示,整個效果已經非常不錯。

談到大模型推理成本,王剛說,他們最開始接入大模型時,大模性還非常貴,當時算下來一台手機一個生命周期內使用大模型的成本約20元,這是手機硬件部門接受不了的。

過去他們分析,要覆蓋這部分成本,可能有3種途徑,一是硬件願意出錢,二是可商業化、互聯網變現,三是用戶付費。這三條路他們都嘗試走了,也得益于大模型的進步,成本下降非常快,現在終端機和高端機上的硬件可以出一定費用來覆蓋模型成本,大約只有原來20元的1/4~1/5。中高端手機和汽車對大模型成本已經不敏感了,手機端有機會通過接下來的內容分發、服務分發、變現去覆蓋大模型成本,但如何把大模型部署到智能音箱仍難度較大。

閱文集團築夢島總經理葛文兵說,能夠真正滿足內心需求的産品存在市場空白,築夢島擁有廣泛的角色陣容和雄厚的IP儲備,隨著用戶對AI角色質量苛刻程度逐級提升,其中網文角色難度最大,因此築夢島選擇與商湯合作。

商湯擬人大模型支持個性化角色創建與定制、知識庫構建、長對話記憶、多人群聊等功能,可實現角色、人設及劇情推動能力,能做到人設貼合,可設置不同檔位的對話親密度,驅動各類原創及IP角色上線多個平台。

體驗地址:https://character.sensetime.com/

結語:“大模型+大算力”雙輪驅動,運營算力規模達12000P

基于“大模型+大算力”雙輪驅動戰略布局,商湯科技打造“日日新SenseNova”大模型體系和“SenseCore商湯大裝置”,在推動自身大模型研發的同時,也爲行業夥伴提供大模型訓練、微調、部署和各類生成式AI的能力及服務。

SenseCore商湯大裝置是商湯科技前瞻打造的高效率、低成本、規模化的新一代AI基礎設施,目前實現了全國聯網的統一調度,在上海、深圳、廣州、福州、濟南、重慶等地均有計算節點。

通過算法設計與算力設施聯合優化,目前商湯大裝置已實現萬卡集群互聯,運營算力有12000P;GPU超4萬塊;峰值算力有12000P,預計到今年年底達到18000P;國産化算力2000P,已完成58款國産芯片的適配與應用。

基于SenseCore商湯大裝置,商湯新推出的“模型即服務”商業模式使客戶能夠輕松地在大裝置微調和調用各類生成式AI能力。

日日新大模型體系在自然語言處理、視頻生成和深度學習優化等多個方面取得創新,提供自然語言處理、圖片生成、自動化數據標注、自定義模型訓練等多種大模型及能力。

基于該大模型體系,商湯自研了中文語言大模型應用平台,以及包括AI文生圖創作、2D/3D數字人生成、大場景/小物體生成等一系列生成式AI模型及應用,並面向政企客戶提供多種靈活的API接口和服務。

在探索先進大模型技術的同時,商湯科技也在推動大模型與産業、應用場景更好的結合,幫助更多行業低門檻、高效落地部署AI大模型技術。

0 阅读:1

智東西

簡介:智能産業第一媒體!聚焦智能變革,服務産業升級。