TensorRTLLM加速Gemma!NVIDIA與谷歌牽手,RTX助推AI聊天

微型計算機 2024-02-22 23:23:28

NVIDIA今天在其官方博客中表示,今天與谷歌合作,在所有NVIDIA AI平台上爲Gemma推出了優化。Gemma是谷歌最先進的新輕量級2B(20億)和7B(70億)參數開放語言模型,可以在任何地方運行,降低了成本,加快了特定領域用例的創新工作。

這兩家公司的團隊密切合作,主要是使用NVIDIA TensorRT LLM加速谷歌Gemma開源模型的性能。開源模型Gemma采用與Gemini模型相同的底層技術構建,而NVIDIA TensorRT LLM是一個開源庫,用于在數據中心的NVIDIA GPU、雲服務器以及帶有NVIDIA RTX GPU的PC上運行時,可以極大優化大型語言模型推理。這也這使得開發人員能夠完全利用全球超過1億台數量的RTX GPU AI PC完成自己的工作。

同時,開發人員還可以在雲計算服務器中的NVIDIA GPU上運行Gemma,包括在谷歌雲基于H100 Tensor Core GPU,以及很快谷歌將于今年部署的NVIDIA H200 TensorCore GPU——該GPU具有141GB的HBM3e內存,內存帶寬可以達到4.8TB/s。

另外,企業開發人員還可以利用NVIDIA豐富的工具生態系統,包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM,對Gemma進行微調,並在其生産應用程序中部署優化模型。

NVIDIA表示,先期上線支持Gemma的是Chat with RTX,這是一款NVIDIA技術演示應用,使用檢索增強生成和TensorRT LLM擴展,在基于RTX GPU的本地Windows PC上爲用戶提供生成式AI應用的功能。通過RTX聊天,用戶可以輕松地將PC上的本地文件連接到大型語言模型,從而使用自己的數據對聊天機器人進行個性化設置。

由于該模型在本地運行,因此可以快速提供結果,並且用戶數據保留在設備上。與基于雲的LLM服務不同,使用Chat with RTX聊天可以讓用戶在本地PC上處理敏感數據,而無需與第三方共享或連接互聯網。

0 阅读:3

微型計算機

簡介:以“MC評測室”爲基礎提供各種科技和IT産品評測資訊