Nvidia的股票最近一直在蓬勃發展,這是基于對其LLM長期收入增長前景的樂觀情緒,因爲其圖形處理單元(GPU)在該部門處于領先地位。但亞馬遜的芯片投資是否會給Nvidia帶來麻煩?
Amazon Web Services (AWS)是快速發展的雲行業的先驅。今天,AWS爲亞馬遜帝國買單,並幫助資助大量其他業務投資。但是亞馬遜是如何決定投資半導體設計這樣的新企業的呢?正如Jassy在2022年年度股東信中解釋的那樣,有四個主要指標:
如果我們成功了,它能做大並獲得合理的投資回報嗎?
今天機會是否得到妥善利用?
我們有差異化的方法嗎?
而且,我們在那個領域有能力嗎?如果沒有,我們能否快速獲得它?
If we were successful, could it be big and have a reasonable return on invested capital?
Is the opportunity being well-served today?
Do we have a differentiated approach?
And, do we have competence in that area? And if not, can we acquire it quickly?
顯然,當AWS考慮設計數據中心芯片(爲雲提供動力的計算硬件)時,這四個問題的答案都是“是”。爲了啓動其芯片夢,它于2015年以3.5億美元的價格悄悄收購了以色列芯片設計初創公司Annapurna Labs。
Annapurna Labs爲AWS設計了許多芯片,包括其Graviton處理器——基于ARM的芯片替代英特爾和AMD提供的CPU。但是,Nvidia的GPU等計算加速器如何爲ChatGPT等新的人工智能服務提供動力?
這就是AWS Trainium和Inferentia芯片的用武之地。這些計算加速器在純粹的計算能力方面都無法與Nvidia最新和最好的設計相媲美(Alphabet的Google Cloud內部芯片也是如此)。但這並不是亞馬遜在開發Trainium和Inferentia時的主要目標,成本效益是他們目標。
正如他們的名字所暗示的那樣,Trainium旨在使用大量數據來訓練LLM如何表現。Inferentia用于推理,這是在訓練AI模型後完成大量計算工作的地方。推理是受過訓練的AI程序如何根據它已經學到的知識做出決定(比如當你向ChatGPT提問時,它會給出答案)。
AWS自己使用Trainium和Inferentia,但也向客戶提供更具成本效益的加速器。Jassy在致股東的信中表示,與類似的GPU系統相比,使用Trainium訓練的普通人工智能模型“速度提高了140%”,“成本降低了70%”。至于人工智能推理,Jassy表示,自2019年推出以來,其Inferentia芯片已經“爲亞馬遜等公司節省了超過一億美元的資本支出”。
簡而言之,亞馬遜在2015年對Annapurna的3.5億美元投資看起來將爲AWS和股東帶來令人難以置信的長期回報。
競爭是一件好事,因爲它讓商業領袖不斷推動他們的公司不斷改進。Nvidia將從其面向高級AI的最尖端GPU中大賺一筆,但它還有許多其他芯片也可以不斷改進。例如,在3月,它推出了面向AI推理的新L4 GPU,並配有軟件堆棧,以幫助優化各種AI工作負載並降低雲提供商和客戶的總擁有成本。
事實上,雖然亞馬遜AWS和其他雲提供商通過宣布他們自己的芯片設計來攪局,但AWS仍然是Nvidia的主要客戶。AWS的內部芯片目前在這家雲巨頭的運營中占據了一小部分。
當然,來自同行科技巨頭的日益激烈的競爭對Nvidia來說是一個很大的風險。但它遠非毫無防備。此外,雲計算和人工智能仍處于采用曲線的早期階段。正如Jassy在他的股東信的結尾所指出的那樣,盡管2022年AWS的收入爲800億美元,但“全球IT支出的大約90%”仍然是在尚未遷移到雲端的本地系統中産生的。
換句話說,盡管亞馬遜AWS在內部設計芯片方面取得了快速進展,但仍有大量新業務可以開展。英偉達會沒事的。
亞馬遜致股東信中關于芯片的描述摘譯:
芯片開發就是一個很好的例子。在去年的信中,我提到了我們對名爲Graviton的通用CPU處理器的投資。基于Graviton2的計算實例的性價比比最新一代基于x86的實例高出40%;2022年,我們交付了Graviton3芯片,性能比Graviton2處理器高25%。
此外,隨著機器學習的采用持續加速,客戶渴望成本更低的GPU(最常用于機器學習的芯片)。AWS幾年前開始投資這些專門用于機器學習訓練和推理的芯片(推理是機器學習模型提供的預測或答案)。我們在2022年交付了第一款訓練芯片(“Trainium”);對于最常見的機器學習模型,基于Trainium的實例比基于GPU的實例快140%,而成本最多降低70%。
大多數公司仍處于訓練階段,但是當他們開發模型並逐步進入大規模生産階段時,他們會發現大部分成本都在推理上,因爲模型是定期訓練的,而推理作爲其相關應用程序一直在發生我們在2019年推出了我們的第一款推理芯片(“Inferentia”),它們已經爲亞馬遜等公司節省了超過一億美元的資本支出。
我們剛剛推出的Inferentia2芯片的吞吐量比我們的第一款Inferentia處理器高四倍,延遲低十倍。隨著機器學習即將到來的巨大增長,客戶將能夠以更低的成本使用AWS的訓練和推理芯片完成更多工作。
我們在這方面的創新還沒有結束,這項長期投資應該會爲客戶和AWS帶來豐碩的成果。AWS仍處于發展的早期階段,並有機會在未來十年實現非同尋常的增長。