亞馬遜CEO解析:爲何自研芯片?考量四個指標!

啓芯硬件 2024-04-20 21:38:18
亞馬遜(首席執行官安迪·賈西(Andy Jassy)在他的第二份年度致股東信中爲投資者提供了大量有價值的花絮。其中之一是關于熱門的半導體行業,這是所有計算技術的基石。實際上,亞馬遜多年來一直在投資自己的內部半導體設計,並且越來越關注高性能機器學習處理器,這些處理器爲ChatGPT等大型語言模型(LLM)服務提供動力。

Nvidia的股票最近一直在蓬勃發展,這是基于對其LLM長期收入增長前景的樂觀情緒,因爲其圖形處理單元(GPU)在該部門處于領先地位。但亞馬遜的芯片投資是否會給Nvidia帶來麻煩?

Amazon Web Services (AWS)是快速發展的雲行業的先驅。今天,AWS爲亞馬遜帝國買單,並幫助資助大量其他業務投資。但是亞馬遜是如何決定投資半導體設計這樣的新企業的呢?正如Jassy在2022年年度股東信中解釋的那樣,有四個主要指標:

如果我們成功了,它能做大並獲得合理的投資回報嗎?

今天機會是否得到妥善利用?

我們有差異化的方法嗎?

而且,我們在那個領域有能力嗎?如果沒有,我們能否快速獲得它?

If we were successful, could it be big and have a reasonable return on invested capital?

Is the opportunity being well-served today?

Do we have a differentiated approach?

And, do we have competence in that area? And if not, can we acquire it quickly?

顯然,當AWS考慮設計數據中心芯片(爲雲提供動力的計算硬件)時,這四個問題的答案都是“是”。爲了啓動其芯片夢,它于2015年以3.5億美元的價格悄悄收購了以色列芯片設計初創公司Annapurna Labs。

Annapurna Labs爲AWS設計了許多芯片,包括其Graviton處理器——基于ARM的芯片替代英特爾和AMD提供的CPU。但是,Nvidia的GPU等計算加速器如何爲ChatGPT等新的人工智能服務提供動力?

這就是AWS Trainium和Inferentia芯片的用武之地。這些計算加速器在純粹的計算能力方面都無法與Nvidia最新和最好的設計相媲美(Alphabet的Google Cloud內部芯片也是如此)。但這並不是亞馬遜在開發Trainium和Inferentia時的主要目標,成本效益是他們目標。

正如他們的名字所暗示的那樣,Trainium旨在使用大量數據來訓練LLM如何表現。Inferentia用于推理,這是在訓練AI模型後完成大量計算工作的地方。推理是受過訓練的AI程序如何根據它已經學到的知識做出決定(比如當你向ChatGPT提問時,它會給出答案)。

AWS自己使用Trainium和Inferentia,但也向客戶提供更具成本效益的加速器。Jassy在致股東的信中表示,與類似的GPU系統相比,使用Trainium訓練的普通人工智能模型“速度提高了140%”,“成本降低了70%”。至于人工智能推理,Jassy表示,自2019年推出以來,其Inferentia芯片已經“爲亞馬遜等公司節省了超過一億美元的資本支出”。

簡而言之,亞馬遜在2015年對Annapurna的3.5億美元投資看起來將爲AWS和股東帶來令人難以置信的長期回報。

競爭是一件好事,因爲它讓商業領袖不斷推動他們的公司不斷改進。Nvidia將從其面向高級AI的最尖端GPU中大賺一筆,但它還有許多其他芯片也可以不斷改進。例如,在3月,它推出了面向AI推理的新L4 GPU,並配有軟件堆棧,以幫助優化各種AI工作負載並降低雲提供商和客戶的總擁有成本。

事實上,雖然亞馬遜AWS和其他雲提供商通過宣布他們自己的芯片設計來攪局,但AWS仍然是Nvidia的主要客戶。AWS的內部芯片目前在這家雲巨頭的運營中占據了一小部分。

當然,來自同行科技巨頭的日益激烈的競爭對Nvidia來說是一個很大的風險。但它遠非毫無防備。此外,雲計算和人工智能仍處于采用曲線的早期階段。正如Jassy在他的股東信的結尾所指出的那樣,盡管2022年AWS的收入爲800億美元,但“全球IT支出的大約90%”仍然是在尚未遷移到雲端的本地系統中産生的。

換句話說,盡管亞馬遜AWS在內部設計芯片方面取得了快速進展,但仍有大量新業務可以開展。英偉達會沒事的。

亞馬遜致股東信中關于芯片的描述摘譯:

芯片開發就是一個很好的例子。在去年的信中,我提到了我們對名爲Graviton的通用CPU處理器的投資。基于Graviton2的計算實例的性價比比最新一代基于x86的實例高出40%;2022年,我們交付了Graviton3芯片,性能比Graviton2處理器高25%。

此外,隨著機器學習的采用持續加速,客戶渴望成本更低的GPU(最常用于機器學習的芯片)。AWS幾年前開始投資這些專門用于機器學習訓練和推理的芯片(推理是機器學習模型提供的預測或答案)。我們在2022年交付了第一款訓練芯片(“Trainium”);對于最常見的機器學習模型,基于Trainium的實例比基于GPU的實例快140%,而成本最多降低70%。

大多數公司仍處于訓練階段,但是當他們開發模型並逐步進入大規模生産階段時,他們會發現大部分成本都在推理上,因爲模型是定期訓練的,而推理作爲其相關應用程序一直在發生我們在2019年推出了我們的第一款推理芯片(“Inferentia”),它們已經爲亞馬遜等公司節省了超過一億美元的資本支出。

我們剛剛推出的Inferentia2芯片的吞吐量比我們的第一款Inferentia處理器高四倍,延遲低十倍。隨著機器學習即將到來的巨大增長,客戶將能夠以更低的成本使用AWS的訓練和推理芯片完成更多工作。

我們在這方面的創新還沒有結束,這項長期投資應該會爲客戶和AWS帶來豐碩的成果。AWS仍處于發展的早期階段,並有機會在未來十年實現非同尋常的增長。

0 阅读:4

啓芯硬件

簡介:10+年經驗硬件工程師,熟悉硬件芯片設計