人工智慧已成為各大廠競爭的新賽道,最大的「賣水者」NVIDIA,手握最強大的 AI 晶片,成為最大贏家。但隨著科技公司的大模型「軍備戰」,晶片陷入嚴重的短缺,價格也隨之水漲船高。於是,科技公司自研晶片興起,傳統晶片廠商望著巨大的蛋糕,也開始向 NVIDIA 發起挑戰。
(前情提要:AMD發表新世代AI晶片「MI300」 ,效能輾壓 Nvidia H100)
(背景補充:NVIDIA在人工智慧一戰封神!黃仁勳重壓AI,建立數兆美元GPU帝國)
人工智慧的行業競爭,不僅是 OpenAI 與Google等各大網際網路巨頭的大模型之爭,支撐運算的晶片賽道也暗流湧動,大模型 「製造機」 們也加入了賽道。
OpenAI 計劃從 CEO Sam Altman 投資的一家初創公司 Rain AI 訂購更高效的 NPU 晶片;微軟也推出兩款自研晶片 Azure Maia 100 和 Azure Cobalt 100;Google剛推出的新模型 Gemini 1.0 採用的就是自己設計的晶片 TPUs v4 和 v5e。
在這之前,NVIDIA 構築的 AI 晶片帝國是這些大模型公司的強大輸出方,如今,大模型公司試圖要自給自足一部分。而正式向 NVIDIA 發起挑戰,還是晶片賽道上的老玩家。
美國超威半導體公司(AMD)已推出新一代 AI 晶片 MI300X, 還從從NVIDIA手中分走了 Meta、微軟和 OpenAI 三大客戶。
AI 晶片捲起來了,但想要挑戰坐在 「王位」 NVIDIA,也絕非易事。
大模型公司自給晶片
今年以來,各種 AI 大模型和應用百家爭鳴,NVIDIA A100、A800、H100、H800 等能支援 AI 大模型訓練的晶片被瘋狂搶購。「消費者」 不僅是科技公司,還有各國政府和風險投資公司。
「賣水」 的NVIDIA一時風頭無兩,他們家的 AI 晶片供不應求,AI 市場再現 GPU 短缺。
微軟在 2023 財年報告中就多次指出,對能否為其雲運營獲取 GPU 感到擔憂。OpenAI 的 CEO Sam Altman 也不止一次公開 「抱怨」 晶片短缺及成本巨大,今年 5 月,他曾公開表示,OpenAI 正在經歷嚴重的算力短缺。這也正在影響使用者體驗,ChatGPT 時常卡頓,反應延遲。
據報導,OpenAI 執行 ChatGPT 的成本每天在 70 萬美元。路透社指出,每個 ChatGPT 查詢的成本約為 4 美分,如果此類查詢增長到 Google 搜尋的 1/10,則需要預先投入價值約 480 億美元的 GPU,每年需要花費 160 億美元的晶片才能維持執行。
算力短缺,成本高昂,戴爾亞太和日本總裁 Peter Marrs 就曾預測,買家不會容忍NVIDIA GPU 的交貨時間過長,這將給大量競爭對手製造機會。
為了擺脫對NVIDIA的晶片依賴,OpenAI 正在考慮研發自己的 AI 晶片,以應對全球 GPU 的短缺,縮減 GPT 的訓練成本。
前幾天,OpenAI 一份訂購意向書曝光,Altman 任職 CEO 期間,該公司承諾從一家初創公司 Rain AI 訂購晶片,金額高達 5100 萬美元,而 Altman 投資了這家公司。
值得一提的,這款晶片是基於神經擬態(Neuromorphic)技術的 「類腦」 AI 晶片 NPU,據說 「模仿了人腦的結構和功能」,支援並行和分散式地處理資訊,非常適合 AI 應用中的 「計算密集型任務」,能夠實現低耗、高效地處理資訊。但目前,該晶片仍在研發階段。
不僅是 OpenAI,微軟和 Google 等大型科技公司也在一直打造更高效的晶片。
11 月 16 日,微軟在年度 IT 專業人士和開發者大會 Ignite 上推出兩款自研晶片 —— 雲端 AI 晶片微軟 Azure Maia 100、伺服器 CPU 微軟 Azure Cobalt 100。
Maia 100 旨在為 AI 工作負載執行基於雲的訓練和推理,而 Cobalt 100 則用於通用工作負載。微軟的資料中心預計,將在 2024 年初同時採用 Arm CPU 和專用 AI 加速器。微軟表示,除了在 Bing 和 Office AI 產品上測試該晶片外,OpenAI 也正在測試該晶片。
Google也開始行動,其剛剛釋出的、號稱 「吊打」 GPT-4 的大模型 Gemini1.0,用的就是Google自研的 TPUs v4 和 v5e 晶片。
Google稱,在 TPUs 上,Gemini 的執行速度明顯快於早期規模更小、效能更弱的模型。此外,Google 還發布了 TPU 系統 Cloud TPU v5p,旨在為訓練前端 AI 模型提供支援,從而加速 Gemini 的開發。
包括蘋果、華為等硬體廠商,越來越多的科技巨頭都開始自主設計和開發自己的晶片,以滿足自身的業務需求和差異化競爭。
NVIDIA 的防禦與擴張
大模型公司捲進晶片賽道,真能徹底擺脫對NVIDIA的依賴嗎?
儘管市面上NVIDIA H100 GPU 已漲到了原價的兩倍,依舊供不應求。也即便已經上線自研晶片的Google,也依然在大量採購NVIDIA的晶片。
NVIDIA有自己的護城河。
據英國《金融時報》 報導,今年以來,NVIDIA已經投資了二十多家公司,包括從價值數十億美元的大型新人工智慧平臺到將人工智慧應用於醫療保健或能源等行業的小型初創企業。
雖然NVIDIA表示,公司在投資時並沒有特殊條款,也不要求被投企業必須使用NVIDIA的晶片。但某種程度上,這意味著更密切的關係。
NVIDIA風險投資部門 NVentures 的負責人 Mohamed Siddeek 表示:「對於NVIDIA來說,進行初創企業投資的首要標準是相關性。」 他強調,「使用我們的技術、依賴我們的技術、在我們的技術上建立業務的公司,我想不出我們投資的公司有哪家沒有使用NVIDIA的產品。」
根據追蹤風險投資機構 Dealroom 的估計,NVIDIA在 2023 年參與了 35 筆交易,幾乎是去年的六倍。Dealroom 指出,這是NVIDIA人工智慧領域交易最活躍的一年,超過了 Andreessen Horowitz 和紅杉等矽谷大型風險投資公司。
此外,NVIDIA CUDA 計算平臺以及軟硬體生態,也為NVIDIA護城河構築了更加堅固的河堤。
CUDA 是一種NVIDIA推出的平行計算架構,執行相同任務的情況下,支援 CUDA 系統的NVIDIA GPU 比 CPU 的速度要快 10 到 100 倍。正是得益於 CUDA 系統,GPU 才得以打敗 CPU,成為今天執行大資料計算的基礎。
大模型公司自研晶片,擺在眼前的也困難並不少,根源是原材料的供不應求。
The Enderle Group 首席分析師 Rob Enderle 就表示,「製造晶片並非易事,代工廠和晶圓廠已經飽和,這使得 OpenAI 的這項工作很可能會失敗。」 他補充說,「他們最好與 AMD、高通、NVIDIA或英特爾合作,因為後者已經擁有自己的鑄造廠。」
還有成本。
Futurum Group 的高階分析師 Todd R. Weiss 表示,建立自己的晶片擺脫依賴 「乍一看,是一個很酷的主意」,但設計自己的晶片、建立自己的晶片製造設施,永無止境地開發更新更好的晶片路線圖所需的成本,還要擔心自己的供應鏈問題,「這並不比從他人手中購買晶片更簡單。」
晶片的戰場,還在晶片製造商之間。
12 月 6 日,NVIDIA最大的競爭對手美國超威半導體公司(AMD)舉行 「Advancing AI」 釋出會,並拉來了微軟、Meta 等科技公司高管站臺,釋出會上,AMD 帶來了新一代 AI 晶片 MI300X。
與NVIDIA的 H100 HGX 相比, MI300 X 加速器在執行大語言模型推理時的吞吐量和時延表現都要明顯高出一截,且價格也更加低廉。Meta、微軟和 OpenAI 公司隨後在 AMD 投資者活動上表態,未來他們將會使用 AMD 最新的 AI 晶片。
真正降低成本的辦法,還得看晶片製造商的 「互卷」。AMD、NVIDIA等晶片大廠進入產能競爭,價格才能打下來。而大模型巨頭自研晶片,無非是為 「軍備競賽」 多一條奔跑的腿。