2016 年創立的 CoreWeave 是如何拿到全球最硬通貨 – H100顯卡,而這款顯卡有什麼迷人之處,讓全球的科技大廠趨之若鶩。
(前情提要: 挖礦一天3000鎂!比特大陸進軍Kaspa推ASIC礦機KS3,顯卡礦工全哭了)
(背景補充:Joeman、草爺投資顯卡挖礦為何慘賠?專家曝「被當韭菜割」三大原因 )
2023 年 8 月 3 日,華爾街和矽谷聯袂奉上了一件震撼業界的大事:讓一家創業公司拿到 23 億美元的債務融資,抵押物則是當前全球最硬的通貨 —— H100 顯示卡 。
這個大事件的主角叫做 CoreWeave,主營業務是 AI 私有雲服務,簡單說就是通過搭建擁有大量 GPU 算力的資料中心,來給 AI 創業公司和大型商業客戶提供算力基礎設施。CoreWeave 累計融資 5.8 億美金,目前是 B 輪,估值 20 億美元。
CoreWeave 成立於 2016 年,創辦人是三個華爾街大宗商品交易員。剛開始公司的主營業務只有一個:挖礦,採購大量 GPU 來組建礦機中心, 尤其是在幣圈低潮時,公司會逆週期囤大量顯示卡,也因此跟輝達建立了鐵桿的革命友誼。
2019 年,CoreWeave 開始把這些礦機改造成企業級資料中心,向客戶提供 AI 雲服務,剛開始的生意也不溫不火,但 ChatGPT 誕生之後,大模型的訓練和推理每天都在消耗大量算力,已經擁有數萬張顯示卡(當然未必是最新型號)的 CoreWeave 嗖的一下起飛,門口擠滿了客戶和風投。
但令人感到蹊蹺的是:CoreWeave 累計一共只融到了 5.8 億美金,帳面 GPU 的淨值不會超過 10 億美元,甚至公司整體估值也只有 20 億美元,但為何卻能通過抵押借到 23 億美元呢?一向精於算計、熱衷對抵押物價值膝蓋斬的華爾街,為何如此慷慨呢?
原因極有可能是:CoreWeave 雖然帳上還沒這麼多顯示卡,但它拿到了輝達的供貨承諾,尤其是 H100。
CoreWeave 跟輝達的鐵桿關係已經是矽谷公開的祕密。 這種鐵桿根源於 CoreWeave 對輝達的毫無二心的忠誠和支援 —— 只用輝達的卡、堅決不自己造芯、顯示卡賣不動時幫輝達囤卡。 對黃仁勳來說,這種關係的含金量,遠超跟微軟、Google 和特斯拉的那些塑料友情。
因此,儘管輝達 H100 十分緊缺,輝達還是把大量新卡分配給了 CoreWeave,甚至不惜限制對亞馬遜和Google等大廠的供應。黃仁勳在電話會議裡誇讚:
「一批新的 GPU 雲服務提供商會崛起,其中最著名的是 CoreWeave,他們做得非常好。」
而在喜提 23 億美金的一週前,CoreWeave 就已對外宣稱,將耗資 16 億美元在德州建立一個佔地面積 42,000 平方米的資料中心。僅憑藉跟輝達之間的關係和優先配貨權,CoreWeave 就可以把建資料中心的錢從銀行裡借出來 —— 這種模式,讓人想起了拿地後立馬找銀行貸款的地產商。
所以可以這樣說:當下一份 H100 的供貨承諾,堪比房地產黃金時代的一紙土地批文。
一卡難求的 H100
今年 4 月在接受採訪時,馬斯克抱怨道 :
「現在似乎連狗都在買 GPU。」
很諷刺的是,特斯拉早在 2021 年就釋出了自研的 D1 晶片,由臺積電代工,採用 7nm 工藝,號稱能替代當時輝達主流的 A100。但 2 年過去了,輝達推出了更為強大的 H100,而特斯拉的 D1 沒有後續迭代,因此當馬斯克試圖組建自家的人工智慧公司時,還是得乖乖地跪在黃老爺門前求卡。
H100 在去年 9 月 20 日正式推出,由臺積電 4N 工藝代工。相較於前任 A100,H100 單卡在推理速度上提升 3.5 倍,在訓練速度上提升 2.3 倍;如果用伺服器叢集運算的方式,訓練速度更是能提高到 9 倍,原本一個星期的工作量,現在只需要 20 個小時。
相比 A100,H100 的單卡價格更貴,大約是 A100 的 1.5~2 倍左右,但訓練大模型的效率卻提升了 200%,這樣這算下來的 「單美元效能」 更高。 如果搭配輝達最新的高速連線系統方案,每美元的 GPU 效能可能要高出 4-5 倍,因此受到客戶瘋狂追捧。
搶購 H100 的客戶,主要分成三類:
- 第一類是 綜合型雲端計算巨頭 ,比如微軟 Azure、Google GCP 和亞馬遜 AWS 這樣的雲端計算巨頭。他們的特點是財大氣粗,動輒就想 「包圓」 輝達的產能,但每家也都藏著小心思,對輝達的近壟斷地位感到不滿,暗地裡自己研發晶片來降低成本。
- 第二類是 獨立的雲 GPU 服務商 ,典型公司如前文提到的 CoreWeave,以及 Lambda、RunPod 等。這類公司算力規模相對較小,但能夠提供差異化的服務,而輝達對這類公司也是大力扶持,甚至直接出錢投資了 CoreWeave 和 Lambda,目的很明確:給那些私自造芯的巨頭們上眼藥。
- 第三類是 自己在訓練 LLM(大語言模型)的大小公司。 既包括 Anthropic、Inflection、Midjourney 這種初創公司,也有像蘋果、特斯拉、Meta 這樣的科技巨頭。它們通常一邊使用外部雲服務商的算力,一邊自己採購 GPU 來自建爐灶 —— 有錢的多買,沒錢的少買,主打一個豐儉由人。
在這三類客戶中,微軟 Azure 至少有 5 萬張 H100,Google手上大概有 3 萬張,Oracle 大概有 2 萬張左右,而特斯拉和亞馬遜手上也至少拿有 1 萬張左右,CoreWeave 據稱有 3.5 萬張的額度承諾(實際到貨大概 1 萬)。其他的公司很少有超過 1 萬張的。
這三類客戶總共需要多少張 H100 呢?根據海外機構 GPU Utils 的預測,H100 當前需求大概 43.2 萬張。 其中 OpenAI 需要 5 萬張來訓練 GPT-5,Inflection 需求 2.2 萬張,Meta 則是 2.5 萬張(也有說法是 10 萬張),四大公有雲廠商每家都需要至少 3 萬張,私有云行業則是 10 萬張,而其他的小模型廠商也有 10 萬張的需求 。
輝達 2023 年的 H100 出貨量大概在 50 萬張左右 ,目前臺積電的產能仍在爬坡,到年底 H100 一卡難求的困境便會緩解。
但長期來看,H100 的供需缺口會隨著 AIGC 的應用爆發而繼續水漲船高。根據金融時報的報導,2024 年 H100 的出貨量將高達 150 萬張 – 200 萬張,相比於今年的 50 萬張,提升 3-4 倍 。
而華爾街的預測則更為激進:美國投行 Piper Sandler 認為明年輝達在資料中心上的營收將超過 600 億美元(FY24Q2:103.2 億美元),按這個資料倒推,A+H 卡的出貨量接近 300 萬張。
還有更誇張的估計。某 H100 伺服器最大的代工廠(市佔率 70%-80%),從今年 6 月開始就陸續出貨了 H100 的伺服器,7 月份產能陸續爬坡。一份最近的調研顯示,這家代工廠認為 2024 年 A+H 卡的出貨量會在 450 萬張~500 萬張之間。
這對輝達意味著 「潑天的富貴」,因為 H100 的暴利程度,是其他行業人難以想像的。
比黃金更貴的顯示卡
為了搞清 H100 有多暴利,我們不妨把它的物料成本(Bill of Materials, BOM)徹底拆解出來。
如圖所示,H100 最通用的版本 H100 SXM 採用的是臺積電 CoWoS 的 7 晶粒封裝,6 顆 16G 的 HBM3 晶片分列兩排緊緊圍繞著中間的邏輯晶片。
而這也構成了 H100 最重要的三個部分:邏輯晶片、HBM 儲存晶片、CoWoS 封裝 ,除此之外,還有諸如 PCB 板以及其他的一些輔助器件,但價值量不高。
核心的邏輯晶片尺寸是 814mm^2,產自臺積電最先進的臺南 18 號工廠,使用的工藝節點則是 「4N」,雖然名字上是 4 打頭,但實際上是 5nm+。由於 5nm 的下游,手機等領域的景氣度不佳,因此臺積電在保供邏輯晶片上沒有任何問題。
而這塊邏輯晶片是由 12 寸(面積 70,695mm^2)的晶圓切割產生,理想狀態下可以切出 86 塊,但考慮到 「4N」 線 80% 的良率以及切割損耗,最後一張 12 寸晶圓只能切出 65 塊的核心邏輯晶片。
這一塊核心邏輯晶片的成本是多少呢?臺積電 2023 年一片 12 寸的晶圓對外報價是 13,400 美元,所以折算下來單塊大概在 200 美元左右。
接下來是 6 顆 HBM3 晶片,目前由 SK 海力士獨供 ,這家起源於現代電子的企業,2002 年幾乎要委身與美光,憑藉著政府的輸血以及逆週期上產能的戰略,如今在 HBM 的量產技術上至少領先美光 3 年(美光卡在 HBM2e,海力士 2020 年中期量產)。
HBM 的具體價格,各家都諱莫如深,但根據韓媒的說法,HBM 目前是現有 DRAM 產品的 5-6 倍。 而現有的 GDDR6 VRAM 的價格大概是每 GB3 美元,如此推算 HBM 的價格是在每 GB 15 美元左右。 那一張 H100 SXM 在 HBM 上的花費就是 1500 美元。
雖然今年 HBM 的價格不斷上漲,輝達、Meta 的高管也親赴海力士 「督工」,可下半年三星的 HBM3 就能逐步量產出貨,再加上韓國雙雄祖傳的擴張血脈,想必到了明年 HBM 就不再是瓶頸。
而真正是瓶頸的則是臺積電的 CoWoS 封裝,這是一種 2.5D 的封裝工藝。 相比於直接在晶片上打孔(TSV)、佈線(RDL)的 3D 封裝,CoWoS 可以提供更好的成本、散熱以及吞吐頻寬,前兩者對應 HBM,後兩者則是 GPU 的關鍵。
所以想要高存力、高算力的晶片,CoWoS 就是封裝上的唯一解。輝達、AMD 兩家的四款 GPU 都用上了 CoWoS 就是最好的佐證。
CoWoS 的成本是多少呢?臺積電 22 年財報披露了 CoWoS 工藝佔總營收 7%, 於是海外分析師 Robert Castellano 根據產能,以及裸晶的尺寸推算出封裝一塊 AI 晶片能給臺積電帶來 723 美元的營收 。
因此把上述最大的三塊成本項加總,合計在 2,500 美元左右,其中臺積電佔了 $1,000(邏輯晶片 + CoWoS)左右,SK 海力士佔了 1500 美金(未來三星肯定會染指),再算上 PCB 等其他材料, 整體物料成本不超過 3000 美金。
那 H100 賣多少錢呢?35000 美金,直接加了一個零,毛利率超過 90%。 過去 10 年輝達毛利率大概在 60% 上下,現在受高毛利的 A100/A800/H100 的拉動,今年 Q2 輝達的毛利率已經站上了 70%。
這有點反常識:輝達嚴重依賴臺積電的代工,後者地位無人撼動,甚至是唯一能卡輝達脖子的核心環節。但這麼一塊 3.5 萬美金的卡,製造它的臺積電只能拿 1000 美金,而且只是收入,不是利潤。
不過,用毛利率來定義暴利,對於晶片公司意義不大,要是從沙子開始算,那毛利率更高。一張 4N 工藝的 12 寸晶圓,臺積電賣給誰都差不多是 1.5 萬美金一片,輝達能加個零賣給客戶,自然有其訣竅。
這個訣竅的祕密在於:輝達本質上,是一個偽裝成硬體廠商的軟體公司。
軟硬一體的護城河
輝達最強大的武器,就藏在毛利率減去淨利率的那一部分。
在本輪 AI 熱潮之前,輝達的毛利率常年維持在 65% 上下,而淨利率通常只有 30%。而今年 Q2 受高毛利的 A100/A800/H100 的拉動,毛利率站上 70%,淨利率更是高達 45.81%。
輝達目前在全球有超過 2 萬名員工,大都是高薪的軟硬體工程師,而根據美國獵聘 Glassdoor 的資料,這些職位的平均年薪基本都高於 20 萬美元 / 年。
在過去的十年裡,輝達研發支出的絕對值保持著高速增長,而研發費用率穩態下也維持在 20% 以上。當然,如果某一年的終端需求爆發,比如 2017 年的深度學習、21 年的挖礦、以及今年的大語言模型,營收的分母驟然擡升,研發費用率就會短暫的跌倒 20%,相應地利潤也會非線性暴增。
而在輝達研發的這麼多專案中最關鍵的無疑是 CUDA。
03 年為解決 DirectX 程式設計門檻過高的問題,Ian Buck 的團隊推出了一款名為 Brook 的程式設計模型,這也是後來人們常說的 CUDA 的雛形。06 年 Buck 加入輝達,並說服黃仁勳研發 CUDA 。
因為支援 C 語言環境下的平行計算,使得 CUDA 一躍成為工程師的首選,也讓 GPU 走上了通用處理器(GPGPU)的道路。
在 CUDA 逐漸成熟之後,Buck 再次勸說黃仁勳,讓輝達未來所有的 GPU 都必須支援 CUDA。06 年 CUDA 立項,07 年推出產品,當時輝達的年營收僅有 30 億美元,卻在 CUDA 上花費 5 億美金,到了 17 年時,單在 CUDA 上的研發支出就已超過了百億。
曾經有位私有云公司的 CEO 在接受採訪時說過,他們也不是沒想過轉去買 AMD 的卡,但要把這些卡除錯到正常運轉至少需要兩個月的時間 。 而為了縮短這兩個月,輝達投入上百億走了 20 年。
晶片行業浮沉大半個世紀,從來沒有一家企業像輝達一樣,既賣硬體、也賣生態,或者按黃仁勳的話來說:「賣的是準系統」。 因此,輝達對標的也的確不是晶片領域的那些先賢們,而是蘋果 —— 另一家賣系統的公司。
從 07 年推出 CUDA,到成為全球最大的印鈔廠,輝達也並不是沒有過對手。
08 年當時晶片屆王者英特爾中斷了與輝達在集顯專案上的合作,推出自己的通用處理器(GPCPU),打算在 PC 領域 「劃江而治」。可輝達在隨後幾年的產品迭代中,硬是把自家處理器推廣到太空、金融、生物醫療等需要更強大計算能力的領域,於是 10 年英特爾眼看打壓無望,被迫取消了獨立顯示卡計劃。
09 年蘋果的開發團隊推出了 OpenCL,希望能憑藉著通用性在 CUDA 身上分一杯羹。但 OpenCL 在深度學習的生態上遠不如 CUDA,許多學習框架要麼是在 CUDA 釋出之後,才會去支援 OpenCL,要麼壓根不支援 OpenCL。於是在深度學習上的掉隊,使得 OpenCL 始終無法觸及更高附加值的業務。
15 年 AlphaGo 開始在圍棋領域初露鋒芒,宣告人工智慧的時代已經來臨。此時的英特爾為了趕上這最後一班車,把 AMD 的 GPU 裝入自己的系統晶片內。這可是兩家公司自上世紀 80 年代以來的首次合作。可如今 CPU 老大、老二 + GPU 老二的市值之和僅是 GPU 老大輝達的 1/4。
從目前看來,輝達的護城河幾乎是牢不可摧。即使有不少大客戶笑裡藏刀,私下裡在研發自己的 GPU,但憑藉著龐大的生態和快速的迭代,這些大客戶也無法撬動帝國的裂縫,特斯拉就是明證。輝達的印鈔機生意,在可見的未來還會持續。
可能唯一讓黃仁勳縈繞烏雲的地方,便是那個客戶眾多 、需求旺盛但 H100 賣不進去、但人家又在咬牙攻堅的地方 —— 這個地方全世界只有一個。
📍相關報導📍
AI大未來!這6個加密專案加入了 NVIDIA Inception 計劃