AI 的火爆使得 NVIDIA 的市值水漲船高,成功躋身兆美元俱樂部,作為公司的靈魂人物,黃仁勳一路走來經歷了哪些故事?這位皮衣客又是如何一步步建立了他的顯示卡帝國?
(前情提要:輝達Q3營收再創新高!但美中晶片禁令成絆腳石,Nvidia股價不漲反跌)
(背景補充:輝達揭最強AI晶片「H200」!股價連十漲創歷史新高, 微軟、Google Cloud..率先啟用)
從神經網路 AlexNet、到 ChatGPT,再到生成式 AI 的大爆發,NVIDIA 的 GPU 功不可沒。
在這場 AI 淘金熱中,NVIDIA的市值水漲船高,成功進入兆美元俱樂部,成為全球第 6 大市值最高的公司。
若說 NVIDIA 的成功背後,一定離不開這位靈魂人物 —— 黃仁勳。
人人皆知喬布斯、蓋茨等科技巨人的故事,而一直不願意拋頭露面的老黃,除了一身皮衣,更多的經歷鮮有人知。
這次,紐約客的最新採訪深挖了老黃創業歷程、管理方式、以及如何帶領 NVIDIA 走向成功的過程。
老黃早年那些事
黃仁勳出生於 1963 年的臺灣,九歲時,他和哥哥被送往美國,在肯塔基州的奧奈達浸信會學院( Oneida Baptist Institute, in Kentucky)學習。
黃仁勳和一個 17 歲的室友住在一起,他教室友識字,作為交換,室友教他臥推。每天晚上睡覺前,黃仁勳都要做一百個俯臥撐。
由於年齡太小,黃仁勳不能在這所學校上課,於是他去了附近的一所公立學校。
當時,校長向大家介紹了這位身材矮小、留著長髮、操著濃重口音的亞洲移民。然而,也正因為這些特質,讓黃仁勳飽受同學的霸凌。
幾年後,黃仁勳的父母獲准進入美國,定居在俄勒岡州,兄弟倆與父母團聚。
黃仁勳高中時成績優異,是全國排名靠前的乒乓球運動員。他參加了學校的數學、電腦和科學俱樂部,跳了兩級,16 歲就畢業了。—— 但是他也表示「我沒有女朋友。」
後來,黃仁勳進入俄勒岡州立大學,主修電子工程。
在入門課上,他的實驗搭檔是 Lori Mills,認真、呆萌、有著一頭棕色捲髮。
據黃仁勳回憶,當時電子工程專業有 250 個學生,大概只有三個女生。男生們爭相吸引 Mills 的注意,黃仁勳覺得自己處於劣勢。「我是班裡最年輕的孩子,看上去只有 12 歲左右」。
—— 然而,每個週末,黃仁勳都會給 Mills 打電話,纏著她一起做作業。
「我想給她留下深刻印象,不是因為我的長相,而是因為我完成作業的能力很強。」
做了六個月的功課後,黃仁勳鼓起勇氣約她出去。她接受了邀請。
畢業後,黃仁勳和 Mills 在矽谷找到了一份微晶片設計師的工作 ——「她實際上比我掙的多」。
後來兩人結婚了,幾年後,Mills 離開了工作職位,去撫養他們的孩子。那時,黃仁勳已經開始經營自己的部門,晚上則在斯坦福大學讀研究生。
3 人創業,緣起一家餐廳
1993 年,他與 Chris Malachowsky 和 Curtis Priem 兩位資深微晶片設計師共同創立了 NVIDIA 公司。
Malachowsky 和 Priem 希望設計出一種圖形晶片。最初他們給公司起名叫 NVision,但後來得知這個名字已經被一家衛生紙製造商使用。
黃仁勳建議使用 NVIDIA,取自拉丁文 i NVIDIA,意為「嫉妒」。他選擇丹尼餐廳(Denny’s)作為組織業務的場所,是因為這裡比家裡安靜,而且有便宜的咖啡。
他曾於 1980 年代在俄勒岡州的連鎖餐廳工作過。「我發現,在逆境中我的思維最活躍。」
黃仁勳喜歡電子遊戲,他認為市場需要更好的圖形晶片。那時,藝術家們開始用被稱為「基元」的形狀來組裝三維多邊形,而不是手工繪製畫素,這樣做省時省力,但需要新的晶片。
NVIDIA 的競爭對手使用三角形作為基元,但黃仁勳和同伴決定改用四邊形。—— 不過後來證明這是一個錯誤,差點毀了公司。因為在 NVIDIA 釋出第一款產品後不久,微軟宣佈其圖形軟體將只支援三角形。
由於資金短缺,黃仁勳決定回到傳統的三角形方法。1996 年,他裁掉了 NVIDIA 一百多名員工中的一半,然後把公司剩餘的資金押在了未經測試的微晶片生產上,他不確定這些微晶片是否能成功。
——「成功和失敗的概率五五開,但無論如何我們都要倒閉了」。
當這款名為 RIVA 128 的產品上市時,NVIDIA 的資金僅夠支付一個月的工資。但這場賭博得到了回報,NVIDIA 在四個月內賣出了一百萬臺 RIVA。
黃仁勳鼓勵他的員工帶著絕望的情緒繼續出貨,在以後的日子裡,每逢面對員工演講,他的開場白就是「我們公司還有三十天就要倒閉了」。這句話至今仍是公司的非正式座右銘。
位於聖克拉拉( Santa Clara)的NVIDIA總部中心有兩座巨大的建築,每座建築都呈三角形。從沙發、地毯到小便池的防濺罩,整個大樓內部都是這種形狀的縮影。
每棟大樓的頂層都有一個酒吧,公司鼓勵員工把辦公室當作靈活的空間,在這裡用餐、編碼和社交。如果員工在會議桌上用餐,AI 可以在一小時內派遣清潔工進行清理。在股價上漲之前,NVIDIA就被評為美國最佳工作場所之一。
在標準電腦體系結構中,大部分工作由被稱為中央處理器(CPU)的微型晶片完成。幾十年來,CPU 的主要製造商一直是英特爾,英特爾曾多次試圖迫使 NVIDIA 退出市場。
黃仁勳描述NVIDIA與英特爾之間的關係是「Tom and Jerry relationship」—— 每當他們靠近,我們就拿起晶片跑路。
對此,NVIDIA 採用了另一種方法。1999 年,公司在上市後不久就推出了名為 GeForce 的圖形卡。
與通用 CPU 不同的是,GPU 把複雜的數學任務分解成小的計算,然後用平行計算的方法一次處理完。CPU 的功能就像一輛送貨卡車,一次送一個包裹;而 GPU 則更像一支摩托車隊,在城市中穿梭。
GeForce 系列取得了成功。《Quake》(《雷神之錘》)系列視訊遊戲推動了它的流行,該遊戲使用平行計算來渲染玩家可以用榴彈發射器射擊的怪物。
《Quake》系列還推出了多人對戰的模式,PC 遊戲玩家為了獲得優勢,每次升級都會購買新的 GeForce 顯示卡。
2000 年,斯坦福大學電腦圖形學的研究生 Ian Buck 將 32 塊 GeForce 顯示卡連線在一起,使用 8 臺投影儀玩 Quake。—— 這是第一臺 8K 解析度的遊戲機,它佔據了整面牆。 「It was beautiful.」
GeForce 顯示卡附帶了一種叫做「著色器」的原始程式設計工具。在美國研究機構 darpa 的資助下,Ian Buck 黑進了著色器,訪問了下面的平行計算電路,將 GeForce 變成了一臺低成本的超級電腦。
隨後不久,Ian Buck 就開始在NVIDIA上班了。
自 2004 年以來,Buck 一直負責NVIDIA超級計算軟體包(CUDA)的開發工作。黃仁勳的願景是讓 CUDA 能夠在每一塊 GeForce 顯示卡上執行。
在 Buck 開發軟體的同時,NVIDIA的硬體團隊開始在微晶片上為超算分配空間。NVIDIA的首席晶片工程師 Arjun Prabhu 將微晶片設計比作城市規劃,晶片的不同區域專門用於執行不同的任務。
2006 年底,當 CUDA 釋出時,華爾街的反應是驚愕。黃仁勳將超級計算帶給了大眾,但大眾並沒有表現出他們需要這樣的東西。
矽谷流行Podcast《Acquired》的主持人 Ben Gilbert 表示,NVIDIA 花了數十億美元瞄準學術和科學計算的一個不起眼的角落,而這在當時並不是一個大市場。
到 2008 年底,NVIDIA 的股價下跌了 70%。
黃仁勳認為,CUDA 的存在將擴大超級計算領域。但這一觀點並未得到廣泛認同。
2 張NVIDIA顯示卡,1 個 CUDA 架構,引爆神經網路
20 世紀初,提起 AI,完全是一個冷門的學科。人工智慧在影象識別、語音識別等領域的進展一直止步不前。
在這個不受歡迎的學術領域中,使用「神經網路」(受人腦啟發的計算結構)來解決問題,更是沒有得到許多電腦科學家的青睞。
當時,深度學習研究員 Bryan Catanzaro 勸阻老黃,「不要研究神經網路。因為當時人們認為,這已經過時了,而且不起作用」。
Catanzaro 還將繼續研究神經網路的研究人員,統一稱為「荒野中的先知」。
這其中的一位先知,便指的是從多倫多大學教授退休、有 AI 教父之稱的 Geoffrey Hinton。
2009 年,Hinton 的研究小組使用 NVIDIA 的 CUDA 平臺,訓練了一個神經網路來識別語音。
沒想到,這項研究結果的品質,讓 Hinton 本人感到非常驚訝,並在當年的一次會議上彙報了結果。然後,他主動聯絡了 NVIDIA。
「我發了一封電子郵件說:『聽著,我剛剛告訴上千名機器學習研究人員,他們應該去購買NVIDIA顯示卡。你能免費送我一塊嗎?』」。
然而,NVIDIA 最後的回覆只有一個字「No」。
儘管受到了冷落,Hinton 還是鼓勵自己的學生使用 CUDA,包括自己引以為傲的高徒 Alex Krizhevsky。
2012 年,Krizhevsky 和研究夥伴 Ilya Sutskever 在預算緊張的情況下,購買了 2 張 GeForce 顯示卡 ——GTX 580 GPU。
然後,Krizhevsky 開始在 NVIDIA 的平行計算平臺上,訓練視覺識別神經網路 ——AlexNet,一週內就向其輸入了數千萬張影象。
Hinton 回憶道,「他的臥室裡那兩塊 GPU 一直嗡嗡運轉不停,可想而知,他父母一定支付了相當可觀的電費」。
隨後,Krizhevsky 和小夥伴一起帶著 AlexNet 參加了一年一度的 ImageNet 大賽,一舉奪得冠軍,第一個深度卷積網路模型就此誕生了。
GeForce 顯示卡的能力,讓 Ilya 和 Krizhevsky 雙雙感到驚訝。
其實,2012 年早些時候,Google研究人員吳恩達、Jeff Dean 曾訓練了一個可以「識別貓」的神經網路。
Google 這項工作使用了大約 1.6 萬個 CPU,而 Sutskever 和 Krizhevsky 僅用 2 塊 NVIDIA 電路板就產生了「世界級」的效果。
AlexNet 正確識別了滑板車、豹子和集裝箱船等物品的圖片
然而,AlexNet 在比賽中得分如此之高,以至於組織者最初懷疑 Krizhevsky 是否以某種方式作弊。因為神經網路在當時並不受歡迎,Ilya 和 Krizhevsky 是唯一一個使用這種技術的參賽團隊。
Hinton 稱,「那是一種大爆炸的時刻。這就是正規化的轉變」。這篇「ImageNet Classification with Deep Convolutional Neural Networks」9 頁神作自 2021 年誕生以來,至今已被引用了了 14 萬 + 次,成為電腦史上重要的里程碑。
Krizhevsky 開創了許多重要的程式設計技術,但他的主要發現是,「專用的 GPU 可以訓練神經網路,速度比通用 CPU 快 100 倍」。
Hinton 補充道,「如果沒有 CUDA,做機器學習就會非常麻煩」。
隨後幾年內,ImageNet 競賽的每個參賽者都在用上了「神經網路」。到 20 世紀 20 年代中期,在 GPU 上訓練的神經網路識別影象的準確率達到了 96%,遠遠超過了人類。
過去十年來,黃仁勳在推動超級計算和 GPU 的普及上取得了巨大的成功。
他表示,「事實上,它們現在可以解決完全非結構化的電腦視覺問題,那麼接下來,你還能教它做什麼?」
老黃再下注:NVIDIA 從圖形公司,升級「AI 公司」
答案似乎是:什麼都可以!
黃仁勳總結說,神經網路將徹底改變社會,他可以利用 CUDA 佔領必要的硬體市場。
當時,他宣佈再次押注公司。
他在週五晚上發出一封郵件,「一切都將轉向深度學習,我們不再是一家圖形公司。從下週一早上開始,我們是一家人工智慧公司」。
NVIDIA 的蛻變,從字面上看,就是這麼快。
就在黃仁勳傳送那封電子郵件之時,他找到了NVIDIA首席人工智慧研究員 Catanzaro,進行了一次思想實驗。
Catanzaro 表示,「他讓我想像,把 NVIDIA 的 8000 名員工都帶進停車場,然後我可以自由地從停車場選擇任何人加入自己的團隊」。
H100,成大模型掘金鏟
在 AlexNet 成功之後,風險投資人開始向 AI 投入大筆資金。
Andreessen Horowitz 公司的 Marc Andreessen 在 2016 年表示,「我們一直在投資許多將深度學習應用於許多領域的初創公司,每一家公司都有效地建立在 NVIDIA 的平臺之上」。
大約在那個時候,NVIDIA向 OpenAI 的研究小組,交付了第一臺專用的人工智慧超級電腦 DGX-1。
黃仁勳親自把 DGX-1 帶到了 OpenAI 的辦公室,是由時任董事長的馬斯克開箱。
2017 年,Google 的研究人員提出了 Transforme 的神經網路架構。
次年,OpenAI 的研究人員便使用 Google 的框架構建了第一個「生成式預訓練 Transformer」。
GPT 模型在 NVIDIA 超級電腦上進行訓練,使用了大量的文字語料庫,並學習如何建立類似人類的聯絡。
2022 年底,經過多年迭代,當紅炸子雞 ChatGPT 終於面向公眾釋出。
也就是從那時起,NVIDIA 顯示卡需求爆單。
其中,最強悍的 DGX H100,一個重達 160 多公斤的金屬盒子,價格高達 50 萬美元,已經缺貨了數月。
DGX H100 的執行速度是訓練 ChatGPT 的硬體的 5 倍,並且可以在不到 1 分鐘的時間內訓練 AlexNet。
NVIDIA 預計,將在 23 年年底前售出 50 萬臺 DGX H100。
應用於神經網路的處理能力越強,其輸出就越複雜。對於最先進的 AI 系統,或許需要數十個 NVIDIA DGX H100。
如果這還不夠,NVIDIA將把這些電腦像圖書館堆疊一樣排列,用價值數千萬美元的超級計算裝置填滿資料中心。
顯然,人工智慧的能力沒有明顯的限制。
在接下來的幾年裡,NVIDIA 的硬體將加速進化到電腦時鐘週期的速度,從而訓練出各種類似的人工智慧模型。
據介紹,NVIDIA 賣出的裝置毛利率接近 70%。
巨大的利潤讓所有開發 AI 訓練硬體的Google、特斯拉,以及初創公司都垂涎欲滴。
說起來,NVIDIA 最激烈的競爭對手是 AMD。
自 2014 年以來,AMD 一直由另一位才華橫溢的工程師蘇姿豐(Lisa Su)經營。自她成為公司負責人以來的幾年裡,AMD 的股價上漲了 30 倍,使她成為這個時代最成功的半導體 CEO,僅次於黃仁勳。
值得一提的是,老黃和蘇姿豐還是親戚關係。
黃氏管理法
老黃本人很少接受採訪。他表示,「我並沒有做什麼特別的事,主要是我的團隊的努力,我也不確定為什麼我被選為執行長,我並沒有任何特別的驅動力」。
當老黃下定決心在 30 歲經營一家企業的時候,他的聯創 Chris Malachowsky 說,「你真的不是一個好演講者,因為你比較內向」。
老黃表示,「我只有一個超能力 —— 做作業」。NVIDIA軟體主管 Dwight Diercks 稱老黃可以在一個週末掌握任何課題。
黃仁勳更喜歡敏捷的公司結構,沒有固定的部門或等級制度。取而代之的是,員工每週提交一份清單,列出他們正在做的 5 件最重要的事情。
而他自己,每天也要寫幾百封回覆的郵件,與員工聊天,通常僅有幾句話。一位高管將這些郵件比作俳句,另一位還比作贖金票據。
老黃自己還制定了一套自己經常引用的管理格言。
在安排任務時,老黃會要求員工考慮「光速」。這不僅意味著快速行動;相反,員工應該考慮一項任務可以完成的絕對速度,然後朝著可實現的目標逆向努力。
也許老黃最激進的信念是「失敗必須分享」。
2000 年初,NVIDIA 曾出貨了一款有故障的顯示卡,風扇聲音過大、過度活躍。
然而,黃仁勳沒有解僱該顯示卡的產品經理,而是安排了一次會議,讓經理們向幾百人介紹了,他們做出的每一個導致慘敗的決定。
NVIDIA 的員工們有時也會抱怨,老黃的性格反覆無常。
黃仁勳表示,「這其實是我腦子裡想的和嘴裡說的不一致。當錯位很嚴重時,就會表現為憤怒」。
即便在他很冷靜的時候,黃仁勳的強勢也可能是壓倒性的。一名員工形容,「與他交流就像把手指插進電插座裡」。
儘管如此,NVIDIA 員工流失率很低。
GPU 的銷量暴漲,也讓 NVIDIA 成為了世界算力霸主,成功進入兆美元俱樂部。這背後離不開領導人黃仁勳的「瘋狂式」的管理策略。
老黃曾表示,當你創立一家公司時,很自然地從第一性原理開始。