隨著時代加速向數位化轉型,AI 與 DePIN 已成為這場變革中的潛力關鍵技術。而一旦這二者相互結合,將開啟更為安全、透明和高效的服務模式,為全球經濟帶來更加深遠的影響。本文源自作者 CGV Research 所著文章,由 PANews 編譯、整理及撰稿。
(前情提要: 2024「八大新敘事」關鍵詞整理:DePIN、RWA、SociaFi..)
(背景補充: AI讓股價升空!微軟超車蘋果,重奪全球市值NO.1)
利用演算法、算力與資料的力量,AI 技術的進步正在重新定義資料處理和智慧決策的邊界。與此同時,DePIN 代表了從中心化基礎設施向去中心化、基於區塊鏈的網路的正規化轉變。
隨著世界邁向數位化轉型的步伐不斷加快,AI 和 DePIN (去中心化物理基礎設施) 成為推動各行各業變革的潛在基礎性技術。
DePIN:去中心化脫虛向實,數位經濟中流砥柱
DePIN,是去中心化物理基礎設施(Decentralized Physical Infrastructure)的縮寫。從狹義上說,DePIN 主要指由分散式帳本技術支撐的傳統物理基礎設施的分散式網路,例如電力網路、通訊網路、定位網路等。從廣義上說,所有由物理裝置支撐的分散式網路都可以稱之為 DePIN,例如儲存網路、計算網路。
如果說 Crypto 在金融層面帶來了去中心化的變革,那麼 DePIN 就是實體經濟中的去中心化方案。可以說,PoW 礦機,就是一種 DePIN。從第一天起,DePIN 就是 Web3 的核心支柱。
AI 三要素 —— 演算法、算力、資料,DePIN 獨佔其二
人工智慧的發展通常被認為依賴於三個關鍵的要素:演算法、算力和資料。演算法指驅動 AI 系統的數學模型和程式邏輯,算力指執行這些演算法所需的計算資源,資料是訓練和優化 AI 模型的基礎。
三要素中哪個最重要?ChatGPT 出現之前人們通常認為是演算法,不然學術會議、期刊論文也不會被一篇又一篇的演算法微調所填充。
可當 ChatGPT 與支撐其智慧的大語言模型 LLM 亮相之後,人們開始意識到後兩者的重要性。海量的算力是模型得以誕生的前提,資料品質和多樣性對於建立健壯和高效的 AI 系統至關重要,相比之下,對於演算法的要求不再如往常精益求精。
在大模型時代,AI 從精雕細琢變為大力飛磚,對算力與資料的需求與日俱增,而 DePIN 恰好能夠提供。代幣激勵撬動市場,海量的消費級算力與儲存將為大模型提供最好的養料。
AI 的去中心化不是可選項,而是必選項
當然有人會問,算力和資料,在 AWS 的機房中都有,而且在穩定性、使用體驗方面都勝過 DePIN,為什麼要選擇 DePIN 而不是中心化的服務?
這種說法自然有其道理,畢竟縱觀當下,幾乎所有大模型都是由大型的網際網路企業直接或間接開發的,ChatGPT 的背後是微軟,Gemini 的背後是 Google,中國的網際網路大廠幾乎人手一個大模型。為何?因為只有大型的網際網路企業擁有足夠的優質資料與雄厚財力支撐的算力。但這是不對的,人們已經不想再被網際網路巨頭操縱一切。
一方面,中心化的 AI 具備資料隱私和安全風險,可能受到審查與控制;另一方面,網際網路巨頭製造的 AI 會使人們進一步加強依賴性,並且導致市場集中化,提高創新壁壘。
人類不應該需要一個 AI 紀元的馬丁路德了,人們應該有權利直接和神對話。
商業角度看 DePIN:降本增效是關鍵
哪怕拋開去中心化與中心化的價值觀之爭,從商業角度來看,將 DePIN 用於 AI 仍然有其可取之處。
首先,我們需要清晰地認識到,儘管網際網路巨頭手中掌握了大量的高階顯示卡資源,散入民間的消費級顯示卡組合起來也能構成非常可觀的算力網路,也就是算力的長尾效應。
這類消費級顯示卡,閒置率其實是非常高的。只要 DePIN 給到的激勵能超過電費,使用者就有動力為網路貢獻算力。同時,所有物理設施被使用者自身所管理,DePIN 網路無需負擔中心化供應商無法避免的營運成本,只需關注協議設計本身。
對於資料而言,DePIN 網路通過邊緣計算等方式,能夠釋放潛在資料的可用性,降低傳輸成本。同時,對於多數分散式儲存網路而言,具備自動去重功能,減少了 AI 訓練資料清洗的工作。
最後,DePIN 所帶來的 Crypto 經濟學增強了系統的容錯空間,有望實現提供者、消費者、平臺三贏的局面。
以防你不相信,UCLA 最新的研究表明相同成本下使用去中心化計算相比傳統 GPU 叢集實現了 2.75 倍的效能,具體來說,快了 1.22 倍且便宜 4.83 倍。
篳路維艱:AIxDePIN 會遇到哪些挑戰?
We choose to go to the moon in this decade and do the other things, not because they are easy, but because they are hard. ——John Fitzgerald Kennedy
運用 DePIN 的分散式儲存與分散式計算無信任地構建人工智慧模型仍然具備許多挑戰。
工作驗證
從本質上,計算深度學習模型與 PoW 挖礦都是通用計算,最底層都是閘電路之間的訊號變化。宏觀而言,PoW 挖礦是 「無用的計算」,通過無數的隨機數生成與 hash 函式計算試圖得出字首有 n 個 0 的 hash 值;而深度學習計算是 「有用的計算」,通過前向推導與反向推導計算出深度學習中每層的引數值,從而構建一個高效的 AI 模型。
事實是,PoW 挖礦這類 「無用的計算」 使用了 hash 函式,由原像計算像很容易,由像計算原像很難,所以任何人都能輕易、快速地驗證計算的有效性;而對於深度學習模型的計算,由於層級化的結構,每層的輸出都作為後一層的輸入,因此驗證計算的有效性需要執行之前的所有工作,無法簡單有效地進行驗證。
工作驗證是非常關鍵的,否則,計算的提供者完全可以不進行計算,而提交一個隨機生成的結果。
有一類想法是讓不同的伺服器執行相同計算任務,通過重複執行並檢驗是否相同來驗證工作的有效性。然而,絕大多數模型計算是非確定性的,即使在完全相同的計算環境下也無法復現相同結果,只能在統計意義上實現相似。另外,重複計算會導致成本的快速上升,這與 DePIN 降本增效的關鍵目標不相符。
另一類想法是 Optimistic 機制,先樂觀地相信結果是經過有效計算的,同時允許任何人對計算結果進行檢驗,如果發現有錯誤,可以提交一個 Fraud Proof,協議對欺詐者進行罰沒,並對舉報者給予獎勵。
並行化
之前提到,DePIN 撬動的主要是長尾的消費級算力市場,也就註定了單個裝置所能提供的算力比較有限。對於大型 AI 模型而言,在單個裝置上進行訓練的時間會非常長,必須通過並行化的手段來縮短訓練所需時間。
深度學習訓練的並行化主要的難點在於前後任務之間的依賴性,這種依賴關係會導致並行化難以實現。
當前,深度學習訓練的並行化主要分為資料並行與模型並行。
資料並行是指將資料分佈在多臺機器上,每臺機器都儲存一個模型的全部引數,使用本地的資料進行訓練,最後對各個機器的引數進行聚合。資料並行在資料量很大時效果好,但需要同步通訊來聚合引數。
模型並行是當模型大小太大無法放入單個機器時,可以將模型分割在多臺機器上,每臺機器儲存模型的一部分引數。前向和反向傳播時需要不同機器之間通訊。模型並行在模型很大時有優勢,但前後向傳播時的通訊開銷大。
對於不同層之間的梯度資訊,又可以分為同步更新與非同步更新。同步更新簡單直接,但是會增加等待時間;非同步更新演算法等待時間短,但是會引入穩定性問題。
隱私
全球正在掀起保護個人隱私的思潮,各國政府都在加強對個人資料隱私安全的保護。儘管 AI 大量使用公開資料集,真正將不同 AI 模型區分開的還是各企業專有的使用者資料。
如何在訓練過程中得到專有資料的好處同時不暴露隱私?如何保證構建的 AI 模型引數不被洩露?
這是隱私的兩個方面,資料隱私與模型隱私。資料隱私保護的是使用者,而模型隱私保護的是構建模型的組織。在當前的情況下,資料隱私比模型隱私重要得多。
多種方案正在嘗試解決隱私的問題。聯邦學習通過在資料的源頭進行訓練,將資料留在本地,而模型引數進行傳輸,來保障資料隱私;而零知識證明可能會成為後起之秀。
案例分析:市場上有哪些優質專案?
Gensyn
Gensyn 是一個分散式計算網路,用於訓練 AI 模型。該網路使用基於 Polkadot 的一層區塊鏈來驗證深度學習任務是否已正確執行,並通過命令觸發支付。成立於 2020 年,2023 年 6 月披露一筆 4,300 萬美元的 A 輪融資,a16z 領投。
Gensyn 使用基於梯度的優化過程的元資料來構建所執行工作的證書,並由多粒度、基於圖形的精確協議和交叉評估器一致執行,以允許重新執行驗證工作並比較一致性,並最終由鏈本身確認,來保證計算的有效性。為了進一步加強工作驗證的可靠性,Gensyn 引入質押來建立激勵。
系統中有四類參與者:提交者、求解者、驗證者和舉報者。
提交者是系統的終端使用者,提供將要計算的任務,並為已完成的工作單元付費。
求解器是系統的主要工作者,執行模型訓練並生成證明以供驗證者檢查。
驗證器是將非確定性訓練過程與確定性線性計算聯絡起來的關鍵,複製部分求解器證明並將距離與預期閾值進行比較。
舉報人是最後一道防線,檢查驗證者的工作並提出挑戰,挑戰通過後獲得獎勵。
求解者需要進行質押,舉報者檢驗求解者的工作,如發現作惡,進行挑戰,挑戰通過後求解者質押的代幣被罰沒,舉報者獲得獎賞。
根據 Gensyn 的預測,該方案有望將訓練成本降至中心化供應商的 1/5。
FedML
FedML 是一個去中心化協作的機器學習平臺,用於在任何地方以任何規模進行去中心化和協作式 AI。更具體地說,FedML 提供了一個 MLOps 生態系統,可以訓練、部署、監控和持續改進機器學習模型,同時以保護隱私的方式在組合資料、模型和計算資源上進行協作。成立於 2022 年,FedML 於 2023 年 3 月披露 600 萬美元的種子輪融資。
FedML 由 FedML-API 和 FedML-core 兩個關鍵元件構成,分別代表高階 API 和底層 API。
FedML-core 包括分散式通訊和模型訓練兩個獨立的模組。通訊模組負責不同工作者 / 客戶端之間的底層通訊,基於 MPI;模型訓練模組基於 PyTorch。
FedML-API 建立在 FedML-core 之上。藉助 FedML-core,可以通過採用面向客戶端的程式設計介面輕鬆實現新的分散式演算法。
FedML 團隊最新的工作中證明,使用 FedML Nexus AI 在消費級 GPU RTX 4090 上進行 AI 模型推理,比 A100 便宜 20 倍,快 1.88 倍。
未來展望:DePIN 帶來 AI 的民主化
有朝一日,AI 進一步發展為 AGI,彼時算力將成為事實上的通用貨幣,DePIN 使得這一過程提前發生。
AI 和 DePIN 的融合開啟了一個嶄新的技術增長點,為人工智慧的發展提供了巨大的機遇。DePIN 為 AI 提供了海量的分散式算力和資料,有助於訓練更大規模的模型,實現更強的智慧。同時,DePIN 也使 AI 向著更加開放、安全、可靠的方向發展,減少對單一中心化基礎設施的依賴。
展望未來,AI 和 DePIN 將不斷協同發展。分散式網路將為訓練超大模型提供強大基礎,這些模型又將在 DePIN 的應用中發揮重要作用。在保護隱私和安全的同時,AI 也將助力 DePIN 網路協議和演算法的優化。我們期待著 AI 和 DePIN 帶來更高效、更公平、更可信的數位世界。