Folding@home 在疫情期間曾透過群眾募資計算推動 COVID 研究,本文探討如何將該模式應用於深度學習,分析去中心化訓練的潛力與面臨的挑戰。本文源自 Jeff Amico 所著文章,由 深潮 TechFlow 整理、編譯。
(前情提要: 最強AI家教來了?OpenAI 傳 9/24 發佈 ChatGPT 高級語音模式)
(背景補充: 貝萊德攜手微軟推「1千億美元」新AI基金,黃仁勳:NVIDIA全力支持)
在
新冠疫情期間,Folding@home 取得了一個重大里程碑。該研究專案獲得了 2.4 exaFLOPS 的計算能力,由全球 200 萬台志願者裝置提供。
這代表了當時世界上最大超級電腦的十五倍處理能力,使科學家能夠大規模模擬 COVID 蛋白質動態。他們的工作推動了我們對病毒及其病理機制的理解,尤其是在疫情初期。
Folding@home 使用者的全球分佈,2021
通過群眾募資計算資源來解決問題
Folding@home 基於志願計算的悠久歷史,專案通過群眾募資計算資源來解決大規模問題。這個想法在 1990 年代的 SETI@home 中得到了廣泛關注,該專案已彙集了超過 500 萬台志願者電腦以尋找外星生命。
此後,這一理念已被應用於多個領域,包括天體物理學、分子生物學、數學、密碼學和遊戲。在每種情況下,集體力量增強了單個專案的能力,遠遠超出了他們單獨能夠實現的範圍。這推動了進步,使研究能夠以更開放和合作的方式進行。
眾籌模式可用於深度學習?
許多人想知道我們是否可以將這一群眾募資模型應用於深度學習。換句話說,我們能否在大眾中訓練一個大型神經網路?前端模型訓練是人類歷史上計算最密集的任務之一。與許多 @home 專案一樣,目前的成本超出了只有最大參與者才能承擔的範圍。
這可能會阻礙未來的進展,因為我們依賴於越來越少的公司來尋找新的突破。這也將我們的 AI 系統的控制權集中在少數人手中。無論你對這項技術的看法如何,這都是一個值得關注的未來。
大多數批評者駁斥了去中心化訓練的想法,認為與當前的訓練技術不相容。然而,這種觀點已經越來越過時。新的技術已經出現,能夠減少節點間的通訊需求,從而允許在網路連線不佳的裝置上高效訓練。
這些技術包括 DiLoCo、SWARM Parallelism、lo-fi 和異構環境中基礎模型的分散訓練等多個技術。其中許多具有容錯性,並支援異構計算。還有一些新架構專為去中心化網路設計,包括 DiPaCo 和去中心化混合專家模型。
我們還看到各種加密原語開始成熟,使得網路能夠在全球範圍內協調資源。這些技術支援數位貨幣、跨境支付和預測市場等應用場景。與早期的志願專案不同,這些網路能夠匯聚驚人的計算能力,通常比目前設想的最大雲訓練叢集大幾個數量級。
這些要素共同構成了新的模型訓練正規化。這種正規化充分利用全球的計算資源,包括如果連線在一起可以使用的大量邊緣裝置。這將通過引入新的競爭機制來降低大多數訓練工作負載的成本。它還可以解鎖新的訓練形式,使得模型開發變得協作和模組化,而不是孤立和單一的方式。
模型可以從大眾中獲取計算和資料,即時學習。個人可以擁有他們所建立模型的一部分。研究人員也可以重新公開分享新穎的研究成果,無需通過貨幣化他們的發現來彌補高昂的計算預算。
本報告考察了大型模型訓練的現狀及相關成本。它回顧了以往的分散式計算努力 —— 從 SETI 到 Folding 再到 BOINC—— 以此為靈感探索替代路徑。報告討論了去中心化訓練的歷史挑戰,並轉向可能有助於克服這些挑戰的最新突破。最後,它總結了未來的機遇與挑戰。
前端模型訓練的現狀
前端模型訓練的成本對非大型參與者而言已經不可承受。這個趨勢並不新鮮,但根據實際情況,情況正在變得更加嚴重,因為前端實驗室不斷挑戰擴展套件假設。
據報導,OpenAI 今年在訓練方面花費超過 30 億美元。Anthropic 預測到 2025 年,我們將開始進行 100 億美元的訓練,而 1000 億美元的模型也不會太遠。
這一趨勢導致行業的集中化,因為只有少數幾家公司能夠承擔參與的費用。這引發了未來的核心政策問題 —— 我們是否能接受所有領先的 AI 系統由一兩家公司控制的局面?這也限制了進展速度,這一點在研究社群中顯而易見,因為較小的實驗室無法承擔擴展套件實驗所需的計算資源。
行業領導者們也多次提到這一點:
Meta 的 Joe Spisak:
要真正理解 [模型] 架構的能力,你必須在規模上進行探索,我認為這正是當前生態系統中所缺失的。如果你看看學術界 —— 學術界有很多傑出的人才,但他們缺乏計算資源的訪問,這就成了一個問題,因為他們有這些偉大的想法,卻沒有真正以所需水平實現這些想法的途徑。
Together 的 Max Ryabinin:
對昂貴硬體的需求給研究社群帶來了很大壓力。大多數研究人員無法參與大型神經網路開發,因為進行必要的實驗對他們而言成本過高。如果我們繼續通過擴大模型規模來增加其大小,最終能夠進行開發。
Google 的 Francois Chollet:
我們知道大語言模型 ( LLMs ) 尚未實現通用人工智慧 ( AGI )。與此同時,朝 AGI 發展的進展已經停滯。我們在大語言模型上所面臨的侷限性與五年前面臨的侷限性完全相同。我們需要新的想法和突破。
我認為下一個突破很可能來自外部團隊,而所有大型實驗室則忙於訓練更大的大語言模型。 一些人對這些擔憂持懷疑態度,認為硬體改進和雲端計算資本支出將解決這個問題。
但這似乎不太現實。一方面,到本十年末,新一代 Nvidia 晶片的 FLOP 數量將大幅增加,可能達到今天 H100 的 10 倍。這將使每 FLOP 的價格下降 80-90%。
同樣,預計到未來十年後,總 FLOP 供應將增加約 20 倍,同時改善網路和相關基礎設施。所有這些都將提高每美元的訓練效率。
來源:SemiAnalysis AI Cloud TCO 模型
與此同時,總 FLOP 需求也將大幅上升,因為實驗室希望進一步擴大規模。如果持續十年的訓練計算趨勢保持不變,到 2030 年前端訓練的 FLOPs 預計將達到約 2e29。進行這種規模的訓練大約需要 2000 萬個 H100 等效 GPU,依據當前的訓練執行時間和利用率。
假設這一領域仍有多個前端實驗室,總所需的 FLOPS 數量將會是這個數位的幾倍,因為整體供應將在它們之間分配。EpochAI 預測到那時我們需要大約 1 億個 H100 等效 GPU,約為 2024 年出貨量的 50 倍。SemiAnalysis 也做出了類似的預測,認為前端訓練需求和 GPU 供應在此期間大致同步增長。
產能狀況可能會因多種原因變得更加緊張。例如,如果製造瓶頸延遲了預計的出貨週期,這種情況是常有的事。或者如果我們未能生產足夠的能源來為資料中心供電。
又或者如果我們在將這些能源來源連線到電網方面遇到困難。或者如果對資本支出的日益審查最終導致行業縮減規模,等等因素。在最好的情況下,我們當前的方法只能讓少數公司繼續推動研究的進展,而這可能還不夠。
顯然,我們需要一種新的方法。這種方法不需要不斷擴展套件資料中心、資本支出和能源消耗來尋找下一個突破,而是高效利用我們現有的基礎設施,能夠隨著需求的波動靈活擴展套件。這將讓研究中有更多實驗的可能,因為訓練執行不再需要確保億萬美元計算預算的投資回報。
一旦擺脫這一限制,我們可以超越當前的大語言模型 (LLM) 模式,正如許多人所認為的,實現通用人工智慧 (AGI) 是必要的。為了理解這種替代方案可能呈現的樣子,我們可以從過去的分散式計算實踐中汲取靈感。
群體計算:簡史
SETI@home 在 1999 年普及了這一概念,允許數百萬參與者分析無線電訊號,尋找外星智慧。SETI 從 Arecibo 望遠鏡收集電磁資料,將其分成若干批次,並通過網際網路傳送給使用者。使用者在日常活動中分析資料,並將結果傳送回。
使用者之間無需溝通,批次可以獨立稽核,從而實現高度的並行處理。在其巔峰時刻,SETI@home 擁有超過 500 萬名參與者,處理能力超過當時最大的超級電腦。它最終於 2020 年 3 月關閉,但它的成功激勵了隨後的志願計算運動。
Folding@home 在 2000 年延續了這一理念,利用邊緣計算模擬阿茲海默症、癌症和帕金森症等疾病中的蛋白質摺疊。志願者在個人電腦的空閒時間進行蛋白質模擬,幫助研究人員研究蛋白質如何錯誤摺疊並導致疾病。在其歷史的不同時間段,其計算能力超過了當時最大的超級電腦,包括在 2000 年代後期和 COVID 期間,當時它成為第一個超過一 exaFLOPS 的分散式計算專案。自成立以來,Folding 的研究人員已發表超過 200 篇同行評審論文,每一篇都依賴於志願者的計算能力。
伯克利開放網路計算基礎設施 ( BOINC ) 在 2002 年普及了這一理念,提供了一個群眾募資計算平臺,用於各種研究專案。它支援 SETI@home 和 Folding@home 等多個專案,以及在天體物理學、分子生物學、數學和密碼學等領域的新專案。到 2024 年,BOINC 列出了 30 個正在進行的專案,以及近 1,000 篇發表的科學論文,均利用其計算網路產生。
在科研領域之外,志願計算被用於訓練圍棋(LeelaZero、KataGo)和國際象棋(Stockfish、LeelaChessZero)等遊戲引擎。LeelaZero 通過志願計算從 2017 年到 2021 年進行訓練,使其能夠與自己下棋超過一千萬局,創造了今天最強的圍棋引擎之一。類似地,Stockfish 自 2013 年以來一直在志願網路上持續訓練,使其成為最受歡迎和最強大的國際象棋引擎之一。
關於深度學習的挑戰
但是我們能否將這一模型應用於深度學習?我們是否可以將世界各地的邊緣裝置聯網,建立一個低成本的公共訓練叢集?消費者硬體 —— 從蘋果筆記本到 Nvidia 遊戲顯示卡 —— 在深度學習方面的效能越來越出色。在許多情況下,這些裝置的效能甚至超過了資料中心顯示卡的每美元效能。
然而,要有效利用這些資源在分散式環境中,我們需要克服各種挑戰。
首先,當前的分散式訓練技術假設節點之間存在頻繁的通訊。
當前最先進的模型已經變得如此龐大,以至於訓練必須被拆分到數千個 GPU 之間。這是通過多種並行化技術來實現的,通常是在可用的 GPU 之間拆分模型、資料集或同時拆分兩者。這通常需要高頻寬和低延遲的網路,否則節點將閒置,等待資料到來。
例如,分散式資料並行技術 (DDP) 將資料集分配到各個 GPU 上,每個 GPU 在其特定的資料片段上訓練完整的模型,然後共享其梯度更新,以生成各個步驟的新模型權重。這需要相對有限的通訊開銷,因為節點僅在每次反向傳播後共享梯度更新,並且集體通訊操作可以部分與計算重疊。
然而,這種方法僅適用於較小的模型,因為它要求每個 GPU 在記憶體中儲存整個模型的權重、啟用值和優化器狀態。例如,GPT-4 在訓練時需要超過 10TB 的記憶體,而單個 H100 僅有 80GB。
為了解決這一問題,我們還使用各種技術對模型進行拆分,以便在 GPU 之間進行分配。例如,張量並行技術 (tensor parallelism) 在單個層內拆分各個權重,使得每個 GPU 執行必要的操作並將輸出傳遞給其他的 GPU。這降低了每個 GPU 的記憶體需求,但需要它們之間進行持續的通訊往來,因此需要高頻寬、低延遲的連線以提高效率。
流水線並行技術 (pipeline parallelism) 將模型的層分配到各個 GPU 上,每個 GPU 執行其工作並與流水線中的下一個 GPU 共享更新。儘管這所需的通訊量比張量並行更少,但可能會出現「氣泡」(例如,空閒時間),在這種情況下,位於流水線後面的 GPU 會等待來自前面 GPU 的資訊,以便開始其工作。
為了解決這些挑戰,發展出各種技術。例如,ZeRO(零冗餘優化器)是一種記憶體優化技術,它通過增加通訊開銷來減少記憶體使用,從而使更大的模型能夠在特定裝置上進行訓練。ZeRO 通過在 GPU 之間分割模型引數、梯度和優化器狀態來降低記憶體需求,但依賴於大量的通訊,以便裝置能夠獲取分割的資料。它是流行技術如完全分片資料並行 (FSDP) 和 DeepSpeed 的基礎方法。
這些技術通常在大模型訓練中結合使用,以最大化資源的利用效率,這被稱為 3D 並行。在這種配置中,張量並行技術 ( tensor parallelism ) 通常用於在單個伺服器內將權重分配到各個 GPU 上,因為在每個被分割的層之間需要大量通訊。
然後,流水線並行技術 (pipeline parallelism) 被用來在不同伺服器之間(但在資料中心的同一島嶼內)分配層,因為它所需的通訊量較少。接著,資料並行技術 ( data parallelism ) 或完全分片資料並行技術 ( FSDP ) 被用來在不同伺服器島嶼之間拆分資料集,因為它可以通過非同步共享更新和 / 或壓縮梯度來適應更長的網路延遲。Meta 使用這種組合方法來訓練 Llama 3.1,如下面的圖示所示。
這些方法給去中心化訓練網路帶來了核心挑戰,這些網路依賴於通過(速度更慢且波動更大的)消費級網際網路連線的裝置。在這種環境中,通訊成本很快就會超過邊緣計算帶來的收益,因為裝置通常是空閒的,等待資料到達。
以一個簡單的例子說明,分散式資料並行訓練一個具有 10 億引數的半精度模型,每個 GPU 在每個優化步驟中需要共享 2GB 的資料。以典型的網際網路頻寬(例如 1 千兆位每秒)為例,假設計算與通訊不重疊,傳輸梯度更新至少需要 16 秒,導致顯著的空閒。像張量並行技術 ( tensor parallelism ) 這樣的技術(需要更多的通訊)當然會表現得更糟。
其次,當前的訓練技術缺乏容錯能力。像任何分散式系統一樣,隨著規模的增加,訓練叢集變得更容易發生故障。然而,這一問題在訓練中更加嚴重,因為我們目前的技術主要是同步的,這意味著 GPU 必須協同工作以完成模型訓練。
成千上萬的 GPU 中單個 GPU 的故障會導致整個訓練過程停止,迫使其他 GPU 從頭開始訓練。在某些情況下,GPU 並不會完全故障,而是由於各種原因變得遲緩,進而減慢叢集中成千上萬其他 GPU 的速度。考慮到當今叢集的規模,這可能意味著數千萬到數億美元的額外成本。
Meta 在他們的 Llama 訓練過程中詳細闡述了這些問題,他們經歷了超過 400 次意外中斷,平均每天約 8 次中斷。這些中斷主要歸因於硬體問題,例如 GPU 或主機硬體故障。這導致他們的 GPU 利用率僅為 38-43%。OpenAI 在 GPT-4 的訓練過程中表現更差,僅為 32-36%,這也是由於訓練過程中故障頻繁。
換句話說,前端實驗室們在完全優化的環境中(包括同質的、最先進的硬體、網路、電源和冷卻系統)進行訓練時,仍然難以達到 40% 的利用率。這主要歸因於硬體故障和網路問題,而在邊緣訓練環境中,這些問題會更加嚴重,因為裝置在處理能力、頻寬、延遲和可靠性方面存在不均衡。更不用說,去中心化網路易受惡意行為者的侵害,他們可能出於各種原因試圖破壞整體專案或在特定工作負載上作弊。即使是純志願者網路 SETI@home,也曾出現過不同參與者的作弊現象。
第三,前端模型訓練需要大規模的計算能力。雖然像 SETI 和 Folding 這樣的專案達到了令人印象深刻的規模,但與當今前端訓練所需的計算能力相比,它們相形見絀。GPT-4 在一個由 20,000 個 A100 組成的叢集上訓練,其峰值吞吐量為半精度的 6.28 ExaFLOPS。這比 Folding@home 在其峰值時的計算能力多出三倍。
Llama 405b 使用 16,000 個 H100 進行訓練,峰值吞吐量為 15.8 ExaFLOPS,是 Folding 峰值的 7 倍。隨著多個實驗室計劃構建超過 100,000 個 H100 的叢集,這一差距只會進一步擴大,每個叢集的計算能力高達驚人的 99 ExaFLOPS。
這很有道理,因為 @home 專案是志願者驅動的。貢獻者捐贈了他們的記憶體和處理器週期,並承擔了相關成本。這自然限制了它們相對於商業專案的規模。
最近的進展
雖然這些問題在歷史上一直困擾著去中心化訓練工作,但它們似乎不再不可逾越。新的訓練技術已經出現,能夠減少節點間的通訊需求,從而在網際網路連線的裝置上進行高效訓練。
這些技術很多源自大型實驗室,它們希望為模型訓練增加更大的規模,因此需要跨資料中心的高效通訊技術。我們還看到了容錯訓練方法和加密激勵系統的進展,這些方法可以支援更大規模的訓練在邊緣環境中進行。
高效通訊技術
DiLoCo 是 Google 近期的研究,它通過在裝置間傳遞更新的模型狀態之前進行本地優化,從而減少了通訊開銷。他們的方法(基於早期的聯邦學習研究)顯示出與傳統同步訓練相當的效果,同時節點之間的通訊量降低了 500 倍。
此後,該方法已被其他研究者複製,並擴展套件至訓練更大模型(超過 10 億個引數)。它還擴展套件到非同步訓練,這意味著節點可以在不同時間共享梯度更新,而不是一次性共享所有更新。這更好地適應了處理能力和網路速度各異的邊緣硬體。
其他資料並行方法,如 lo-fi 和 DisTrO,旨在進一步減少通訊成本。Lo-fi 提出了完全本地微調的方法,這意味著節點獨立訓練,只在最後傳遞權重。這種方法在微調超過 10 億引數的語言模型時,效能與基準相當,同時完全消除了通訊開銷。
在一份初步報告中,DisTrO 聲稱採用了一種新型的分散式優化器,他們認為可以將通訊需求降低四到五個數量級,儘管該方法尚待確認。
新的模型並行方法也已經出現,這使得實現更大的規模成為可能。DiPaCo(同樣來自Google)將模型劃分為多個模組,每個模組包含不同的專家模組,以便於特定任務的訓練。然後,訓練資料通過「路徑」進行分片,這些路徑是每個資料樣本對應的專家序列。
給定一個分片,每個工作者幾乎可以獨立訓練特定的路徑,除了共享模組所需的通訊,這部分由 DiLoCo 處理。這種架構將十億引數模型的訓練時間減少了超過一半。
SWARM 並行性和異構環境中基礎模型的去中心化訓練 ( DTFMHE ) 也提出了模型並行的方法,以在異構環境中實現大模型訓練。SWARM 發現,隨著模型規模的增加,管道並行性通訊約束減小,這使得在較低的網路頻寬和更高的延遲下有效訓練更大模型成為可能。
為了在異構環境中應用這一理念,他們在節點之間使用臨時「管道連線」,這些管道可以在每次迭代中即時更新。這允許節點將其輸出傳送到任何下一個管道階段的對等節點。
這意味著,如果某個對等節點比其他節點更快,或者任何參與者斷開連線,輸出可以動態重新路由,以保證訓練的持續進行,只要每個階段至少有一個活躍參與者。他們使用這種方法在低成本的異構 GPU 上訓練一個超過 10 億引數的模型,並且互連速度較慢(如下圖所示)。
DTFMHE 同樣提出了一種新穎的排程演算法,以及管道並行和資料並行,以在 3 個大洲的裝置上訓練大型模型。儘管他們的網路速度比標準 Deepspeed 慢 100 倍,但他們的方法速度僅比在資料中心使用標準 Deepspeed 慢 1.7-3.5 倍。與 SWARM 類似,DTFMHE 顯示出隨著模型規模增大,通訊成本可以有效隱藏,即使在地理分佈的網路中也同樣適用。這使得我們能夠通過各種技術克服節點之間較弱的連線,包括增加隱藏層的大小和每個管道階段增加更多層。
故障容錯
上述許多資料並行方法預設具有容錯能力,因為每個節點都在記憶體中儲存整個模型。這種冗餘通常意味著,即使其他節點出現故障,節點仍然可以獨立工作。這對於去中心化訓練非常重要,因為節點通常是不可靠的、異構的,甚至可能存在惡意行為。然而,如前所述,純資料並行方法僅適用於較小的模型,因此模型大小受到網路中最小節點記憶體容量的制約。
為了解決上述問題,一些人提出了適用於模型並行(或混合並行)訓練的容錯技術。SWARM 通過優先選擇延遲較低的穩定對等節點來應對對等節點故障,並在發生故障時重新路由管道階段的任務。其他方法,如 Oobleck,採用類似的方法,通過建立多個「管道模板」來提供冗餘,以應對部分節點故障。儘管在資料中心進行了測試,Oobleck 的方法提供了強大的可靠性保證,這些保證同樣適用於去中心化環境。
我們還看到了一些新的模型架構(如去中心化混合專家模型 ( Decentralized Mixture of Experts, DMoE )),用於支援去中心化環境中的容錯訓練。與傳統的專家混合模型類似,DMoE 由多個獨立的「專家」網路組成,這些網路分佈在一組工作者節點上。
DMoE 使用分散式hash表以去中心化方式追蹤和整合非同步更新。該機制(在 SWARM 中也使用)對節點故障具有良好的抵抗力,因為如果某些節點失敗或未能及時響應,它可以將某些專家排除在平均計算之外。
規模化
最後,像比特幣和以太坊所採用的加密激勵系統可以幫助實現所需的規模。這兩個網路通過向貢獻者支付一種可以隨著採用增長而增值的本地資產來群眾募資計算。這個設計通過給予早期貢獻者豐厚獎勵來激勵他們,當網路達到最小可行規模後,這些獎勵可以逐步減少。
確實,這種機制存在各種陷阱,需要避免。其中最主要的陷阱是,過度激勵供給而未能帶來相應的需求。此外,如果基礎網路不夠去中心化,這可能引發監管問題。然而,當設計得當時,去中心化激勵系統可以在較長時間內實現可觀的規模。
例如,比特幣年電力消耗約為 150 太瓦時 ( TWh ),這比目前構思中的最大 AI 訓練叢集的電力消耗高出兩個數量級之多(100,000 個 H100 全負荷執行一年)。
作為參考,OpenAI 的 GPT-4 在 20,000 個 A100 上進行了訓練,Meta 的旗艦 Llama 405B 模型在 16,000 個 H100 上進行了訓練。同樣,在其高峰期,以太坊的電力消耗大約為 70 TWh,分散在數百萬個 GPU 之間。即使考慮到未來幾年 AI 資料中心的快速增長,像這些激勵計算網路仍將多次超越其規模。
當然,並非所有計算都是可替換的,訓練相對於挖礦有獨特的需求,需要考慮。儘管如此,這些網路展示了通過這些機制可以實現的規模。
未來的道路
將這些部分聯絡在一起,我們可以看到前進的新道路的開端。
很快,新的訓練技術將使我們能夠超出資料中心的限制,因為裝置不再需要共同放置才能發揮作用。這將需要時間,因為我們當前的去中心化訓練方法仍處於較小規模,主要在 10 億到 20 億個引數的範圍內,比像 GPT-4 這樣的模型小得多。
我們需要進一步的突破,以在不犧牲關鍵屬性(如通訊效率和容錯能力)的情況下提升這些方法的規模。或者,我們需要新的模型架構,這些架構與今天的大型單體模型有所不同 —— 可能更小、更模組化,在邊緣裝置上執行,而非在雲端
無論如何,可以合理地預期在這個方向上會有進一步的進展。我們當前方法的成本是不可持續的,這為創新提供了強烈的市場動力。我們已經看到這一趨勢,像 Apple 這樣的製造商正在構建更強大的邊緣裝置,以便在本地執行更多的工作負載,而不是依賴雲端。
我們還看到對開源解決方案的支援不斷增加 —— 甚至在像 Meta 這樣的公司內部,以促進更去中心化的研究與開發。這些趨勢隨著時間的推移只會加速。
與此同時,我們還需要新的網路基礎設施來連線邊緣裝置,以便能夠這樣使用它們。這些裝置包括膝上型電腦、遊戲桌上型電腦,最終甚至可能是擁有高效能顯示卡和大記憶體的手機。
這將使我們能夠構建一個「全球叢集」,低成本、始終線上的計算能力,可以並行處理訓練任務。這也是一個具有挑戰性的問題,需要在多個領域取得進展。
我們需要更好的排程技術來在異構環境中進行訓練。目前沒有任何方法可以自動並行化模型以達到優化,特別是在裝置可以隨時斷開或連線的情況下。這是優化訓練的關鍵下一步,同時保留基於邊緣網路的規模優勢。
我們還必須應對去中心化網路的一般複雜性。為了最大化規模,網路應該構建為開放協議 —— 一套標準和指令,規定參與者之間的互動,就像 TCP/IP 而是用於機器學習計算。這將使任何遵循特定規範的裝置能夠連線到網路,無論擁有者和位置。它還確保網路保持中立,允許使用者訓練他們喜歡的模型。
雖然這實現了規模最大化,但它也需要一個機制來驗證所有訓練任務的正確性,而不依賴於單一實體。這一點至關重要,因為存在固有的作弊誘因 —— 例如,聲稱自己完成了某個訓練任務以獲得報酬,但實際上並沒有做到。考慮到不同裝置通常以不同方式執行機器學習操作,這使得使用標準複製技術變得難以驗證正確性,因此這尤其具有挑戰性。正確解決這個問題需要在密碼學和其他學科上進行深入研究。
幸運的是,我們在所有這些方面都繼續看到進展。與過去幾年相比,這些挑戰似乎不再不可逾越。與機會相比,它們也顯得相當微小。Google 在他們的 DiPaCo 論文中對此進行了最佳總結,指出去中心化訓練有潛力打破的負回饋機制:
分散式訓練機器學習模型的進展可能促進基礎設施的簡化建設,最終導致計算資源的更廣泛可用。目前,基礎設施是圍繞訓練大型單體模型的標準方法而設計的,同時機器學習模型的架構也旨在利用當前的基礎設施和訓練方法。這種回饋迴圈可能使社群陷入一個誤導性的區域性最小值,即計算資源的限制超過了實際需要。
也許最令人興奮的是,研究界對解決這些問題的熱情日益高漲。我們在 Gensyn 的團隊正在構建上述網路基礎設施。像 Hivemind 和 BigScience 這樣的團隊在實踐中應用了許多這些技術。
像 Petals、sahajBERT 和 Bloom 這樣的專案展示了這些技術的能力,以及對基於社群的機器學習日益增長的興趣。還有許多其他人也在推動研究進展,目標是建立一個更開放、更協作的模型訓練生態系統。如果您對這項工作感興趣,請與我們聯絡以參與其中。
📍相關報導📍
Google AI筆記NotebookLM新增「Audio Overview」,兩步驟將文字轉成Podcast