成功的去中心化 AI marketplace 結合了 AI 和 Web3 的優勢,以降低 AI 應用門檻、保護隱私、激勵模型提供者、積累資源、解決資料隱私挑戰,同時平衡各方利益,並通過網路效應為使用者帶來超越市場之外價值的平台。
(前情提要:付費內容看光光!OpenAI 緊急暫停 Browse with Bing 翻牆功能)
(背景補充:全網路最實用的 Web3 AI 的十個外掛)
TL;DR
一個成功的去中心化 AI marketplace 需要將 AI 和 Web3 的優勢緊密結合,利用分散式、資產確權、收益分配和去中心化算力的附加值,降低 AI 應用的門檻,鼓勵開發者上傳和分享模型,同時保護使用者的資料私有權,構建一個開發者友好,且滿足使用者需求的 AI 資源交易、共享平臺。
基於資料的 AI marketplace 有更大的潛力。死磕模型的 marketplace 需要大量高質量模型的支撐,但早期平臺缺乏使用者基數和優質資源,使得優秀模型提供者的激勵不足,難以吸引優質模型;而基於資料的 marketplace 通過去中心化,分散式地採集、激勵層設計和資料所有權的保證,可以積累大量有價值的資料和資源,尤其是私域資料。然而,資料市場也需要解決資料隱私保護的挑戰,解決方案包括設計更靈活的策略,允許使用者自定義隱私級別的設定。
去中心化 AI marketplace 的成功依賴於使用者資源的累積和強大的網路效應,使用者和開發者可以從市場中獲得的價值超過他們在市場之外能夠得到的價值。在市場的早期,重點在於積累優質模型以吸引並保留使用者,然後在建立起優質模型庫和資料壁壘後,轉向吸引和留住更多的終端使用者。並且,優秀的 AI marketplace 需要找到各方利益的平衡點,並妥善處理資料所有權、模型質量、使用者隱私、算力、激勵演算法等因素。
一、Web3 的 AI Marketplace
1.1 web3 領域的 AI 賽道回顧
首先回顧一下之前我提到的 AI 和 crypto 結合的兩種大方向,ZKML 和去中心化算力網路👇
ZKML
ZKML 讓 AI 模型 transparent + verifiable, 也就是說保證模型架構、模型引數和權重、模型輸入這三個因素在全網可以被驗證。ZKML 的意義在於不犧牲去中心化和 trustless 的基礎上,為 web3 世界創造下一階段的價值,提供承接更廣泛應用和創造更大可能性的能力。
Foresight Ventures: AI + Web3 = ?
算力網路
算力資源會是下一個十年的大戰場,未來對於高效能運算基礎設施的投資將會指數級上升。去中心化算力的應用場景分為模型推理和模型訓練兩個方向,在 AI 大模型訓練上的需求是最大的,但是也面臨最大的挑戰和技術瓶頸。包括需要複雜的資料同步和網路優化問題等。在模型推理上更有機會落地,可以預測未來的增量空間也足夠大。
1.2 什麼是 AI Marketplace?
AI marketplace 並不是一個很新的概念,Hugging Face 可以說是最成功的 AI marketplace(除了沒有交易和定價機制)。在 NLP 領域,Hugging Face 提供了一個極為重要且活躍的社群平臺,開發者和使用者可以共享和使用各種預訓練模型。
a. 模型資源
Hugging Face 提供了大量的預訓練模型,這些模型涵蓋了各種 NLP 任務。這種資源豐富性吸引了大量的使用者,因此,這是形成一個活躍的社群、積累使用者的基礎。
b. 開源精神 + 傳播分享
Hugging Face 鼓勵開發者上傳並分享自己的模型。這種開放分享的精神增強了社群的活力,並使得最新的研究成果能夠快速地被廣大使用者所利用。這就是在積累優秀開發者和模型的基礎上,加快了研究成果被驗證並推廣的效率。
c. 開發者友好 + 易用
Hugging Face 提供易用的 API 和文件,使得開發者可以快速地理解和使用其提供的模型。這降低了使用門檻,提升使用者體驗,吸引了更多開發者。
雖然 Hugging Face 並沒有交易機制,但它仍然為 AI 模型的分享和使用提供了一個重要的平臺。因此也可以看出,AI marketplace 有機會成為整個行業的寶貴資源。
去中心化的 AI marketplace in short:
基於以上要素,去中心化的 AI marketplace 基於區塊鏈技術的基礎,讓使用者對自己的資料、模型資產擁有所有權。Web3 所帶來的價值也體現在激勵和交易機制,使用者可以自由地挑選或者通過系統 match 到合適的模型,同時也可以上架自己訓練的模型獲取收益。
使用者對自己的 AI 資產擁有所有權,並且 AI marketplace 本身並沒有對資料和模型的掌控權。相反,市場的發展是依賴於使用者基數以及隨之而來的模型和資料的積累。這種積累是一個長期的過程,但是也是逐漸建立產品壁壘的過程,支撐市場發展的是使用者數以及使用者上傳的模型和資料的數量 / 質量。
1.3 為什麼關注 Web3 的 AI Marketplace?
1.3.1 和算力應用的大方向契合
由於通訊壓力等原因,去中心化算力在訓練 base 模型上落地可能比較困難,但是在 finetune 上的壓力會小很多,因此有機會成為中心化算力網路落地的最佳場景之一。
一點背景知識:為什麼微調階段更容易落地
Foresight Ventures: 理性看待去中心化算力網路
AI 模型的訓練分為 pretraining 和 fine-tuning。預訓練涉及大量的資料和大量的計算,具體可以參考我上面一篇文章的分析。微調基於 base 模型,使用特定任務的資料,來調整模型引數,使模型對特定任務有更好的效能,模型微調階段需要的計算資源比預訓練階段小很多,主要有以下兩個原因:
- 資料量:在預訓練階段,模型需要在大規模的資料集上進行訓練以學習通用的語言表示。例如,BERT 模型的預訓練就是在包含數十億個詞彙的 Wikipedia 和 BookCorpus 上進行的。而在微調階段,模型通常隻需要在特定任務的小規模資料集上進行訓練。例如,用於情感分析任務的微調資料集可能只有幾千到幾萬條評論。
- 訓練步數:預訓練階段通常需要數百萬甚至數十億的訓練步驟,而微調階段通常隻需要幾千到幾萬步。這是因為預訓練階段需要學習語言的基本結構和語義,而微調階段僅需要調整模型的一部分引數來適應特定任務。
舉個例子,以 GPT3 為例,預訓練階段使用了 45TB 的文字資料進行訓練,而微調階段則隻需要~5GB 的資料。預訓練階段的訓練時間需要幾周到幾個月,而微調階段則隻需要幾個小時到幾天。
1.3.2 AI 和 crypto 交叉的起點
判斷一個 web3 專案是否合理,其中很重要的一點是,是不是為了 crypto 而 crypto,專案是否最大化利用了 web3 的帶來的價值,web3 的加成是不是帶來了差異化。很顯然,web3 為這種 AI marketplace 帶來的無法替代確權、收益分配和算力的附加值
我認為一個優秀的 Web3 AI marketplace 可以把 AI 和 crypto 緊密結合。最完美的結合不是 AI 市場能給 web3 帶去什麼應用或是 infra,而是 web3 能為 AI 市場提供什麼。那麼很顯然,例如每個使用者都可以擁有自己的 AI 模型和資料的所有權(比如把 AI 模型和資料都封裝為 NFT),也可以把它們當作商品進行交易,這很好地利用了 web3 可以發揮的價值。不僅激勵了 AI 開發者和資料提供者,也使得 AI 的應用變得更加廣泛。如果一個模型足夠好用,所有者有更強的動力上傳給別人分享。
同時,去中心化 AI marketplace 可能引入一些全新的商業模式,比如模型、資料的售賣和租賃,任務眾包等。
1.3.3 降低 AI 應用門檻
每個人應該並且會有能力訓練自己的人工智慧模型,這就需要一個門檻足夠低的平臺提供資源的支援,包括 base 模型、工具、資料、算力等。
1.3.4 需求和供給
大模型雖然推理能力強大,但並非萬能的。往往針對特定任務和場景進行微調會達到更好的效果,並且具備更強的實用性。因此,從需求端看,使用者需要有一個 AI 模型市場來獲取不同場景下好用的模型;對於開發者,需要一個能提供極大資源便利的平臺來開發模型,並且通過自己的專業知識獲得收益。
二、基於模型 v.s. 基於資料
2.1 模型市場
模式
以 tooling 為賣點,作為鏈路的第一環,專案需要在早期吸引足夠多的模型開發者來部署優質的模型,從而為市場建立供給。
這種模式下,吸引開發者的點主要是方便好用的 infra 和 tooling,資料是看開發者自己的能力也是為什麼有些在某個領域有經驗的人可以創造價值的點,這個領域的資料需要開發者自己收集並且微調出 performance 更好的模型。
思考
最近看到很多關於 AI marketplace 和 web3 的結合的專案,但我想的是:創造一個去中心化 AI 模型市場是不是一個偽命題?
首先我們需要思考一個問題,web3 能提供的價值是什麼?
如果僅僅是 token 的激勵,或者是模型的歸屬權敘事,那是遠遠不夠的。實際一點看,平臺上高質量的模型是整個產品的核心,而優秀的模型通常意味著極高的經濟價值。從模型提供者的角度看,他們需要足夠的動力來將自己優質的模型部署到 AI marketplace,但 token 和歸屬權帶來的激勵是否能達到他們對模型價值的預期?對於一個早期缺乏使用者基數的平臺來說,顯然是遠遠達不到的。沒有極其優秀的模型,整個商業模式就不會成立。所以問題就變成了如何在早期缺乏終端使用者的情況下,讓模型提供者獲得足夠的收益。
2.2 資料市場
以去中心化的資料採集為基礎,通過激勵層的設計和資料所有權的敘事 onboard 更多資料提供者,以及為資料打標籤的使用者。在 crypto 的加持下,平臺是有機會在一定時間內積累大量有價值的資料的,特別是目前缺少的私域資料。
讓我最興奮的一點是,這種自下而上的發展模式更像是一種眾籌的玩法。再有經驗的人也不可能擁有一個領域完備的資料,而 web3 能提供的價值之一就是無許可和去中心化地資料採集。這個模式不僅能夠集中各個領域的專業知識和資料,而且還能夠為更大的使用者群體提供 AI 服務。相比單一使用者自己的資料,這些眾籌的資料是從大量真實使用者的實際場景中採集的,因此會比單一來源收集的資料更能反應現實世界的複雜性和多樣性,這可以極大地增強模型的泛化能力和魯棒性,使 AI 模型能在多種不同的環境中發揮高效能。
舉個例子,可能一個人在營養學上有很豐富的經驗,也積累了很多資料,但光靠個人的資料是遠遠不夠訓練出一個優秀的模型的。在使用者分享資料的同時,也可以很好地觸達並利用平臺上相同領域全網其他使用者貢獻的有價值的資料,以此達到更好的微調效果。
思考
從這個角度看,做一個去中心化的資料市場也可能是一個不錯的嘗試。資料作為一個門檻更低、生產鏈路更短,provider 密度更廣的 「商品」,能更好地利用 web3 所能提供的價值。激勵演算法和資料確權的機制能為使用者上傳資料提供動力。在目前的模式下,資料更像是一次性的商品,即使用一次後就幾乎沒有價值。在去中心化的 AI 模型市場中,使用者的資料可以被反複使用並獲取利益,資料的價值會得到更長期的實現。
以資料為切入點去積累使用者似乎是一個不錯的選擇,大模型的核心和壁壘之一就是優質和多維度的資料,在 onboard 了大量資料提供者之後,這些人有機會進一步轉化成終端使用者或者模型提供者。以此為基礎的 AI marketplace 確實能為優秀的模型提供底層價值,從訓練模型的角度給演算法工程師在平臺上貢獻模型的動力。
這種動力是從 0 到 1 的改變, 現在大公司由於擁有海量資料,他們可以訓練出更精確的模型,這使得小型公司和個人開發者難以與之競爭。縱使使用者擁有某個領域非常有價值的資料,這一小部分資料沒有更大集合上的資料的配合也是很難發揮價值的。然而在去中心化的市場中,所有人都有機會獲取並使用資料,而這些專家是帶著有價值的增量資料加入平臺的,因此,平臺的資料質量和數量也進一步得到了提升,這使得所有人都有可能訓練出優秀的模型,甚至推動 AI 的創新。
資料本身確實也很適合成為這種 AI marketplace 的競爭壁壘。首先,優秀的激勵層和安全的隱私保障可以讓更多散戶參與到整個 protocol 當中貢獻資料。並且,隨著使用者數量的增加,資料的質量和數量也會不斷提高。這會產生社群和網路效應,使得市場能提供的價值更大,維度更廣,那麼對新增使用者的吸引力也會更大,這就是為市場建立壁壘的過程。
所以根本上,要做好一個資料驅動的 AI marketplace,最重要的是以下 4 點:
- 激勵層:設計能夠有效激勵使用者提供高質量資料的演算法,並且需要平衡激勵的強度和市場的可持續性。
- 隱私:保護資料隱私並確保資料的使用效率。
- 使用者:在早期將使用者快速積累並收集更多有價值的資料。
- 資料質量:資料來自各種不同的來源,需要設計有效的質量控製機制。
為什麼模型的 provider 在這個場景下沒有被我列為關鍵因素?
主要原因還是基於以上四點,有優秀的 model provider 加入是順理成章的。
2.3 資料市場的價值和挑戰
私域資料
私域資料的價值在於它有特定領域內獨特且難以獲得的資訊,這種資訊對於 AI 模型的微調尤其重要。使用私域資料可以創建出更為精準和個性化的模型,這種模型在特定場景的表現會超過使用公共資料集訓練的模型。
現在基礎模型的構建過程可以獲取到大量公共資料,因此,web3 資料市場的發力點不在這些資料上。訓練中如何獲取並加入私域資料是目前的一個瓶頸,通過將私域資料與公共資料集相結合,可以增加模型對多樣化問題和使用者需求的適應能力和模型的準確度。
舉例來說以醫療健康場景為例,使用私域資料的 AI 模型在預測準確度上通常能提高 10%~30%。參考 Stanford 的 research,使用私域醫療資料的 deep learning model 在肺癌預測上的準確率超過了使用公共資料的模型 15%
資料隱私
隱私會不會成為製約 AI + Web3 的瓶頸?從現在的發展看,AI 在 web3 的落地方向已經逐漸明確,但是似乎每一個應用都繞不開隱私的話題,去中心化算力無論是在模型訓練還是模型推理上都需要保證資料和模型的隱私;zkml 能成立的一個條件也是保證模型不會被惡意節點濫用。
AI marketplace 建立在確保使用者掌控自己的資料的基礎上,因此,雖然通過一種去中心化、分散式的方式採集了使用者資料,但是所有節點在收集、處理、儲存、使用等階段都不應該直接 access 原始資料。目前的加密手段在使用上都面臨瓶頸,以全同態加密為例:
計算複雜性:FHE 比傳統的加密方式更複雜,這使得在全同態加密下進行 AI 模型訓練的運算的計算開銷大幅度增加,使得模型訓練變得效率極低,甚至不可行。因此,對於需要大量計算資源的任務,如深度學習模型訓練,全同態加密不是理想的選擇。
計算誤差:在 FHE 的計算過程中,誤差會隨著計算的進行逐漸累積,最終對計算結果產生影,會影響 AI 模型的 performance。
隱私也分級別,不需要過分焦慮
不同型別的資料存在不同程度的隱私需求。只有例如醫療記錄、金融資訊、敏感個人資訊等需要高階別的隱私保護。
因此,在去中心化 AI marketplace 的討論中需要考慮到資料的多樣性,最重要的是平衡。為了最大化使用者的參與度和平臺的資源豐富度,設計一種更靈活的策略,允許使用者自定義隱私級別的設定是很必要的,並不是所有資料都需要最高階別的隱私。
三、關於去中心化 AI Marketplace 的反思
3.1 使用者對資產有支配權,使用者撤出會不會導致平臺崩塌?
去中心化 AI marketplace 的優勢在於使用者對資源的所有權,使用者確實可以隨時撤出自己的資源,但是一旦使用者和資源(模型、資料)累積到一定程度,我認為平臺不會被影響。當然這也意味著專案初期會耗費大量資金穩固使用者及資源,對一個初創團隊會非常艱難。
社群共識
去中心化 AI marketplace 一旦形成強大的網路效應,會有更多的使用者和開發者產生黏性。並且因為使用者數量的增加會導致資料和模型的質量和數量的增加,使市場更加成熟。不同利益驅動的使用者從市場中獲得的價值也就越大。儘管少量使用者可能會選擇離開,但這種情況下新使用者的增速理論上並不會放緩,市場還是能繼續發展並提供更大價值。
激勵機制
激勵層如果設計合理,隨著加入人數的增加和各種資源的累積,各方獲得的利益也會相應上升。去中心化 AI marketplace 不僅提供一個讓使用者能夠交易資料和模型的平臺,還可能提供一種讓使用者能夠從自己的資料和模型中獲利的機制。比如使用者通過出售自己的資料或者通過讓其他人使用自己的模型來獲得報酬。
對於模型開發者來說:在其他平臺部署可能沒有足夠多的資料支撐 finetune 一個 performance 更好的模型;
對於資料提供者來說:另一個平臺可能沒有這麼完善的資料基礎,使用者單獨一小塊資料也無法發揮價值並獲得足夠的使用量和收益;
小結
雖然在去中心化的 AI marketplace 中,專案方隻扮演一個撮合和提供平臺的角色,但是真正的壁壘在於使用者數量的累積所帶來的資料和模型的累積。使用者確實有撤出市場的自由,但是一個成熟的 AI Marketplace 往往會使他們從市場中得到的價值超過他們在市場之外能夠得到的價值,那其實使用者就沒有動力撤出市場。
不過如果大部分使用者或者一部分高質量模型 / 資料提供者選擇撤出,那麼市場可能會受到影響。這也符合在各種經濟系統中存在使用者進入和退出的動態變化和調節。
3.2 先有雞還是先有蛋
從以上兩種路徑看,很難說最終會有那一條跑出來,但顯然基於資料的 AI marketplace 更加 make sense,並且天花板遠高於第一種。最大的區別就在於,基於資料的市場是在不斷充實壁壘,積累使用者的過程也是積累資料的過程,最終 web3 賦予的價值就是讓一個巨大的去中心化資料庫更加充實,這是一個正向的迴圈。同時,從本質上看這種平臺不需要留存資料,而是提供一個貢獻資料的市場更加輕量。最終來看,這就是一個大型的資料集市,這種壁壘是很難替代的。
從供給和需求的角度上看,一個 AI marketplace 需要同時具備兩點:
- 大量的優秀的模型
- 終端使用者
從某種角度看,這兩個條件似乎是互相依賴的,一方面,平臺需要有足夠多的使用者為模型和資料的提供者提供使用的動力,只有積累的足夠多的使用者,激勵層才能發揮最大的價值,資料的飛輪也才能轉起來,這樣才會有更多的 model provider 來部署模型。另一方面看,足夠多的終端使用者一定是奔著好用的模型來的,使用者對於平臺的選擇極大程度上是對平臺模型質量和能力的選擇。因此,在沒有積累一定數量優秀模型的前提下,這種需求是不存在的,路由演算法做的再先進,沒有好的模型路由也是空談。這就好比 apple store 的前提是 apple
因此,一種比較好的發展思路是:
初期策略
積累優質模型,在初始階段最值得關注的是建立一個優質的模型庫。原因在於,無論終端使用者有多少,沒有高質量的模型供他們選擇和使用,平臺就沒有吸引力,使用者也不會有粘性和留存。通過聚焦於建立優質的模型庫,平臺可以確保早期的使用者能夠找到他們需要的模型,從而建立品牌聲譽和使用者信任,逐步建立起社群和網路效應。
擴展策略
吸引終端使用者,在建立了優質模型庫之後轉向吸引和留住更多的終端使用者。大量的使用者將為模型開發者提供足夠的動力和利益,使他們持續提供和改進模型。此外,大量的使用者也將生成大量的資料,進一步提升模型的訓練和優化。
小結
什麼才是 AI marketplace 的最佳嘗試?一句話說就是平臺能提供足夠多的優質模型,並且能高效地為使用者匹配合適的模型解決問題。這句話解決兩個矛盾,首先,平臺能為開發者(包括模型開發者和使用者)提供足夠的價值,讓平臺上擁有足夠多的優質模型;其次,這些 「商品」 能為使用者提供高效地解決方案,從而積累更多使用者,為各方利益提供保障。
去中心化的 AI Marketplace,是一個 AI + web3 容易落地的方向,但是一個專案必須想清楚這種平臺能提供的真正的價值是什麼,以及如何在早期 onboard 大量使用者。其中,關鍵在於找到一個各方利益的平衡點,同時處理好資料所有權、模型質量、使用者隱私、算力、激勵演算法等多個要素,最終成為一個資料、模型和算力的共享和交易平臺。
📍相關報導📍
Google AI 聊天機器人「Bard」是什麼?相比 ChatGPT 優缺點、誰更好用