中國與美國在大型語言模型(LLM)的差距大約在 2~3 年,在資料缺乏、硬體限制以及人才外流的三重壓力下,中國該如何突破僵局。
(前情提要:用AI炒股,回報率爆500%?專家解密為何機構都瘋搶著用 )
(背景補充:中國國務院:綜合運用區塊鏈、AI等技術,推進高頻行政處罰事項協助 )
從百度的文心一言開始,生成式 AI 成為中國的網際網路及科技公司進發的新高地,阿里巴巴的通義千問、騰訊的混元、華為的盤古、科大訊飛的星火到昨天 360 釋出智腦,國產的生成式 AI 產品頻繁曝光,AI 在國內已經儼然科技新風口,也在海外引發關注。
「中國在生成式 AI 上有多強?」 這是近日英國時政雜誌《經濟學人》發文的標題。文章從論文數、系統數、算力和晶片硬體幾個基礎層面的 4 張圖表,比對了兩國的實力。文章認為,目前中國的大型語言模型落後於美國兩到三年,原因在於兩國在訓練資料、晶片等硬體及科技人才上的距離。
文章也指出,這些差距都有各自的解決方式,最終,差距不會太大,而美國真正的優勢地帶是將技術高效應用和擴散的能力。以下為這篇《經濟學人》文章的編譯節選:
從北京和華盛頓唱的高調來看,中國和美國正在全力投入一場爭奪科技霸主的較量。
「從根本上說,我們相信少數幾項技術將在未來十年發揮極其重要的作用。」 美國總統拜登的國家安全顧問傑克・沙利文 (Jake Sullivan) 去年 9 月這樣說。今年 2 月,中國領導人同樣呼應了這一觀點稱 「我們迫切需要加強基礎研究,從源頭和底層解決關鍵的技術問題」,以 「應對國際科技競爭、實現高水平的自立自強」。
當下,沒有哪項技術比人工智慧 (AI) 更能吸引太平洋兩岸決策者的關注。ChatGPT 等生成式 AI 能力的迅速提升,愈發加強了這種關注。這類大型語言模型分析網路上所有的文字、影像或聲音,然後創造出越來越真實的仿造物。
如果生成式 AI 真的像其支援者說的那樣具有革命性,那麼善於運用它的國家就可能在 21 世紀重要的地緣政治競爭中獲得經濟和軍事上的優勢。西方和中國的戰略家已經在討論 AI 軍備競賽。這場競賽中,中國能贏嗎?
過去幾年,中國在某些衡量 AI 實力的指標上領先於美國。 2019 年,中國的 AI 論文佔比超過了美國。2021 年,全球 26% 的 AI 論文來自中國,而來自美國的佔比只有 17%。按 AI 論文發表量計算,全球排名前十的機構中有九個在中國。根據一個常用的基準,電腦視覺領域排名前五的實驗室也都在中國。
然而,在 「基礎模型」 這種賦予生成式 AI 智慧的領域,美國的優勢明顯。
ChatGPT 及其背後先進的模型 (最新版本為 GPT-4) 是美國創業公司 OpenAI 研發的。其他美國公司也有自己強大的系統,其中既有 Anthropic 或 StabilityAI 等小公司,也有Google、Meta 和微軟 (持有部分 OpenAI 股份) 等科技巨頭。文心一言是中國網際網路搜尋巨頭百度打造的對標 ChatGPT 的產品,人們普遍認為它的智慧程度沒有 ChatGPT 高。
這使業內人士得出了這樣的結論:中國在建立基礎模型方面比美國落後兩到三年。
造成這一差距的原因有三個。 第一個原因涉及資料。 例如,商湯科技、曠視科技等 AI 公司獲得來自政府部門的資料後,在其領先的電腦視覺實驗室的幫助下開發出了一流的面部識別系統。這項優勢到了生成式 AI 上卻沒有那麼強大了,因為基礎模型是用網路上大量的非結構化資料訓練的。
根據網際網路研究網站 W3Techs 的資料,全球 56% 的網站是英文的,而只有 1.5% 的網站是中文的,這有利於美國的建模者。
斯坦福大學的傅亦沁博士指出,中國人主要是通過微信和微博等 App 上網互動。這些 App 屬於 「圍牆內的花園」,其中大部分內容都沒有在搜尋引擎上建立索引。這讓 AI 模型在訓練時難以吸收這些內容。例如,北京智源人工智慧研究院於 2021 年推出的模型 「悟道 2.0」 儘管在計算層面上有可能比 GPT-4 更復雜,但未能引起轟動,缺乏資料也許是一個原因。
中國在生成式 AI 上的表現平平的 第二個原因與硬體有關 。去年,美國對一些 AI 領域的關鍵技術實施了面向中國的出口管制,其中包括雲端計算資料中心 (基礎模型在其中學習) 所用的微處理器,以及可以讓中國自行製造此類半導體的晶片製造工具。
這打擊了中國的大模型研發。 英國智庫 AI 治理中心分析了 26 個中國大模型後發現,超過一半的模型的晶片都要依賴美國晶片公司輝達。 一些報告表明,中國最大的晶片製造商中芯國際的產品只比行業領導者臺積電晚一兩代,但中芯國際目前只能大規模生產臺積電在三四年前就量產了的晶片。
延伸閱讀:Nvidia黃仁勳:晶片不一定要台灣製造「但中國市場無可取代」
另一樣中國 AI 公司難以從美國引入的東西是人才 。目前,美國對全球科技人才仍然極具吸引力:在期刊上釋出論文的美國 AI 專家中有三分之二在國外出生。2019 年,華裔工程師佔到這個頂尖群體的 27%。許多中國的 AI 研究人員曾在美國學習或工作,然後帶著專業知識回國。不過,新冠疫情和中美關係緊張加劇導致這一群體的人數下降。2022 年上半年,美國向中國學生發放的簽證數量是 2019 年同期的一半。
資料、硬體和人才的三重短缺對中國的 AI 發展造成了障礙,但這些因素是否會在更長時間內阻礙中國的 AI 雄心則是另一回事。
先說資料問題。今年 2 月,在聚集了中國近三分之一 AI 公司的北京,當地政府承諾開放 115 個政府下屬單位的資料,為建模機構提供 15880 個數據集。 前美國駐華外交官,現就職於牛津大學的凱拉・布洛姆奎斯特 (Kayla Blomquist) 表示,中國政府此前曾表示希望拆除中國 App 的圍牆,這樣可能會釋放出更多資料。
另外, 近期這批大火的生成式大模型能夠將機器學習的成果從一種語言轉換為到另一種語言。 OpenAI 表示,儘管在訓練資料中缺乏中文材料,但 GPT-4 在中文任務上的表現非常出色。喬治華盛頓大學的傑弗裡丁 (Jeffrey Ding) 指出,百度的文心接受了大量英語資料的訓練。
在硬體方面,中國也在尋找變通辦法。 英國《金融時報》3 月報導稱,被美國列入黑名單的商湯科技利用了中間商規避出口管制。另一些中國 AI 公司正通過位於其他國家的雲端伺服器使用輝達的晶片。還有一個辦法是購買更多輝達不太先進的產品。為了繼續服務廣大的中國市場,輝達設計了符合制裁規定的產品,這些產品的速度比頂級產品慢 10% 到 30%。對於中國客戶來說,這增加了處理能力的成本,但至少還夠用。
中國還可以用開源模型讓缺乏晶片和人才的問題得到一定程度的緩解。 任何人都可以下載開源模型的內在工作機制,並針對特定任務進行微調。這當中包括了模型引數,這些數位決定了模型的結構,是經由成本高昂的大量訓練得出的。斯坦福大學的研究人員使用 Meta 的基礎模型 LLaMA 的引數構建了一個名為 Alpaca 的模型,成本不到 600 美元,而訓練 GPT-4 這樣的模型可能需要 1 億美元。Alpaca 在某些任務上的表現不遜於 ChatGPT 的最初版本。
考慮到上述因素,很難想象美國或中國能夠在 AI 大模型方面建立不可逾越的領先優勢。 兩國可能最終將擁有能力類似的 AI,即使中國在過程中會因為美國的制裁而付出額外代價。 但是,如果大模型的競爭勢均力敵,那麼美國的另一個優勢有可能讓它成為 AI 大贏家,那就是它有能力在經濟體系中廣泛應用其尖端科技。歷史上,正是新技術在大範圍內的高效應用幫助美國在與蘇聯的科技競賽中取得領先,儘管蘇聯在上世紀 50 年代培養的理科博士數量是美國的兩倍。
中國遠比蘇聯善於應用新科技。它的金融科技平臺、5G 電信和高鐵都是世界一流的。 儘管如此,傑弗裡・丁表示,這些成功可能只是例外,而不是常態,尤其是中國在部署雲端計算和商業軟體方面的表現沒那麼出色,而這兩者都是 AI 的配套設施。
儘管美國的出口管制可能並不會阻礙中國所有的大模型進展,但會在更廣的範圍裡限制中國的科技產業,從而減緩對新科技的採用。比如,中國企業整體而言缺乏積極推動新技術擴散的技術專家,以及資金流向 AI 行業的不確定性。去年,對中國 AI 創業公司的私人投資為 135 億美元,不到流向美國競爭對手的資金的三分之一。據資料供應商 PitchBook 稱,在 2023 年的前四個月,這一投資的差距似乎又進一步擴大了。
無論生成式 AI 是否真的具有革命性,自由市場已經把賭注押在能充分利用它的玩家身上。
📍相關報導📍
別被騙!OpenAI技術長推特被盜,12.6萬追蹤者見「釣魚連結」騙發幣