AI 的狂飆突進,背後站著「資料原罪」的幽靈。本文源自極客公園所著文章《實錘!村上春樹、史蒂芬·金盜版書成訓練數據,AI 巨頭無一幸免》,由 ForesightNews 整理、編譯及撰稿。
(前情提要: OpenAI傳破產危機?報告:ChatGPT每日燒2000萬、用戶流失超兩成)
(背景補充: AI混戰!Meta結盟微軟推「免費開源」語言模型Llama2!威脅OpenAI、Google)
為了訓練大型語言模型,OpenAI、Meta、Google、微軟等公司未經許可,從網際網路上收割了數百萬受版權保護的作品,在版權法的灰色地帶中游走。
如今,OpenAI 目前正面臨大量的官司,原告稱該公司訓練資料集中的大多數書籍來自盜版來源和非授權網站。一旦被判侵權,公司有可能將面臨鉅額罰款或重構演算法的局面。這也導致,如今 AI 公司越來越不願意分享 AI 訓練資料的詳細資訊。
但一些公開的盜版語料庫已經被盯上,近日,有人發現一個叫 Book3 的資料集,包含近 20 萬本書籍,囊括村上春樹、史蒂芬・金等暢銷書作家的著作,這個資料集被用在了訓練 AI 模型上,最近遭到反盜版組織的反覆攻擊。
版權問題這把利刃,正懸在 AI 公司們的頭上,有搖搖欲墜之勢。
Books3,AI 公司的祕密
一直以來,對於 AI 模型的訓練資料並不完全透明。今年,多名美國作家針對 OpenAI 提起了集體訴訟,指控其使用盜版書籍來訓練其語言模型,侵犯版權並違反了多項法律。
這些作家主張的證據很簡單,因為些他們從未同意 OpenAI 使用他們的作品,然而 ChatGPT 卻能提供他們作品的準確摘要,這讓他們認為這些資訊肯定是從某個地方獲取的。
根據早期 GPT 版本的研究論文,其訓練資料集有部分來自於「兩個基於網際網路的書籍語料庫」,它們被簡單地稱為「Books1」和「Books2」,這些資料集具體包含哪些作品比較含糊。Books1 似乎是 bookcorpus,裡面有數百本書明確宣告「不得以商業或非商業目的複製和分發」。Book2 則成為一個謎團,大多人猜測它們來自於「臭名昭著的影子圖書館網站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。
其中,Z-Library 成立於 2008 年,是網際網路最大的盜版電子書庫之一。2022 年 11 月,美國政府起訴兩名運營該網站的俄羅斯公民,這兩人在阿根廷被逮捕。
至於 GPT-4 的 45TB 訓練資料,其中包含什麼內容的資訊更加有限,OpenAI 多年來逐漸減少了其訓練資料的披露。
儘管目前沒有直接證據表明 OpenAI 使用盜版網站來培訓 ChatGPT,但一些 AI 模型此前已經明確在盜版書籍上進行了訓練,包括使用「Books3」資料集的 AI 模型。
EleutherAI 的 Pythia 研究論文中提到,Pythia 是使用 Pile 資料集進行訓練的,而 Pile 資料集包含多個英語文字集,其中之一就是名為「Books3」的資料集。
Books3 是用於訓練 AI 的最著名的盜版書籍庫之一,最初是由 AI 開發人員和知名開源 AI 支援者 Shawn Presser 於 2020 年上傳。它包含 37 GB 的文字,包括 196640 本純文字格式的書籍,並在盜版網站 bibliotik 上託管。
「假設你想訓練一個世界級的 GPT 模型,就像 OpenAI 一樣。怎麼做?你沒有資料。現在你可以做到,現在每個人都這樣做。為你呈現「books3」,又名「all of bibliotik」。Shawn Presser 最早在社交平臺上寫道。
然而,反盜版組織也在採取行動,代表相關利益群體,試圖限制未經授權的 AI 訓練資料的使用。
這段時間,反盜版組織 Rights Alliance 向相關站點發送刪除通知後,相關站點已將 Books3 資料集下線,導致嘗試訪問該資料集的使用者會看到 404 錯誤。Rights Alliance 還聯絡了 AI 模型託管平臺 Hugging Face(該站點託管了 Books3 下載連結)以及 EleutherAI。然而,儘管一些連結被下架,該資料集的副本並未消失,仍然在其他地方出現。
遭到針對後,Shawn Presser 繼續釋出新的下載連結,他稱,除非反對者打算讓 ChatGPT 下線,或者通過訴訟將其告到滅亡,否則,他希望每個人都能夠製作自己的 ChatGPT,他還稱自己「很樂意入獄 10 個月(海盜灣創辦人服過的最高刑期),因為我推動了科學進步並賦予了你們複製 ChatGPT 的能力。」
「複製 ChatGPT 這樣的模型的唯一方法,是建立像 Books3 這樣的資料集。」Shawn Presser 稱:「每個營利性公司都會祕密地這樣做,不會將資料集釋出給公眾。」「沒有 Books3,我們就生活在一個只有 OpenAI 和其他億萬美元公司才能訪問這些書籍的世界中,這意味著你不能製作自己的 ChatGPT。沒有人能。只有億萬美元的公司才有資源做到這一點。」
包括 Meta 在內的一些公司曾經使用過 Book3,另外,Meta、Google都使用過的 C4 訓練資料集也被詬病過,現在這些公司對其語言模型中的內容更為保密。
Meta 的 Llama 2 增加了 40% 的資料,但在其白皮書中,該公司對其最新的 大語言模型使用了什麼資料更為猶豫,唯一提到的是「一個新的混合的公開可用線上資料」。隨著 AI 和版權之間的摩擦升溫,公司越來越不願意分享 AI 訓練資料的詳細資訊。
萬名作家聯名反對
超一萬名作家敦促 AI 公司停止使用其作品。他們不希望 AI 模仿其作品並學會寫作,除非科技公司為此付費。
美國的作家協會已經向巨頭們發了一封公開信,包括 OpenAI、Google、Meta、Stability AI、IBM 和微軟公司的各大 CEO,要求他們停止未經許可使用他們的作品,或對使用作品進行補償。
其中包括《達文西密碼》作者丹・布朗、《飢餓遊戲》作者蘇珊・柯林斯、《使女的故事》作者瑪格麗特・阿特伍德、《自由》作者喬納森・弗蘭岑等人都簽署了這封公開信,簽署的作家名單長達 100 多頁。
目前,該作家協會正嘗試先在不提起訴訟的情況下解決爭端,因為「訴訟需要大量的資金,而且需要很長時間。」
但也有一些文學界人士願意直接在法庭上與科技公司對抗,控訴 Meta 或 OpenAI 等使用盜版來訓練他們的 AI。此外,文學經紀人們正在與出版商商討,要更新出版合約條款,禁止未經授權的 AI 訓練用途,大部分出版商都願意限制 AI 使用他們的出版物。
根據美國作家協會的調查,90% 的作家認為,作家應該獲得對其作品用於訓練生成式人工智慧的補償,65% 的作家支援建立一個集體授權制度,以補償作者的作品被用於訓練生成式 AI。
此外,69% 的作家認為他們的職業受到生成式 AI 的威脅,70% 的作家認為出版商將開始使用 AI 來完全或部分生成書籍,取代人類作者。
除了發公開信、打官司、完善合約,出版業還在進一步尋求立法。
美國作家協會的人正在遊說制定相關法律、法規和政策:在同意方面,要求在生成式人工智慧中使用作家作品時獲得許可;在補償方面,為那些希望允許其作品用於生成式人工智慧培訓的作家提供補償;在透明度方面,要求人工智慧開發者透明披露他們用於培訓其人工智慧的作品。
他們也期望,生成式 AI 的輸出使用到作家的作品時,要獲得許可並建立相應的補償機制,或者當在提示中使用作家的姓名、身份或作品標題時,也應獲得許可。此外,他們要求作者、出版商、平臺和市場標明 AI 生成的作品,並在作品很大一部分(例如超過 10-20%)由 AI 生成時進行標識。
「我們需要確保人類創作者得到補償,這不僅是為了創作者本身,而是為了確保我們的書籍和藝術繼續反應出我們的真實和想像的經驗,開拓我們的思維方式,教導我們新的思維方式,並推動我們社會的發展,而不是重複舊觀念。」該作家協會在官方宣告中稱。
NYT VS OpenAI
除了作家和藝術家,其他型別的內容創作者,也紛紛加入起訴 AI 公司的行列,一些新聞機構批評科技公司未經授權或補償就使用他們的內容。
比如,紐約時報正在考慮對 OpenAI 提起訴訟,稱 OpenAI 的 ChatGPT 使用了該報的資料進行訓練,而未經紐約時報許可。在過去的幾個月裡,OpenAI 和紐約時報一直在試圖達成一項有關紐約時報內容的許可協議。但談判還未有結果,存在破裂的可能。
在最近對其服務條款政策的更改中,紐約時報明確禁止將其龐大的媒體檔案用於訓練「任何軟體程式,包括但不限於訓練機器學習或人工智慧(AI)系統」的目的。該政策適用於紐約時報的文字內容、照片、視訊和元資料,並明確禁止網路爬蟲訪問這些資料來訓練專有產品。
這裡做一個假設,如果法院判定 OpenAI 等 AI 公司的訓練行為屬於侵權,OpenAI 可能會被迫停止使用受版權保護的資料,並在不使用受版權保護的資料的前提下,重新構建其演算法,這會引發多大的麻煩?
科技公司也試圖與新聞媒體建立關係。Google曾試圖爭取像紐約時報、華盛頓郵報等新聞機構的支援,試圖向他們推銷 AI 工具。還有 AI 公司向新聞非營利機構提供微薄的慈善捐款。
期間,也有新聞機構不那麼強硬。美聯社今年就與 OpenAI 達成了一項為期兩年的許可協議,同意將美聯社的內容授權給 OpenAI 使用訓練。作為回報,OpenAI 提供了美聯社訪問「OpenAI 的技術和產品專業知識」的權利。
懸在 AI 公司頭上的劍
AI 公司抓取海量網際網路資料,已經導致法律問題的出現,起訴 AI 公司的人正在變得越來越多。
今年,美國一律所相繼對 OpenAI、Meta 等巨頭提起訴訟,指控他們未經同意、未經授權或未經補償地佔用成千上萬名作家的作品,來訓練他們的大語言模型。行業預計訴訟規模將很龐大,因為其他內容創作者也有可能受此啟發採取法律行動。
其他生成 AI 公司,如 AI 影象生成工具 Stable Diffusion 背後的 Stability AI,也惹上版權官司。Stable Diffusion 是在 LAION-5B 資料集上進行訓練的,資料集包含 58.5 億個影象文字對,大多數都受版權保護。Getty Images 正在起訴 Stability AI,指控其未經授權在超過 1200 萬張 Getty Images 上訓練 AI 影象生成模型。
許多藝術家和利益相關者也表示不滿,對 Stability AI、DeviantArt 和 Midjourney 等公司提起訴訟,指控他們侵犯版權、侵犯肖像權、不正當競爭和不正當獲利,尋求賠償和禁令。
微軟推出的程式設計工具 Copilot 也面臨集體訴訟。Copilot 是 GitHub 與 OpenAI 合作開發的基於人工智慧的自動程式設計產品,主要利用 GitHub 上的公共程式碼庫,在數十億行公開可用的程式碼上進行了訓練,能通過簡單提示替使用者編寫程式碼。開源程式員和律師指控他們從事開源軟體盜版,被告包括 GitHub、微軟及其人工智慧技術合作夥伴 OpenAI。
如果要打官司,AI 公司可能會援引所謂的「公平使用原則」來為其辯護,該原則允許在某些情況下無需許可即可使用作品,包括教學、批評、研究和新聞報導。問題是,AI 訓練是否適用「公平使用原則」。
幾年前,美國作家協會也曾起訴Google,理由是Google未購買其圖書館專案中收錄的書籍,當時,聯邦上訴法院判決認為,Google為其圖書館專案掃描了數百萬本書的數位副本是合法的「公平使用」,而非侵犯版權。關鍵在於,Google的數位圖書館並沒有為這些書創造出「重大市場替代品」,這意味著它與原作並無競爭關係。
目前,各國政府正努力將生成式 AI 納入立法範疇。歐盟也在制定一項 AI 法案,該法案將迫使公司將訓練模型資訊透明化。上半年,美國作家協會已兩次訪問國會山,討論生成式 AI 和作家保護措施的問題,涉及的問題包括集體授權和版權保護、反壟斷豁免權以及 AI 標籤和透明度要求。
「除非國會採取干預措施,以確保生成式人工智慧技術的開發和使用受到監管,否則驅動原創表達並豐富我們文化交流的重要版權激勵將變得毫無意義。」該作家協會在官方宣告中稱。
從現有輿論看,雖然一些人擔心訓練 AI 可能會引發版權問題,但也有人認為,OpenAI 等 AI 公司不需要特別的許可協議來訓練模型,版權擔憂不利於 AI 發展進步;有人則認為,取得作者的同意是至關重要的,創作者應該有拒絕的權利,或者,AI 公司至少應該購買訓練資料的書籍。
技術正在做人類歷史上從未發生過的事情,AI 訓練資料方面的開源精神應該有底線嗎?未來的法律是掣肘還是保護?如何平衡 AI 的發展與尊重人類創作權益,可能是和「通用人工智慧何時到來」同樣重要的問題。
📍相關報導📍
蘋果參戰AI,「Apple GPT」為何能讓AAPL市值爆增700億鎂?