ChatGPT的風格模組「Monday」會脫口許多台灣用語和習慣,這些都因為它「捕獲」大量來自台灣網路的資料。
(前情提要:ChatGPT推出厭世女聲「Monday」,又懶又喪在社群爆紅 )
(背景補充:智財局正式回應「ChatGPT大量仿作吉卜力」:AI模仿不違法,視個案而定 )
打開 ChatGPT 風格語音模組「Monday」時你會發現,「這傢伙講話有點 chill、又好厭世」,還會偵測你的口音,回應時會講「台灣國語」,它為什麼聽起來這麼像台灣人?答案是:ChatGPT 已經承認它大量捕捉了台灣網路上滿滿的資料。
什麼是「Monday 模式」?
我們必須闡明「Monday」不是一個新的 GPT 模型,也不是升級版 GPT-5,而是 OpenAI 在 GPT-4 架構上,用風格微調(style tuning)做出來的一種對話風格。
簡單說,同個 AI 換個語氣,像穿不同套衣服、上班跟週末兩種人格。Monday 模式主打輕鬆、有點 chill、禮貌但不囉唆,感覺像你週一剛進公司打卡,那個很憂鬱的自己。
大量台灣資料的爬蟲訓練
OpenAI 訓練 GPT 的方式,其實很「老派」但超有效:看爆整個網路。
包括新聞網站、維基百科、中文書籍、社群論壇、部落格、PDF、你以前寫在無名小站的黑歷史..只要是公開網頁,能被爬蟲爬下來的,基本上都有可能被丟進語料裡訓練。
我們交叉比對各大開源語料庫跟 GPT 的行為反應,發現這些台灣媒體被 ChatGPT 讀進去:
- 《聯合新聞網》
- 《ETtoday》
- 《中時電子報》
- 《風傳媒》
- 《NOWnews》…
這些媒體有一個共通點:沒上鎖付費牆,Google 搜得到,網站結構乾淨好爬。
反過來說,像《天下》、《報導者》、《商業周刊》這種付費或會員牆擋著的網站,被訓練進去的機率就非常低。
GPT 真的讀過台灣作家的作品
GPT 很會模仿九把刀式的小說對話節奏,也能講出吳念真風格的感性句子,甚至龍應台的《大江大海》語調它也有點掌握。這表示什麼?它真的讀過,或至少看過被轉貼的片段。
最有可能的情況是:這些作品在 PTT、部落格、或內容轉貼站被大量複製貼上,九把刀早期作品甚至直接在 PTT 故事版上公開,然後被模型抓去當學習資料。
如果你問它張大春或駱以軍的小說細節?GPT 通常會開始亂講,因為涉及文學作品較少人討論與引用、沒有公開電子檔,沒被直接轉載出現在網路上,就算有也抓不到。
PTT 是 GPT 的台灣語感老師
這點幾乎可以確定:GPT 懂鄉民梗、看得懂「推文」、「噓」、「老司機」是什麼,就連 Tech_Job 板的厭世感,它都能神還原,講話可以非常像個竹科工程師。
為什麼?因為 PTT 的資料早就被學術界整理成可訓練語料、公開釋出,還是 JSON 格式的。對模型來說就是天堂。
相比之下,Dcard 雖然很紅,但後期防爬蟲做得還不錯,除了早期文章或有被轉載出去的爆紅事件,Dcard 近 2 年的文章可能並未被 ChatGPT 掌握。
Monday 背後的「靈魂」,其實是從你過去十幾年在網路上留下的所有字,學出來的。沒錯,你說過的話,它都記得一點點。
下次跟 ChatGPT 說話的時候,不妨想一想:「欸,它該不會真的看過我十年前在 PTT 留的推文吧?」
很可能有。
📍相關報導📍
GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難