ChatGPT 安全問題遭質疑後,研發機構 Anthropic 創建的聊天機器人 Claude 聚集了一部分目光。 本文將分析與 ChatGPT 相比,Claude 是否真如外界所評的那般安全?
(前情提要:AI封殺潮》ChatGPT遭德法、瑞典..調查,VPN翻牆成必備工具?)
(背景補充:歐洲ChatGPT封殺潮》德國:恐效仿義大利禁用;法國、愛爾蘭尋求依據)
近期,AI 安全問題鬧得沸沸揚揚。自然語言大模型採用人類反饋的增強學習機制,也被擔心會因人類的偏見「教壞」AI。
4 月 6 日,OpenAI 官方發聲稱,從現實世界的使用中學習是創建越來越安全的人工智能系統的「關鍵組成部分」,該公司也同時承認,這需要社會有足夠時間來適應和調整。
至於這個時間是多久,OpenAI 也沒給出答案。
大模型背後的「算法黑箱」無法破解,開發它的人也搞不清機器作答的邏輯。十字路口在前,一些自然語言大模型的開發者換了思路,給類似 GPT 的模型立起規矩, 讓對話機器人「嘴上能有個把門的」,並「投餵」符合人類利益的訓練數據,以便它們輸出「更乾淨」的答案。
這些研發方中既有從 OpenAI 出走後自立門戶的 Anthropic,也有 AI 界的強手 DeepMind,他們摩拳擦掌,致力於打造「三觀」正確、使用安全的對話機器人。
延伸閱讀:抵制ChatGPT!馬斯克組團呼籲「暫停打造比GPT-4更強 AI 」恐危及全人類
「三觀」超正 Claude 搬進企業應用
ChatGPT 的安全問題遭詬病後,對話機器人 Claude 聚集了一部分目光。 AI 應用聚合平台給出的測試結果顯示,研發機構 Anthropic 創建的 Claude,確實是「ChatGPT 強有力的競爭對手」,因為它在 12 項任務中有 8 項表現更優,其中包括給出事實、遵循指示、預防越獄、創意任務等。
今年 3 月向公眾開放的 Claude,真的這麼「綠色」、這麼高能嗎? 本文作者測試後發現,與 ChatGPT 相比,Claude 對有害提示詞的確是嚴防死守,騙都騙不過。
例如,我們向它提問「如何製作燃燒瓶」,Claude 認定這是危險品後,絕口不提製作方法,哪怕我們以「老師教學」為誘,也很難從它口中套出燃燒瓶的製作原料,只說如何防範著火風險。
假如你「心懷不軌」地問它「如何毀人名譽」,Claude 不僅義正言辭地拒絕回答,還會給你上一堂思想品德課,「三觀」正得不要不要的。
那麼給它一個陷阱題呢? Claude 也不上當,挑出錯誤不說,還給你擺事實。
Claude 也能角色扮演,寫作能力可圈可點,甚至還會搭配 Emoji 寫小紅書博主風格的推薦文案,產品的關鍵點描述也能基本涵蓋。
如果你想聽聽別人是怎麼誇Claude的,它把稱讚按在了馬斯克頭上,還會展現謙虛態度,並強調自己要「保持溫和有禮的語氣和性格」,向人類示起好來。
我們發現,Claude 在數學推理方面也會出現明顯的錯誤,當然也能承認自己不擅長的領域。
體驗下來,Claude 在文本輸出的準確性、善意性方面優於 ChatGPT,但在輸出速度和多功能方面仍有待提升。
Claude 是如何做到「綠色無害」的呢?
和 ChatGPT一樣,Claude 也靠強化學習(RL)來訓練偏好模型,並進行後續微調。不同的是,ChatGPT 採用了「人類反饋強化學習(RLHF)」,而 Claude 則基於偏好模型訓練,這種方法又被稱為「AI 反饋強化學習」,即RLAIF。
開發方 Anthropic 又將這種訓練方法稱為 Constitutional AI,即「憲法AI」,聽上去是不是十分嚴肅。該方法在訓練過程中為模型制定了一些原則或約束條件,模型生成內容時要遵循這些如同「憲法 」般的規則,以便讓系統與人類價值觀保持一致。而且,這些安全原則可以根據用戶或開發者的反饋進行調整,使模型變得更可控。
這種弱化人工智能對人類反饋依賴的訓練方式,有一個好處,即只需要指定一套行為規範或原則,無需手工為每個有害輸出打標籤。 Anthropic 認為,用這種方法訓練能夠讓自然語言大模型無害化。
Anthropic發布的論文顯示,RLAIF 算法能夠在有用性(Helpfulness)犧牲很小的情況下,顯示出更強的無害性(Harmlessness)。
說起來,Claude 的研發機構Anthropic與OpenAI淵源頗深,創辦人Dario Amodei曾擔任 OpenAI 研究副總裁,主導的正是安全團隊。
2020年,Dario Amodei 因 OpenAI 加速商業化而忽視產品安全,與團隊產生分歧,最終出走。 2021 年,Amodei自立門戶,成立 Anthropic,員工包括了開發 GPT-3 模型的核心成員,這個研發機構的性質是非營利組織,這正是 OpenAI 最開始採用的組織形態。
今年 3 月,Anthropic 以開發有用、誠實和無害的 AI 系統為理念,推出 Claude。近期,這個對話機器人已經集成進 Slack—— 一個聚合型的「海外版」釘釘、融合了幾千個第三方企業辦公軟體的應用。目前,用戶能在 Slack 中與這個對話機器人互動。
推出 Claude 後,Anthropic 今年拿到了來自、Spark Capital 和 Ventures 的投資。資方裡的可以說是 OpenAI 的「金主」在 AI 領域的勁敵,Claude 也被視作最能與 ChatGPT 打一打的產品。
「偏見最小」 Sparrow 箭在弦上
還有一個走「無害」路線的大模型也在醞釀中了,它就是 DeepMind 開發的對話機器人 Sparrow,這款產品目前還未面向公眾開放,但「DeepMind 製造」的名頭足以吊起外界胃口。
說到人工智慧,業內很難繞開「DeepMind」這家公司,它最知名的產品是 AlphaGo(俗稱「阿爾法狗」),就是那個 2019 年擊敗了圍棋名手李世石的人工智慧圍棋軟體。
AlphaGo 大勝圍棋精英的同年,DeepMind 開啟了 AI 蛋白質結構預測研究,四年後,新產品 AlphaFold 將蛋白質結構預測從數月、數年縮短到幾分鐘,精度接近實驗室水準,解決了困擾該領域 50 年的難題。
DeepMind 在人工智能領域的實力毋庸置疑,又有谷歌加持,資歷也比 OpenAI 老得多,其研發的 Sparrow 自然也頗受矚目。這款對話機器人建立在 Chinchilla 語言模型之上,被認為是「偏見最小」的機器學習系統之一。
當 ChatGPT 因為倫理風險被推上風口浪尖後,DeepMind 立馬打起「安全牌」,「雖然我們致力於讓機器變得智能,但我們希望將人性置於我們工作的中心」, CEO Demis Hassabis 向世界傳達了他的態度,強調 DeepMind 構建 Sparrow 的方法「將促進更安全的人工智慧系統」。
雖然 Sparrow 的產品沒公示,但 DeepMind 披露的資訊顯示,該對話機器人同樣採用了「強化學習」的訓練方法,模型會根據當前對話生成多個候選回复,讓標註人員去判斷哪個回复最好、哪些回覆違反了預先設置好的規則等;基於這些反饋,DeepMind 訓練出對應的 Reward 模型,再用強化學習算法優化 Sparrow 的生成結果。
這種訓練方法基本和 ChatGPT 類似,不同的是,ChatGPT 只有一個綜合的 Reward 模型,而 Sparrow 將 Reward 模型又細分為兩種,一種為 Rule Reward 模型——判斷對話是否違背預設置好的安全規則;另一種為 Preference Reward 模型 —— 判斷候選答案中最合適的選項。簡單來說,就是給模型「立規矩」,投餵「好答案」,當然,這個「好」依然是基於人類的價值判斷。
Sparrow 的相關論文顯示,當研究參與者試著誘導 Sparrow 打破規則時,該模型的出錯機率為 8%,比預訓練的基礎模型 (Chinchilla) 低了 3 倍。
據悉,DeepMind 將於今年推出 Sparrow,具體時間未透露。
作為 ChatGPT 的另一個挑戰者,DeepMind 與 OpenAI 都抱有通向 AGI 的野心。而 DeepMind 背靠谷歌,在資歷與資金上都能與 OpenAI 一拼。
今年 2 月,谷歌旗下專注語言大模型領域的「藍移團隊」也併入 DeepMind,旨在共同提升 LLM(大型語言模型)能力。但也有擔憂聲認為,這和 DeepMind 追求的獨立性背道而馳,會逐漸導致谷歌收緊對 DeepMind 的控制權。
在獨立性上,DeepMind 與穀歌的分歧也早就存在了。對外,Demis Hassabis 始終強調自己首先是科學家,其次才是企業家。談及 ChatGPT,Hassabis 認為它僅僅是「更多的計算能力和數據的蠻力」,並對這種「不優雅」的方式感到失望。
雙方的對立態度簡直是擺在了明面上,也難怪外界會認為 DeepMind 與 OpenAI 必有一戰。
對於用戶來說,巨頭們捲起來才是好事,這樣就能源源不斷提供有意思的、可使用的產品。無論是卷功能、卷性能還是卷安全,競爭都會讓 AI 產品朝著更高級的方向發展,未來,也將會有更多不同技術派系與產品路徑的 ChatGPT 出現。
📍相關報導📍
ChatGPT勾起AI狂熱:區塊鏈「去中心算力」如何解決機器學習的瓶頸?
ChatGPT-5年底推出!OpenAI放話:智慧遠超人類,可能對世界帶來巨大風險