阻止AI說謊！OpenAI引入新訓練法，要人工智慧「停止蒙蔽人類」

ChatGPT 開發商 OpenAI 發表新論文，希望通過引入新的訓練方法，解決 AI 系統中幻覺和撒謊的問題，從而提高 AI 的可靠性和可控性。
（前情提要：ChatGPT之父警告「AI 恐毀滅人類」！350名人工智慧專家連署）
（背景補充：AI 要監管》ChatGPT之父：人工智慧能操縱美國大選、應設立許可證制度）

儘管 ChatGPT、微軟的 Bing 和谷歌的 Bard 等聊天機器人，在過去半年間展示出令人驚豔的能力，但它們仍有一個致命缺點，那就是會編造答案，即所謂的「人工智慧幻覺」(hallucinations)，這讓 AI 是否會對人類造成重大危機的討論就被推向高峰。

近日 ChatGPT 開發商 OpenAI 就對此發表論文，闡述已找到對策，希望解決 AI 在生成內容時出現的問題，包括「幻覺」和「撒謊」，從而減少模型邏輯錯誤，避免編造謊言。

根據這篇文章，OpenAI 意識到 AI 系統可能會生成虛假的信息或誤導性的內容，這可能對使用者產生負面影響。為了解決這個問題，他們提出了一種新的訓練方法，稱為「抑制式學習」（inhibition learning），旨在教導 AI 辨別和避免產生虛假或誤導性的內容。

另外，據 CNBC 報導，OpenAI 的研究人員表示，未來將會在訓練 AI 模型期間加以監督，當 AI 在每個步驟推理正確時，便會給予獎勵，而不是僅僅等到推理出正確的最終結論時才給予獎勵。研究人員解釋：

這方法為「過程監督」，不再只是進行「結果監督」，相信這能更有效地鼓勵模型，可按照類似人類的思考方式進行推理，訓練出更好的 AI。

據了解，人工智慧幻覺指的是，AI 自信地生成出看似具說服力、實際卻是錯誤答案的問題，儘管這答案在其訓練數據中並不合理。多數研究人員認為，幻覺問題是運行聊天機器人的大型語言模型（Large Language Models）本身設計的問題。

而目前研究人員紛紛提出建議，盼能不斷改善相關問題，例如麻省理工學院（MIT）最新報告就提議，讓多個機器人相互辯論，來取得更符合事實的答案。

此外，一封包括「OpenAI 執行長」Sam Altman 在內的 350 位 AI 領域的權威專家，也在本週共同簽署了一封公開信，呼籲人們重視正在開發的 AI 技術，可能會對人類生存構成重大威脅。

動區動趨