OpenAI 最強模型 o3「遭爆作弊」疑用特權提前獲測試答案，數學能力造假？

近日 Less Wrong 論壇上一為名為「Meemi」的非營利組織 Epoch AI 承包商發文爆料，ChatGPT 背後開發商 OpenAI 私下資助 AI 開發數學基準測試平台 FrontierMath，並有特權拿到 FrontierMath 測試的題目與答案，助其最新模型 o3 拿到測試高分。
（前情提要：想控制ChatGPT？馬斯克致信總檢查長，要求強制拍賣OpenAI股份）
（背景補充：OpenAI發表Day2》逆天「強化學習微調」新功能，增強AI專業領域學習準確度）

本文目錄

ChatGPT 背後開發商 OpenAI 近日傳出模型造假的風聲，引起科技社群廣泛議論。事件起因源於 Less Wrong 論壇上一位名為「Meemi」的非營利組織 Epoch AI 承包商發文爆料。

文章指出，用於測試 AI 開發數學基準測試平台 FrontierMath 不僅曾受到 OpenAI 資助，並且 FrontierMath 有給 OpenAI 最新推出的 o3 模型「開後門」的特權。

延伸閱讀：OpenAI推出o3模型！推理能力再推高等級，為下一代AI鋪路

Meemi 指控 OpenAI 在測試 o3 模型前就拿到題目與答案

Meemi 在內文中提到，許多 FrontierMath 相關命題人、承包商都對 OpenAI 資助一事不知情：

為 FrontierMath 創造數學題目的數學家並未（主動地）被告知來自 OpenAI 的資助。承包商們被要求對題目及其解答保密，包括不得使用 Overleaf、Colab 或通過電子郵件討論題目，並簽署 NDA（保密協議），以確保題目機密性及避免洩漏。

此外，承包商在 12 月 20 日也未被告知 OpenAI 的資助。我相信，甚至一些署名的論文作者也不知道 OpenAI 的資助。

Meemi 接著補充道，他有間接消息來源表明，OpenAI 在測試前就擁有 FrontierMath 的題目與答案：

目前，Epoch AI 或 OpenAI 並未公開表示 OpenAI 是否能夠獲取這些題目、答案或解決方案。我有間接消息來源表明，OpenAI 確實擁有這些題目和答案，並且使用它們進行驗證測試。我不清楚 Epoch AI 和 OpenAI 是否有協議限制將此數據集用於訓練，但有一些跡象表明，這樣的協議並不存在。

什麼是 FrontierMath？

據了解，FrontierMath 是 Epoch AI 聯合 60 多位全世界的數學家，共同推出的全新數學基準，其中包括教授、IMO命題人、菲爾茲獎得主。

這些數學問題從奧賽難度到當今的數學前沿，包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題。

Epoch AI 聯合創辦人出面道歉

而在社群鬧得沸沸揚揚之際，Epoch AI 聯合創辦人 Tamay Besiroglu 也在 19 日發推為此事道歉，他表示：

我們犯了一個錯誤，沒有更早公開 OpenAI 在 FrontierMath 中的參與。我們的合約限制了我們，直到 o3 模型發布前才能披露。

事後來看，我們應該更加努力爭取更早的透明度。我們承認這點，未來會做得更好。

Besiroglu 還在部落格補充表示，雖然 OpenAI 擁有 FrontierMath 的訪問權限，但它與 Epoch AI 之間有一項「口頭協議」，不會使用 FrontierMath 的問題集來訓練 AI 模型。另外，Epoch AI 還設有一個單獨的保留集，作為一種額外的保障，用於獨立驗證 FrontierMath 基準測試的結果。

We made a mistake by not disclosing OpenAI’s involvement in FrontierMath sooner. Our contract barred us until around o3. In hindsight, we should have really pushed for earlier transparency. We own this and will do better.https://t.co/iVvDxi0oxR

— Tamay Besiroglu (@tamaybes) January 19, 2025

川普報明牌？家族 DeFi 項目 WLFI 昨晚加倉數千萬美元比特幣、以太坊、AAVE、ONDO..

薩爾瓦多拿了貸款繼續加倉 12 枚比特幣，不甩與 IMF 協議

Tags: AI EpochAI FrontierMath o3 OpenAI

OpenAI 最強模型 o3「遭爆作弊」疑用特權提前獲測試答案，數學能力造假？

熱門文章

25年前的今天》Micheal Saylor「網路泡沫」慘虧60億美元，創下單日單人虧損最高紀錄

中本聰創造了永生經濟！Michael Saylor萬字訪談：死後銷毀比特幣私鑰，是一種終極去中心化慈善

中華郵政「終止虛擬貨幣交易所入金」約定轉帳服務，會有什麼影響？

最新文章

比爾蓋茲：10年內 AI 取代人類、一週工作兩天不是夢，三種職業或倖存

CZ：向緬甸、泰國強震各捐 500 BNB！鏈上DID 捐贈系統很重要

美股驚現「黑色星期五」加密概念股成重災區、MicroStrategy暴跌10%；比特幣恐下探7.2萬鎂？

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

OpenAI 最強模型 o3「遭爆作弊」疑用特權提前獲測試答案，數學能力造假？

Meemi 指控 OpenAI 在測試 o3 模型前就拿到題目與答案

什麼是 FrontierMath？

Epoch AI 聯合創辦人出面道歉

📍相關報導📍

熱門文章

25年前的今天》Micheal Saylor「網路泡沫」慘虧60億美元，創下單日單人虧損最高紀錄

中本聰創造了永生經濟！Michael Saylor萬字訪談：死後銷毀比特幣私鑰，是一種終極去中心化慈善

中華郵政「終止虛擬貨幣交易所入金」約定轉帳服務，會有什麼影響？

最新文章

比爾蓋茲：10年內 AI 取代人類、一週工作兩天不是夢，三種職業或倖存

CZ：向緬甸、泰國強震各捐 500 BNB！鏈上DID 捐贈系統很重要

美股驚現「黑色星期五」加密概念股成重災區、MicroStrategy暴跌10%；比特幣恐下探7.2萬鎂？

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類