OpenAI 最新推出推理模型「OpenAI o1」,旨在提升科學、數學及編程上的表現。目前推出兩個版本:常規更新的預覽版 o1-preview ,以及經濟版 o1-mini。
(前情提要:蘋果、輝達爭搶OpenAI融資機會,Sam Altman締造史上最強募資傳奇)
(背景補充:OpenAI 展開下輪融資「估值破1000億美元」微軟續押注跟投)
ChatGPT 背後開發商 OpenAI 昨(12)日推出可以進行推理的新模型「OpenAI o1」,旨在解決以往版本在科學、數學和程式碼生成上的不足。目前推出兩個版本:預覽版 o1-preview ,公司稱將為其定期更新和改進,以及專精於數學和程式碼生成,同時更便宜的 o1-mini。
即日起,ChatGPT Plus 和 ChatGPT Teams 的用戶已經可以使用這兩個版本。
OpenAI o1 能以人類思考方式回答問題
根據公司介紹,OpenAI o1 將在做出反應之前花更多時間思考,就像人類一樣,會完善自己的思考過程,嘗試不同的策略,並認識到自己的錯誤。
在性能測試上 OpenAI 指出,該模型在物理、化學和生物的高難度基準測試上表現與博士生相當,尤其在數學和編程方面表現出色。在國際數學奧林匹克(IMO)的選拔賽中,GPT-4o 只正確解答了 13% 的題目,而該模型能達到 83% 的正確率;在程式競賽(Codeforces)中,該模型排名前 89%。
目前作為早期模型,該模型尚未具備 ChatGPT 的所有功能,像是還不能瀏覽網頁以及上傳文件和圖像。
OpenAI o1 solves a complex logic puzzle. pic.twitter.com/rpJbh8FkAg
— OpenAI (@OpenAI) September 12, 2024
o1-mini 更具經濟高效
另外,OpenAI 推出了相較於 o1 較小的模型「o1-mini」,強調該模型是更具經濟高效的推理模型,並在 STEM(科學、技術、工程和數學)方面表現出色,尤其是數學和編碼,在 AIME 和 Codeforces 等評估基準上幾乎與 OpenAI o1 的性能相當。
OpenAI 表示,預計 o1-mini 將成為更快、更具成本效益的模型,適用於需要推理而無需廣泛的世界知識的應用程式。
從下圖比較數學表現與推理成本的測試中可以發現,在高中 AIME 數學競賽中,o1-mini (70.0%) 與 o1 (74.4%) 競爭力相當,同時價格便宜得多,並且表現優於 o1-preview (44.6%)。
在 Codeforces 競賽上,o1-mini 達到了1650 Elo,再次能與 o1(1673)競爭,並且高於 o1-preview 的表現(1258)。
而在回答速度上,o1-mini 的表現也較好。OpenAI 表示,在文字推理問題的測試中,o1-mini 回答正確答案的速度大約是 o1-preview 的 3-5 倍。
不過 OpenAI 也坦言,在需要智慧和推理的基準上進行評估時,o1-mini 可以表現良好,然而,在非 STEM 的事實知識任務上表現較差。
OpenAI 面臨激烈競爭
事實上,OpenAI 並非唯一投入推理模型研究的 AI 公司,Google 和 Meta 等企業也在開發類似的技術。
儘管 OpenAI 搶先推出了 o1,競爭對手可能很快會跟進。OpenAI 面臨的真正挑戰,是如何讓 o1 廣泛普及且降低成本,同時持續升級以保持競爭力。此外,據了解微軟(Microsoft)與其子公司 GitHub 正積極將 OpenAI 的新模型整合到產品之中。
📍相關報導📍
授權 ChatGPT 展示 Vogue、GQ、Wired..等雜誌內容,OpenAI 與《康泰納仕》達成合作