ChatGPT 開發商 OpenAI 今日宣佈推出重大的圖像生成模型升級,用戶現已能直接在 GPT-4o 快速生成並編輯圖像,無需再開啟 DALL-E。本文將整理這個迄今為止最先進的圖像生成模型有哪些功能亮點。
(前情提要:OpenAI 解鎖 Deep Research:付費用戶每月可查詢 10 次、微軟發布多模態 AI 代理 Magma)
(背景補充:中國「Manus」通用型AI代理人爆紅!能開發網頁、分析股票、找房子勝過OpenAI,邀請碼炒到20萬天價)
人工智慧巨頭 OpenAI 今(26)日在直播中推出迄今為止最先進的圖像生成模型,內建於 GPT-4o,用戶現已能直接在 ChatGPT 快速生成並編輯圖像,無需再開啟 DALL-E。
官方表示該功能即日起對 Pro 訂閱用戶(每月 200 美元)開放,並將陸續向 Plus、Team 及免費用戶推出,並推送至 Sora 平台及 API 開發者。企業和教育用戶也即將開放使用。
GPT-4o 產圖帶來更高準確度和實用性
新功能採用 GPT-4o 模型,取代原先的 DALL-E 3,具備原生圖像生成與編輯能力,官方稱圖像品質逼真到肉眼難辨,細節豐富,甚至超越 Midjourney 等競爭對手。
與傳統一次生成整個圖像的擴散模型不同,GPT-4o 使用自迴歸技術,從左至右、由上至下類似文字書寫的方式逐步生成圖像。研究負責人 Gabriel Goh 向 The Verge 透露,這項技術顯著提升文字渲染和綁定(binding)的能力,能更好地遵循指令,同時準確處理 10 至 20 個物件的複雜指令,遠超競爭對手 5 ~ 8 個的限制。
此外,GPT-4o 在圖像生成多方面實現突破:
- 更精確的文字渲染和文字整合:過去模型常難以生成清晰且位置準確的文字,GPT-4o 則能將將文字與圖像精確融合,並整合 GPT 豐富的知識,更適合快速製作資訊圖表、PTT 或海報。
- 多輪生成圖像:一句話就能 P 圖,可靈活調整長寬比,使用十六進位色碼指定精確顏色或是要求去背。還可利用聊天歷史,用戶可互動式精修圖像,保持多次生成間的一致性。
- 多模態輸入輸出(文本、影像):GPT‑4o 可以分析和學習使用者上傳的影像,將其細節無縫整合到其上下文中以引導影像生成。
- 多樣化的風格轉換:從手繪草圖到高解析度寫實風格,模型可靈活創建和轉換,滿足不同需求。
雖然生成速度稍慢於 DALL-E 3,OpenAI 強調品質提升值得這點等待。展示案例包括多格漫畫(角色一致性極高)、LOGO、資訊海報和餐廳菜單設計等等,展現其商業應用潛力。
OpenAI 執行長 Sam Altman 在直播中興奮表示:「這些圖像品質令人驚嘆,我幾乎不敢相信它們出自 AI!這是創意自由的新高峰。」
Create or transform images into a variety of styles with 4o image generation. pic.twitter.com/trEqLLZ9KL
— OpenAI (@OpenAI) March 25, 2025
📍相關報導📍
OpenAI 影片生成工具Sora正式上線!5大功能亮點、訂閱方案一次看
OpenAI首款AI代理「Operator」來了!幫你購物、訂票、叫外送…解決繁瑣網路任務