OpenAI 正式推出首個 AI 代理「Operator」,能自主操控瀏覽器執行各種任務,包括預訂旅行、訂購外賣、填寫表單等,並支援多任務處理與個性化設置。Operator 目前限美國專業版用戶使用。
(前情提要:ChatGPT o3-mini 即將發布!OpenAI 產品長加碼:Q1 上線 AI Agents 工具 )
(背景補充:OpenAI、軟銀、甲骨文啟動史上最大 AI 基建計劃「Stargate Project」:投資 5000 億美元在美設資料中心 )
AI 代理(agent)是今年 AI 產業和加密領域都十分重視的賽道。自去年 10 月底 Anthropic 的「Computer Use」:一個能像人類一樣操作電腦介面的 AI 系統問世後,AI 代理的發展又展開更廣泛的想像。
而在今日,生成式人工智慧(AI)龍頭 OpenAI 也正式推出自己的首個 AI 代理「Operator」,成為 AI 社群的重磅話題。
Operator 功能與使用範圍
據了解,Operator 是一個可以自主控制瀏覽器,為用戶執行各種任務的 AI 代理。用戶只需描述想要完成的任務,Operator 就可以處理剩下的工作,像是上 Booking.com 預訂旅行和餐廳、上 UBER 訂購雜貨和外賣、表單填寫、幫你搜集購物清單、創建迷因…可以同時處理多項任務(就像我們在瀏覽器開多個分頁)。
此外,它還能記住用戶的偏好和設定,提供更個性化的服務;用戶也能隨時介入操作,調整操作或終止任務。
除了功能的便利性外,Operator 同樣重視用戶的隱私安全。官方稱用戶可以刪除所有瀏覽記錄,並一鍵登出所有網站。同時,OpenAI 提供了隱私設定選項,用戶可以選擇關閉「改善模型」功能,避免其數據被用於模型訓練。
Operator 目前是研究預覽版,僅對美國地區的專業版用戶開放(訂閱費用為每月 200 美元),用戶可以透過該網址 Operator.ChatGPT.com 訪問。未來將擴展至 Plus、Teams 和 Enterprise 用戶。
I got early access to ChatGPT Operator.
It's OpenAI's new AI agent that autonomously takes action across the web on your behalf.
The 9 most impressive use cases I’ve tried (videos sped up):
1. Ordering dinner ingredients based on a picture and a recipe pic.twitter.com/tdbApPELD4
— Rowan Cheung (@rowancheung) January 23, 2025
運作原理
Operator 基於名為「Computer-Using Agent (CUA)」的新模型運作。CUA 將 GPT-4o 的視覺處理能力與強化學習帶來的高級推理結合起來,專門訓練來與圖形用戶界面 (GUI) 互動,例如螢幕上的按鈕、菜單和文字欄位。
透過截圖,Operator 可以「看見」界面內容,並通過使用滑鼠和鍵盤的操作來「互動」,從而實現無需 API 整合的網頁操作。
當遇到挑戰或出錯時,Operator 會運用推理能力進行自我修正;如果無法解決問題,則會將控制權交還給用戶,確保操作流暢並能與用戶協同完成任務。
OpenAI 表示,已經與一些合作夥伴建立合作,包括 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等,以確保 Operator 在遵守既定規範的同時滿足實際需求。
Operator 限制
不過,據創業家 Greg Isenberg 分享,Operator 也有一些限制。例如它無法處理付款或登錄相關的任務、可能會在複雜界面中卡住、對 CAPTCHAs(驗證碼)無能為力,且每天的使用次數有限。此外,歐洲地區的推出時間尚未確定,根據 OpenAI CEO Sam Altman 的說法,還「需要一段時間」。
展望未來,Operator 將開放 API,為開發者提供支持,同時持續增強功能並擴大用戶覆蓋範圍,未來將把該功能直接整合進 ChatGPT。
📍相關報導📍
OpenAI 最強模型 o3「遭爆作弊」疑用特權提前獲測試答案,數學能力造假?