OpenAI 最新公開 Sora 模型,可根據文字提示生成長度一分鐘的影片,引發業界和社群的廣泛討論。社群更是有人驚呼這會危害整個影視產業。
(前情提要:ChatGPT將支援「AI影片生成」!Sam Altman揭露GPT-5重磅新功能)
(背景補充:OpenAI攜手台積電自製晶片?金融時報:想抵抗Nvidia恐斥資數百億美元… )
OpenAI 執行長 Sam Altman 在上個月中旬曾透露,下一代 ChatGPT 將是一款更全面的多模態模型(Fully multimodal),不僅延續目前的功能,還將新增「影片生成」的能力。
就在今(16)日凌晨,OpenAI 在 X 上介紹一款名為 Sora 的新模型,其建立在 DALL·E 和 GPT 模型的研究之上,可根據文字提示生成長度一分鐘的影片。儘管目前尚未向市場推出,但釋出的範例影片已引起社群廣泛討論。
隆重介紹 Sora,我們的文字轉影片模型。
Sora 能夠創造長達 60 秒的影片,特色包括高度細緻的場景、複雜的攝影機運鏡,以及表情豐富的多角色互動。
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Sora 模型的能力
OpenAI 在官網中聲明,Sora 能夠產生具有多個角色、特定類型的運動以及主體和背景的準確細節的複雜場景。該模型不僅了解用戶在提示中提出的要求,也了解這些東西在物理世界中的存在方式,甚至可以在單一生成的影片中創建多個鏡頭,準確地保留角色和視覺風格。
除了能夠僅從文字指令生成影片外,這個模型還具有將現有靜態圖片轉化為影片的能力,能夠精準地將圖片內容動態化,並注重細節的表現。此外,它還能夠接續現有的影片內容,或是補充那些缺失的畫面。
官方釋出的幾個短影片範例,品質也令人驚奇,知名 Podcast 主持人及 AI 研究員 Lex Fridman 就回覆道:「哇。 這真是太神奇了!」,不少網友則回覆:「整個影視產業就因為這則推文而死亡了。RIP」、「你這樣做確實會危害相關工作」…等。
Sora 模型的弱點
不過,OpenAI 也指出當前的 Sora 模型仍存在弱點。它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係的具體實例。例如,一個人可能咬了一口餅乾,但之後餅乾可能沒有咬痕。
該模型還可能混淆提示的空間細節,例如混淆左右,並且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的運鏡軌跡。
OpenAI 表示,在將 Sora 模型整合到 OpenAI 的產品中之前,他們將採取多項重要的安全措施。具體來說,OpenAI 開放讓紅隊成員(red teamers)評估 Sora 可能帶來的危害或風險,他們是在錯誤信息、仇恨內容和偏見等領域的專家。
同時,他們也允許一些視覺藝術家、設計師與電影製作人進行測試,期待他們的反饋能改進模型,使其更好地服務於創意產業專業人士。
傳言 OpenAI 正開發搜尋引擎產品
另外還有個傳言是,《The Information》引述知情人士報導,OpenAI 正在開發一款網路搜尋產品,可能會挑戰 Google 的搜尋引擎王位,知情人士指出,該產品將部分使用微軟的 Bing 提供支援。
OpenAI 尚未正式確認該計劃,但該公司的目標是擴展其知識和網頁瀏覽能力,這可能會為該工具帶來可能性。
📍相關報導📍
Sam Altman 募資「7兆美元」要蓋十間半導體廠,全程委託台積電管理生產
V神分析「FTX倒閉和OpenAI管理危機」:對大眾透明負責多重要!
Sam Altman自產AI晶片計畫要「全球設廠」,微軟或願推OpenAI一把