Google重磅發布AI遊戲模型「Genie」！一張圖生成虛擬互動世界，亮點搶先看

Google DeepMind 公佈了其最新研發的 AI 模型 Genie，能夠通過文本、合成影像、照片甚至草圖，生成可玩的交互式環境和可控虛擬世界，這能與 OpenAI 的 Sora 一較高下嗎？
（前情提要：機器人革命來襲！輝達、OpenAI、亞馬遜..豪砸6.75億鎂投資的 Figure AI 是什麼來頭？）
（背景補充：OpenAI的Sora最大敵人？馬斯克：特斯拉影片生成AI「全世界最強」）

本文目錄

就當 OpenAI 在 2 月中推出「一句話生成 60 秒超真實影片」的生成模型 Sora 驚豔全球後，Google 旗下 AI 技術研發機構 DeepMind 開發人員 Tim Rocktäschel 前（26）日在社交平台 X 上再投下震撼彈，公最新開發的 AI 基礎世界模型 Genie（Generative Interactive Environments）的範例影片。

聲稱能夠通過文本、合成影像、照片甚至一張草圖，就可以生成可玩的互動環境和可控虛擬世界。

I am really excited to reveal what @GoogleDeepMind's Open Endedness Team has been up to 🚀. We introduce Genie 🧞, a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc

— Tim Rocktäschel (@_rockt) February 26, 2024

Genie 能夠自主學習

雖然 Genie 模型目前尚未向公眾開放，但 Tim 解釋稱，Genie 的一大特征是在大量公開的網路影片數據集上進行沒有任何動作標記的訓練，且在無人監督的情況下，能夠理解遊戲世界中角色的移動、控制和行為，並根據用戶的操作來預測未來幀，從而創建功能性和可玩性：

我們使用了公開的、長達 20 萬小時的 2D 遊戲影片進行訓練，且以無人監督的方式，Genie 能自主學習網路影片中各種角色的運動、控制與動作。

一張圖即可創建 2D 遊戲

Genie 的一大特色就是根據文字、或圖片來創建一個能夠與用戶產生互動的 2D 遊戲世界，Tim 解釋稱：

我們的模型能夠將任何圖像轉換為可玩的 2D 遊戲世界，甚至將一張草圖變為現實。

另值得一提的是，Tim 的介紹似乎還指出 Genie 不僅能夠打造遊戲，還具有向其他 AI 模型傳授有關 3D 世界知識的潛力：

我們在沒有動作資訊的機器人控制模型（RT-1）上訓練 Genie，並證明我們也可以在那裡學習並打造出一個可控制動作的模擬器，我們認為這是邁向 AGI 通用世界模型充滿希望的一大步。

這樣看來，似乎未來即使在數據缺乏明確動作指令的情況下，實體機器人們甚至也能夠在現實世界中完成從沒被訓練過的任務。

Genie 能挑戰 OpenAI 的 Sora？

人工智慧龍頭公司 OpenAI 發佈的最新影片生成模型 Sora，允許用戶通過文本生成逼真的影片，OpenAI 更是將其稱為「世界模擬器」。

對此，Tim 大方承認 Sora 的確令人印象深刻，但他也提出，世界模型也需要「行動」，而 Genie 正是一個動作可控的世界模型，具有推斷能力。

日後 Genie 正式發佈後，會出現怎樣的效、對產業帶來什麼樣的革新？是否能與 Sora 一較高下？值得我們持續關注。

Admittedly, @OpenAI’s Sora is really impressive and visually stunning, but as @yanlecun says, a world model needs *actions*. Genie is an action-controllable world model, but trained fully unsupervised from videos. So how do we do this?https://t.co/cpxDLKYqLr

— Tim Rocktäschel (@_rockt) February 26, 2024