新創公司 Figure AI 自行研發出一款用於人形機器人的全新 AI 模型「Helix」,可以同時控制 2 個機器人,並且遇到從未見過的物品也能順利應對執行,而這些特點則是 Figure AI 進軍「家庭型機器人」這一藍海市場的底氣。
(前情提要:馬斯克「地表最強 AI」Grok 3 免費向用戶開放:直到伺服器崩潰為止!(含教學) )
(背景補充:OpenAI首款AI代理「Operator」來了!幫你購物、訂票、叫外送…解決繁瑣網路任務 )
人形機器人新創公司 Figure AI 創辦人兼執行長 Brett Adcock,在昨日宣布一款用於人形機器人的全新 AI 模型「Helix」。就在幾週前,該公司才決定與 OpenAI 放棄合作,當時 Brett Adcock 放話會在 30 天內自主研發並推出「人形機器人上從未見過的東西」,目前來看似乎指的就是 Helix。
首創雙系統 VLA 模型控制機器人
據科技媒體 Tech crunch 報導 ,Helix 是一個通用的「視覺-語言-動作(Vision-Language-Action, VLA)模型」,它利用視覺和語言指令來處理資訊。目前該類別中最知名的案例是 Google DeepMind 的 RT-2,該模型透過結合影片和大型語言模型(LLM)來訓練機器人。
而 Helix 的運作方式也與之類似,透過結合視覺數據與語言提示來即時控制機器人。Figure 表示:
Helix 展現了強大的物體泛化能力,能夠透過自然語言指令拾取數千種從未見過的家庭用品,無論其形狀、大小、顏色或材質如何。
在理想的情況下,用戶只需要像機器人發出語音指令,他就能執行對應動作。
而 Helix 的突破之處在於,它是首創的雙系統 VLA 模型。根據 Figure AI,Helix 可以針對人形機器人的上半身進行高速、靈巧的控制。這是因為他們過去遇到的困難:「採用 VLM(視覺大語言模型)雖然通用但不快,使用機器人視覺運動策略快但是不通用」。因此,Helix 整合兩個互補系統來解決問題。
可同時控制兩台機器人的 VLA 模型
另外,Figure 還提供一些機器人實際操作的範例,例如:「把餅乾袋遞給你右邊的機器人」或「從左邊的機器人接過餅乾袋,然後放入開著的抽屜裡。」
不過這也讓人好奇,為什麼是兩台機器人進行示範。Figure 補充表示,因為 Helix 被設計為能同時控制兩個機器人,使其互相協助完成各種家務任務,並且 Helix 也是首款能同時操控兩台機器人的 VLA。這一突破使機器人能夠協同處理長序列操作任務,即便面對從未見過的物品,也能順利應對:
要讓機器人在家庭環境中發揮實際作用,它們需要具備隨時生成智慧行為的能力,特別是對於從未見過的物品
另外,Figure AI 還表示,他們在測試中展示了兩大突破:
- 這些機器人成功操控在訓練過程中沒見過的雜貨商品,展現了對不同形狀、尺寸和材質的強大通用能力。
- 兩台機器人使用相同的 Helix 模型權重,無需針對個別機器人進行特定訓練或明確分配角色。

家庭型機器人相較於工業型更為複雜
不過,隨著 Helix 的發布,Figure 也釋放了一個明確的信號,即是 Figure AI 要進軍「家庭型機器人」這一藍海市場。但 Figure 也表示,家庭型機器人的訓練可能會耗費大量的金錢、人力與時間成本:
目前,即便只是教機器人執行一個新的行為,也需要大量人力投入:要麼是花費數小時由擁有博士學歷的專家進行手動編程,要麼是透過成千上萬次的示範訓練。
雖然 Figure 釋出的 Helix 模型能夠讓機器人夠做出複雜的操作,但需要注意的是,與目前許多的人形機器人領域研究一樣,Helix 仍處於非常早期的階段,後期的成本花費目前還難以估計。
📍相關報導📍
OpenAI推出o3模型!推理能力再推高等級,為下一代AI鋪路