TikTok 母公司字節跳動近期發佈了最新 AI 模型 OmniHuman-1,該模型允許用戶僅透過一張靜態圖片加上搭配音頻,就能生成栩栩如生的影片,包括人物說話時的口型、手勢等細節,都能得到細緻的刻畫。
(前情提要:被DeepSeek逼急?OpenAI免費上線新推理模型o3-mini!Altman首度承認:閉源策略錯了)
(背景補充:OpenAI怒控DeepSeek侵權創作者反酸:最大的小偷喊抓賊、美國海軍下令封殺DeepSeek)
在中國 AI 新創公司 DeepSeek 上月向全球 AI 界投下震撼彈之後,TikTok 母公司字節跳動近期也吸引了全球 AI 界的關注。據《Forbes》報導,字節跳動在 2 月 5 日公佈了其最新 AI 模型 OmniHuman-1,該模型允許用戶僅透過一張靜態圖片加上搭配的音頻,就能生成一個栩栩如生的影片,包括人物說話時的口型、手勢等細節,都能得到細緻的刻畫。
目前社群上已經有釋出部分 OmniHuman-1 使用成果,例如:黃仁勳唱 Rap、愛因斯坦演講、泰勒絲唱青鳥…效果相當逼真。紐約大學教授 Samantha G. Wolfe 就表示:
從技術角度來看,僅僅根據一張圖片,就能創造出來看起來真的會說話、會動的人物形象,這非常令人著迷。
以下截取 OmniHuman-1 實際演示結果 👇
Chinese ByteDance just announced OmniHuman-1 🤯
This AI can make a single image talk, sing, and rap expressively with gestures from audio or video input.
Here are 7 wild examples: pic.twitter.com/GDytBwyb9B
— Johanne | AI Tools & News (@shedoesai) February 6, 2025
— Johanne | AI Tools & News (@shedoesai) February 6, 2025
OmniHuman-1 特性有哪些?
據官方說明,OmniHuman-1 的關鍵特性包括:
- 多模態輸入:OmniHuman-1 模型支援文本、語音和影片等多種輸入形式,由此生成的數位人物可以在不同的場景中展示出豐富的情感與動作;
- 高質量輸出:OmniHuman-1 由於具備先進的深度學習技術,能夠生成包含真人、動漫人物、3D 人物等高質量數位形象,可用於直播、娛樂、教育等眾多場景;
- 實時生成:OmniHuman-1 具備實時生成的能力,在互動中,用戶能夠即時獲得數位人物的反饋;
- 表現力強:在多種驅動模式下,由 OmniHuman-1 生成的數位人物能夠完成具有挑戰性的動作,進一步提升了影片的真實感和表現力。
OmniHuman-1 引人擔憂
不過雖然 OmniHuman-1 的強大功能讓人讚歎 AI 可能為人類生活帶來的改變,當前社群對這一模型也產生了一些擔憂,具體來看包括:
- 身份冒用:該模型看起來能夠精確複製特定個人的容貌和動作,可能會被用於惡意模仿和身份詐欺;
- 資訊操縱:當前 AI 最令人擔憂的負面影響之一,就是可能會催生網路虛假資訊的氾濫,這可能嚴重影響公共輿論和社會認知;
- 隱私侵犯:該模型的推出,也可能導致惡意分子在未經許可的情況下,擅自重建和操縱個人形象,例如利用某明星的圖片製作色情影片等,可能引發倫理問題。
不過要說明的是,當前雖然字節跳動已經推出 OmniHuman-1 模型,但目前該模型尚未正式投入商業使用,官方也尚未清楚說明具體釋出時間。
另一方面,字節跳動掌管著抖音這一中國當前最熱的社交媒體平台,但 OmniHuman-1 的推出似乎在中國社群內部的討論度還不高,頗令人玩味。
📍相關報導📍
OpenAI 縮了!Altman:暫無計畫控告 DeepSeek,專心打造更優質產品