下一代人工智慧可裝戴裝置的競賽已熱烈開打,以下將整理 Meta、Google、微軟、OpenAI、Apple等科技巨頭為這些 AI 裝置正在進行的工作。本文源自 The Information 報導,由 Founder Park 編譯、撰稿,元宇宙日爆整理。
(前情提要:「被App包圍」蘋果Vision Pro無邊界螢幕體驗,眼前視窗隨你擺佈 )
(背景補充:Meta Quest 3太實用衝擊社群!網友熊抱「二次元老婆」大喊過癮)
AI 需要新的硬體平臺,在科技巨頭看來這是一個共識,他們眼下寄予希望最大的,是可穿戴裝置,尤其智慧眼鏡。
Meta、Google、微軟、OpenAI 等 AI 領域的領先公司,希望將旗下視覺和語言相關的 AI 技術,融入智慧眼鏡和其他帶有攝影鏡頭的可穿戴裝置裡。
智慧可穿戴裝置,雖然是一個已經存在多年的行業,但多模態 AI 的突破性進展(不僅是文字、聲音,還有圖片表格物體手勢等視覺識別),讓巨頭對這一領域重新燃起了信心。
最近的例子之一,OpenAI 正在考慮將 GPT-4 Vision 的物體識別功能植入 Snapchat 的智慧眼鏡中。
雖然將這些技術應用到可穿戴裝置和移動裝置上還需時日,但這一進步預示著未來可能出現的語音啟用的 AI 助手,它們能夠實現科幻電影《Her》中的場景,為我們的日常生活帶來革命性的變化。無論是幫助學生寫論文、解答數學題,還是提供周圍環境的資訊,從翻譯路標到指導修車,這些助手的功能都將超越今日的智慧手機。
正如 Objective 公司的執行長、蘋果前工程經理 Pablo Mendes 所說,AI 模型將成為我們生活中不可或缺的一部分,不僅將融入我們的電腦和手機,還會出現在更多裝置中。他認為,這一切離我們並不遙遠。
手機還是當下的重點,Google 準備把小尺寸模型直接塞到智慧手機裡。但其他公司正在探索將技術應用在全新型別的裝置裡。最近,Meta 展示了與雷朋聯合開發的智慧眼鏡,搭載了一個多模態 AI 語音助手的 demo 版本。
智慧助手能夠描述佩戴者看到的內容,推薦哪種褲子和襯衫好搭配,也能將出版物上的西班牙文字翻譯成英文等等。
亞馬遜 Alexa AI 團隊也在討論一個新的 AI 裝置,同樣具備視覺識別功能。
矽谷對帶攝影鏡頭的可穿戴裝置有一種執念。Google、微軟長期致力於開發 AR 頭顯,但成果怎樣不好說。他們試圖在頭顯的 OST 螢幕上顯示數位影像,指導佩戴者完成特定任務、提供導航或者視野中人物、事物的資訊。但因為光學技術的限制,目前這一能力還很難普及。蘋果計劃明年推出的 Vision Pro 頭像上搭載一些 AR 功能,但初期可能並不會配備多模態 AI。
大模型的出現改變了一切。得益於多模態大模型,未來的 AI 能夠通過對外的攝影鏡頭「觀察」佩戴者的行為,並對此進行分析、評論。但要將 LLM 縮小到足以在隨身裝置上高效執行、快速響應,仍需克服很多挑戰。
此外,可穿戴裝置上的攝影鏡頭,能否為社會所接受,也存在隱私和道德的問題。
下面是一些頂級巨頭和 AI 開發者為實現這類產品所做的工作。
Google:拿破崙必不可能輕易回到他的滑鐵盧
上週 Google Gemini 的宣傳影片火爆科技圈,他們展示了非常強大的多模態能力,AI 能夠識別一個人正在模仿《駭客帝國》的招牌動作,學習如何玩一款涉及地圖的遊戲等等。
最領先的模型 Gemini Ultra 還未正式開放,雖然理論上模型能夠完成視訊展示的任務,但視訊並非 100% 真實情況,不論是響應時間,還是前置條件,顯然都還沒到達視訊展示的水平。
據瞭解 Google 消費硬體戰略的內部人士透露,實現這一體驗或許還需要數年時間,因為這種環境感知的計算需要大量能源,並且 Google 在高階可穿戴裝置上栽過坑(Google Glass)。
作為起步,Google 正重新設計 Pixel 手機的作業系統,以整合更小型的 Gemini 模型。據《The Information》週四報導,這些模型將支援 Pixie —— 一款 AI 助手,它通過執行復雜的多模態任務,比如提供指引至最近的商店購買使用者拍攝的產品,旨在超越 Siri 等現有助手。
延伸閱讀:實測》Google承認造假「Gemini」,解答數學題果真不堪?
對於 Google 來說,一種能夠學習和預測人們對周圍世界所需或想要的資訊的 AI 裝置是剛需,因為 Google 核心的搜尋技術,可以以數位化的方式實現這一點。Google 以 Google Glass 進行了此類裝置的初步嘗試,但由於其設計笨拙且實用性有限,該專案在十年前告敗。
隨後,Google 專注於基於攝影鏡頭的處理技術,並推動 Android 手機製造商將手機攝影鏡頭變成「第三隻眼睛」的,可以掃描環境並將影像上傳到 Google 的雲端系統進行分析。Google 本意是想用這種方式為使用者提供影像中物體的更多資訊,最終,這一構想落地在了 Google Lens 應用中。
據知情人士透露,Google 最近放緩了開發類似眼鏡裝置的步伐,但仍在為這些裝置開發軟體。這些人表示,Google 計劃將該軟體授權給硬體製造商,類似於其為三星等手機製造商授權 Android 系統的方式。
OpenAI:Altman 一直有開發硬體的野心
可以說,今年 3 月份,正是 OpenA I—— 這家得到微軟支援的新創公司引發了對可穿戴 AI 裝置的競賽,當時他們展示了 ChatGPT 根據手寫的草圖構建一個網站的功能。OpenAI 的不少員工,包括 Andrej Karpathy,將語言模型比作作業系統,因為它們可以編寫和執行程式碼,訪問網際網路,檢索和引用檔案。
從那時開始,CEO Sam Altman 就表達了對開發一種新型的 AI 消費裝置的興趣,顯然是為了利用這些能力。今年早些時候,前 iPhone 設計師 Jony Ive 開始討論開發這樣一款裝置的可能性。雖然 OpenAI 沒有硬體團隊,但它可以與其他公司合作,比如 Snap 這樣的製造商或 AI 晶片設計公司。
巧合的是,Altman 還投資了 Humane,這是一家製造帶有攝影鏡頭的可穿戴「AI Pin」的公司。該公司也希望開發出能夠取代智慧手機的 AI 便攜裝置。
延伸閱讀:OpenAI想賣手機!傳合作蘋果前設計長Jony Ive、軟銀孫正義,打造「AI版iPhone」
Microsoft:小模型開路,正在為 HoloLens 開發 AI 軟體
最近,微軟的研究人員和產品團隊在多模態人工智慧領域取得了重大進展,這使得他們更加有信心擴展公司自己的語音助手,並研發適用於小型裝置的設備端小模型。根據專利申請和知情人士的說法,這項技術可以用於驅動輕便、經濟實惠的智慧眼鏡或其他硬體裝置。前幾天,微軟剛釋出了他們的 2.7b 的小模型 Phi-2,評測成績優於Google 的 Gemini Nano。
其中一些工作可能會基於微軟的 HoloLens,這是一款面向工廠或軍事單位等商業客戶的,昂貴而笨重的 MR 頭戴式顯示器。微軟目前正在為 HoloLens 開發一款 AI 軟體,使用者可以將頭戴式顯示器的前置攝影鏡頭對準物體,並與由 OpenAI 驅動的聊天機器人交談,聊天機器人可以識別這些物體。
延伸閱讀:微軟娶了ChatGPT,元宇宙就成了無味的前女友?
Apple: 硬體有了,模型……
隨著即將釋出的 Vision Pro,蘋果已經準備好利用多模態 AI 浪潮所需的所有硬體。但與競爭對手相比,蘋果在人工智慧的發展上落後了一些。蘋果在今年才開始認真研究大型語言模型,而之前只是進行了一些涉獵。目前還沒有跡象表明 Vision Pro 將在近期具備複雜的物體識別或其他多模態能力。(至少目前來說,與 iPhone 不同,由於隱私問題,Vision Pro 不會向開發者提供對原始相機資料的訪問許可權。)
儘管如此,蘋果公司已經花費多年時間完善 Vision Pro 的電腦視覺功能,使裝置能夠快速識別周圍環境,包括識別傢俱並判斷佩戴者是坐在客廳、廚房還是臥室。蘋果目前也在研究能夠識別影像和視訊的多模態模型。
然而,與其他正在開發的眼鏡相比,Vision Pro 體積龐大而笨重,並且不適合戶外佩戴。據報導,蘋果公司今年早些時候暫停了自己的 AR 眼鏡的研發,專注於推出頭顯產品,目前尚不清楚該專案何時會重新啟動。但這款裝置也是蘋果可能會融入多模態 AI 技術的一個方向。
延伸閱讀:蘋果頭盔Vision Pro下月量產!中國供應鏈傳佔60%、2025推平價版
Meta:年輕人就是跑得快
Meta CTO Andrew Bosworth 本週在 Instagram 上宣佈,公司開始在其 Ray-Ban 智慧眼鏡的第二代產品中測試多模態功能,並表示部分使用者將能夠優先體驗這一功能。
這些眼鏡由高通的新型晶片驅動。Meta 的一些高管認為,Ray-Ban 智慧眼鏡是未來 AR 眼鏡的先驅,這些未來的眼鏡將數位影像與佩戴者周圍的真實世界檢視相結合。公司計劃在未來幾年推出 AR 眼鏡,但遭遇了一系列挑戰:顯示技術的發展停滯,而且第一代智慧眼鏡據稱在市場上推廣並不成功。
然而,正如週二的公告所示,多模態 AI 的出現似乎重新激發了 Bosworth 及其團隊的熱情,他們相信眼鏡在短期內能為消費者帶來新的驚喜,無論眼鏡是否配備更高階的顯示技術。
延伸閱讀:Meta頭戴裝置「Quest 3」實測心得:輕量設計、運算速度成Apple強勁對手
Amazon:一款支援多模態 AI 的新裝置即將推出
據瞭解該專案的人士透露,今年夏天,在亞馬遜的半年度產品規劃過程中,Alexa 團隊的工程師們正計劃推出一款能執行多模態 AI 的新型裝置。團隊目前致力於降低在裝置上處理影像、視訊和語音的 AI 對計算和記憶體的需求。
目前還不清楚這個專案是否獲得資助,也不清楚該裝置打算為客戶解決什麼問題。不過,這個專案與亞馬遜銷售十多年的 Echo 語音助手裝置系列是不同的。
Alexa 團隊多年來致力於新型裝置的開發,包括一款名為 Echo Frames 的智慧音訊眼鏡。但目前尚不明確這款產品是否能有助於亞馬遜開發具備視覺識別功能的裝置,因為它沒有螢幕顯示功能或攝影鏡頭。
📍相關報導📍
Google最強AI「Gemini」爆造假!谷歌承認影片經剪輯、非即時語音、有用 Prompt
Google新AI模型Gemini為何強大?iKala創辦人:ChatGPT難以對抗谷歌的生態版圖
輾壓GPT-4!Google出殺手鐧「Gemini原生多模態模型」: AI 理解力首超人類、離線可用、搭載Pixel 8 Pro