OpenAI 在最新的春季發表會上推出了其最新旗艦多模態模型 GPT-4o。這款 AI 可同時理解並生成文字、語音和圖像,具備即時的語音與視覺反應能力,顯著提高了與用戶的互動質量。
(前情提要:iPhone將整合ChatGPT!彭博:Apple與OpenAI達成合作、最快六月發表 AI Siri )
(背景補充:OpenAI傳下周一將發布ChatGPT搜尋引擎!路透:與Google直球對決 )
OpenAI 於今日凌晨的春季發表會上推出新模型「GPT-4o」,再次成為社群話題中心!GPT-4o 作為 OpenAI 最新的旗艦多模態模型,可以更快速理解文字與圖像,且加強語音與視覺能力。讓該模型可以更輕鬆地與用戶進行流暢地對話,且能對鏡頭前的畫面進行即時回應。
目前 GPT-4o 已開放給所有用戶使用,官方表示未來幾週,OpenAI 將向訂閱用戶推出 GPT-4o 的語音功能,且訂閱用戶擁有比免費用戶多五倍的容量上限。
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
GPT-4o 顯著提升語音與視覺能力
與 GPT-4 Turbo 相比,GPT-4o 的速度提高了兩倍,價格減半,並且有五倍的更高速率限制。據 OpenAI 說明,GPT-4o(o 代表 omni)是邁向更自然的人機互動的一步,它接受文字、音訊和圖像的任意組合作為輸入,並產生文字、音訊和圖像的任意組合輸出。
它可以在短至 232 毫秒的時間內回應音訊輸入,平均為 320 毫秒,這與人類在對話中的回應時間相似。
先前的語音模式依賴三個不同的模型:語音轉文本、GPT-3.5 或 GPT-4 處理文本並生成回應、文本轉語音。而 GPT-4o 作為多模態模型,能同時處理文本、視覺和語音的輸入與輸出,這有助於模型更全面地理解和生成信息,並提升回應效率。
與 GPT-4o 對話更像是和真人溝通
雖然 OpenAI 在這次的春季新品發表會上,並不是推出謠傳中的搜尋引擎或是外界期待已久的 GPT-5,但 GPT-4o 的即時溝通能力令人驚艷,無延遲地獲得即時回答,讓不少社群評論電影「Her」的世界正在逐步實現。
OpenAI 技術總監穆拉蒂指出,這個新語音和視訊模式,將於未來數周整合進 OpenAI 產品中,同時將免費提供給所有用戶使用,而付費用戶則能獲得更大的容量。
📍相關報導📍
OpenAI正面對決Google!驚傳5/9發布ChatGPT搜尋引擎,挑戰谷歌本命產品