Google 自主研發的多模態大模型 Gemini Ultra 宣稱在多個方面碾壓 GPT-4V,聽說讀寫能力樣樣通。不過近日有網友發現其展示功能影片造假、考試成績也有疑慮…
(前情提要:Google最強AI「Gemini」爆造假!谷歌承認影片經剪輯、非即時語音、有用 Prompt)
(背景補充:Google新AI模型Gemini為何強大?iKala創辦人:ChatGPT難以對抗谷歌的生態版圖)
最大、最有能力、「最佳」、「最高效」,Google為其 12 月 7 日新發布的多模態大模型 Gemini 冠上了好幾個 「最」,與 OpenAI GPT-4 「比高還高」 的勝負欲呼之欲出。
區分為 Ultra、Pro、Nano 三個尺寸的 Gemini,不僅號稱在各種 「AI 考試」 中得了 「高分」,演示影片裡顯示的 Gemini 簡直就是 「聽說讀寫」 樣樣拿的 「超級工具」。
按照官方說法,Gemini Ultra 最為強大,兼具多模態能力、專業性與準確度,能以圖文、語音的形式輸入輸出不說,具體還能批改數學作業,指導運動員的動作與發力,還能夠執行復雜的繪製圖表、編碼等任務,在 MMLU(大規模多工語言理解)測試裡甚至 「超越了人類專家」。
不過,目前能供 C 端普通使用者體驗的是 Gemini Pro 版,按官方定位是 「在各種任務上擴充套件的最佳模型」,已整合至Google此前釋出的對話機器人 Bard 中;「在裝置上執行任務的最高效模型」 Gemini Nano 將置入Google智慧手機 Pixel8 Pro;而 「最大且最有能力,適用於高度複雜任務」 的 Gemini Ultra,Google的計劃是在明年年初開放給開發者和企業使用者。
那麼,Gemini 真的比 GPT-4 強嗎?
有網友發現,Google給出的 Gemini Ultra 「考試成績」 用的是自家的 「試卷」(測試方法);而彭博社指出,Gemini 的演示影片非即時,網友們也覺得該影片有剪輯痕跡。
《元宇宙日爆》實測了 Bard 的數學能力,該對話機器人已植入了精調的 Gemini Pro 模型,結果顯示,Bard 對複雜的數學題仍有理解錯誤,尤其是識圖方面。
Google展示 Gemini 「聽說讀寫」 能力
Gemini 是Google從頭構建的多模態人工智慧大模型。儘管在時間上落後 GPT-4 許多,但被Google以 「能力最強」 對外推出,「強」 的一面是 Gemini 的多模態能力。
它能夠同時處理和解析文字、影象、音訊、影片以及程式碼等多種資料型別,也就是說,使用者可以將各種形式的資訊輸入給 Gemini,它不僅能理解,還能分析甚至按你的需求處理任務。
目前,Gemini 還在 1.0 版,按規模不同分為 Ultra、Pro 和 Nano。Ultra 版本是適用於高度複雜的任務,而 Pro 版本則專注於多工處理,Nano 版本則針對移動裝置上的應用。三種版本有針對性地適用於多個不同場景,且在多項基準測試中展現出超群實力。
Google官方放出的宣傳影片展示了 Gemini 超強的多模態能力,相信看完後你會驚呼。
Let's go hands-on with #GeminiAI.
Our newest AI model can reason across different types of inputs and outputs — like images and text. See Gemini's multimodal reasoning capabilities in action ↓ pic.twitter.com/tikHjGJ5Xj
— Google (@Google) December 6, 2023
「超級模型」 Gemini Ultra 的背後有Google釋出的測試資料支撐。在 32 個廣泛用於測評大型語言模型(LLM)的學術基準中,它在 30 個上效能超過了大模型領域當前的技術水平。
Gemini Ultra 號稱以 90.0% 的得分成為第一個在 MMLU(大規模多工語言理解)上 「勝過人類專家的模型」,該測試使用數學、物理、歷史、法律、醫學和倫理學等 57 個學科的組合來測試世界知識和解決問題的能力。Gemini 在包括文字和編碼在內的一系列基準測試中超越了目前的技術水平。
MMLU 是一種針對大模型的語言理解能力的測評,包含了 57 個關於人類知識的多選題回答任務,涵蓋了初等數學、美國歷史、電腦科學、法律等,難度覆蓋高中水平到專家水平的人類知識,是目前主流的的大模型語義理解測評之一。
從Google給出的測試結果來看,Gemini 在理解複雜資料和執行高階任務方面將對 GPT-4 構成強有力的競爭。
由於從一開始構建就基於多模態訓練,Gemini Ultra 理論上對文字、圖片、語音、影片、程式碼等各種形態的資訊都能理解,這就給 AI 應用和使用場景帶來了更多可能性。
例如在教育領域,藉助 Gemini Ultra 的多模態推理技能,凌亂的手寫筆記能被理解,學生解題時出錯的步驟能被發現,然後給出題目的正確解答和過程。這一套下來,不能說要淘汰教師吧,至少老師們也得到了一個高能 AI 助手。
在影片的理解與推理上,Gemini Ultra 甚至展現出 「足球教練」 的素養,能分析運動員的動作與發力,還會給出具體的改進建議。
對於複雜的影象理解、程式碼生成、指令追蹤,Gemini Ultra 也不在話下。輸入影象與提示次 「我希望你採用左上角子圖中描繪的函式,將其乘以 1000,然後將其新增到左下子圖中描繪的函式中,生成 matplotlib 程式碼單個結果圖」 後,Gemini Ultra 能夠完美的執行逆圖形任務來推斷生成繪圖的程式碼、執行額外的數學轉換並生成相關程式碼。
從Google給出的這些案例看,Gemini Ultra 簡直是 「地表最強」 的大模型,觀眾朋友們最想知道的是,這個大模型界的 「超級賽亞人」,咱啥時候能用上?
按照Google的披露,從 12 月 6 號開始,Bard 就會上載 Gemini Pro 的精細調整版本,用於更高階的推理、規劃、理解等,這是 Bard 自推出以來的最大升級。
需要注意的是,集成了 Gemini Pro 的 Bard 只提供英語支援,可在全球 170 多個國家和地區使用,計劃在不久的將來擴充套件到不同的模態,支援新的語言和地區。也就是說,中文使用者目前還無法完美體驗 Gemini Pro。
Gemini Nano 最先在Google的 Pixel 8 Pro 智慧手機上應用,從 WhatsApp 開始,明年將支援更多的訊息應用。
在未來幾個月中,Gemini 還將在更多的產品和服務中推出,包括 Search、Ads、Chrome 和 Duet AI。也就是說,Google的搜尋引擎中也將輸入 Gemini 能力。
至於 「最強」 的 Gemini Ultra,普通使用者還得等等。Google說,它正在進行信任和安全性檢查,在推出前還得通過對人類回饋的微調和強化學習(RLHF)的進一步改進。
在這個過程中,Gemini Ultra 會有選擇地給客戶、開發人員、合作伙伴以及安全和責任專家拿來早期實驗,等待回饋,然後在明年初向開發人員和企業客戶開放。
Ultra 的 MMLU 「試卷」 疑為Google版
展示的是最強的 Gemini Ultra,但推出和使用要緩一緩,Google這樣的操作很快就惹來了懷疑,真比 GPT-4 強嗎?
彭博社就出來 「打臉」 說,Google的模型和 OpenAI 相比還仍有差距,現在這能力也僅憑演示,而影片演示還是錄製的,又不即時,很可能是 「精心調整的文字提示與靜態影象」。彭博社還指出,Gemini 的回答需要其他資訊的輔助,在真正的互動中需要暗示性很強的提示。
圍觀演示影片的網友們也覺得,影片中有很明顯的剪輯痕跡,「強大的能力存在水分」。
而Google給 Gemini Ultra 考試的 MMLU 測評,被網友指出用的是自家出的 「試卷」。在 57 個科目的多選題測試中,得了 90 分的 Ultra,底下分明標著 「CoT@32*」,這是Google自己除錯的測評方案。如果採用和 GPT-4 同樣的標準,它的得分只有 83.7,還不如得分 86.4 的 GPT-4。
學術上的事情太專業,好在Google已經把 Gemini 植入了 Bard,儘管用的是 Utral 的低配版 Pro,但也號稱能多工處理,這是普通大眾最能直接測試 Gemini 的方式了。
《元宇宙日爆》直接選用了數學題,因為 ChatGPT 對數學就不太精通,而有唯一正確性的數學被 OpenAI 視作通往 AGI 的基礎,咱來看看被輸入 Gemini 能力的 Bard 是否擅長數學。
我們統一用英文進行提問,題 1 為求算圓錐體積,題 2 為稍難的幾何證明題。
測試結果表明,Gemini Pro 能夠準確識別影象以及圖片內的文字,也能夠正確解決簡單數學問題,但在處理複雜數學題時,仍然存在明顯錯誤。題 2 中的錯誤就很明顯,Bard 在第 2 步將 EG 與 AB 兩條線錯誤地證明為相互垂直。
這難道是因為 Bard 用的是 Gemini Pro 而顯得不夠強大?那我們只能等 Ultra 加入再測試了。
而會引入智慧手機 Pixel 8 Pro 的 Gemini Nano,將應用在 「記錄器摘要」 和 「Gboard 智慧回覆」 兩項功能中。
按Google說法,即使手機不連網,記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要;而智慧回覆功能類似結束通話電話後的自動回覆,Gemini Nano 可以識別來信的內容,生成對應的回覆。不過,這兩項功能,目前也只支援英文文字的識別。
按照 DeepMind 曾提出的 AGI 評估框架,在 AGI-1 階段,人工智慧將能夠跨領域和跨模態地進行學習和推理,在多個領域和任務上表現出智慧,如問答、摘要、翻譯、對話等,實現與人類和其他 AI 進行基本的溝通和協作,感知和表達簡單的情感和價值。
綜合 Google 官方釋出與實際測試體驗來看,值得期待並有希望超越 GPT-4 模型的仍是尚未公開發布的 Ultra 版本,如果這個版本的多模態能力真能如演示般表現,那麼 Google 距離它定義的 AGI 也就不遠了。
📍相關報導📍
輾壓GPT-4!Google出殺手鐧「Gemini原生多模態模型」: AI 理解力首超人類、離線可用、搭載Pixel 8 Pro