實測》Google承認造假「Gemini」，解答數學題果真不堪？

Google 自主研發的多模態大模型 Gemini Ultra 宣稱在多個方面碾壓 GPT-4V，聽說讀寫能力樣樣通。不過近日有網友發現其展示功能影片造假、考試成績也有疑慮…
（前情提要：Google最強AI「Gemini」爆造假！谷歌承認影片經剪輯、非即時語音、有用 Prompt）
（背景補充：Google新AI模型Gemini為何強大？iKala創辦人：ChatGPT難以對抗谷歌的生態版圖）

本文目錄

最大、最有能力、「最佳」、「最高效」，Google為其 12 月 7 日新發布的多模態大模型 Gemini 冠上了好幾個「最」，與 OpenAI GPT-4 「比高還高」的勝負欲呼之欲出。

區分為 Ultra、Pro、Nano 三個尺寸的 Gemini，不僅號稱在各種「AI 考試」中得了「高分」，演示影片裡顯示的 Gemini 簡直就是「聽說讀寫」樣樣拿的「超級工具」。

按照官方說法，Gemini Ultra 最為強大，兼具多模態能力、專業性與準確度，能以圖文、語音的形式輸入輸出不說，具體還能批改數學作業，指導運動員的動作與發力，還能夠執行復雜的繪製圖表、編碼等任務，在 MMLU（大規模多工語言理解）測試裡甚至「超越了人類專家」。

不過，目前能供 C 端普通使用者體驗的是 Gemini Pro 版，按官方定位是「在各種任務上擴充套件的最佳模型」，已整合至Google此前釋出的對話機器人 Bard 中；「在裝置上執行任務的最高效模型」 Gemini Nano 將置入Google智慧手機 Pixel8 Pro；而「最大且最有能力，適用於高度複雜任務」的 Gemini Ultra，Google的計劃是在明年年初開放給開發者和企業使用者。

那麼，Gemini 真的比 GPT-4 強嗎？

有網友發現，Google給出的 Gemini Ultra 「考試成績」用的是自家的「試卷」（測試方法）；而彭博社指出，Gemini 的演示影片非即時，網友們也覺得該影片有剪輯痕跡。

《元宇宙日爆》實測了 Bard 的數學能力，該對話機器人已植入了精調的 Gemini Pro 模型，結果顯示，Bard 對複雜的數學題仍有理解錯誤，尤其是識圖方面。

Google展示 Gemini 「聽說讀寫」能力

Gemini 是Google從頭構建的多模態人工智慧大模型。儘管在時間上落後 GPT-4 許多，但被Google以「能力最強」對外推出，「強」的一面是 Gemini 的多模態能力。

它能夠同時處理和解析文字、影象、音訊、影片以及程式碼等多種資料型別，也就是說，使用者可以將各種形式的資訊輸入給 Gemini，它不僅能理解，還能分析甚至按你的需求處理任務。

目前，Gemini 還在 1.0 版，按規模不同分為 Ultra、Pro 和 Nano。Ultra 版本是適用於高度複雜的任務，而 Pro 版本則專注於多工處理，Nano 版本則針對移動裝置上的應用。三種版本有針對性地適用於多個不同場景，且在多項基準測試中展現出超群實力。

Google官方放出的宣傳影片展示了 Gemini 超強的多模態能力，相信看完後你會驚呼。

Let's go hands-on with #GeminiAI.

Our newest AI model can reason across different types of inputs and outputs — like images and text. See Gemini's multimodal reasoning capabilities in action ↓ pic.twitter.com/tikHjGJ5Xj

— Google (@Google) December 6, 2023

「超級模型」 Gemini Ultra 的背後有Google釋出的測試資料支撐。在 32 個廣泛用於測評大型語言模型（LLM）的學術基準中，它在 30 個上效能超過了大模型領域當前的技術水平。

Gemini Ultra 號稱以 90.0% 的得分成為第一個在 MMLU（大規模多工語言理解）上「勝過人類專家的模型」，該測試使用數學、物理、歷史、法律、醫學和倫理學等 57 個學科的組合來測試世界知識和解決問題的能力。Gemini 在包括文字和編碼在內的一系列基準測試中超越了目前的技術水平。

MMLU 是一種針對大模型的語言理解能力的測評，包含了 57 個關於人類知識的多選題回答任務，涵蓋了初等數學、美國歷史、電腦科學、法律等，難度覆蓋高中水平到專家水平的人類知識，是目前主流的的大模型語義理解測評之一。

從Google給出的測試結果來看，Gemini 在理解複雜資料和執行高階任務方面將對 GPT-4 構成強有力的競爭。

| 動區動趨-最具影響力的區塊鏈新聞媒體 — 谷歌稱 Gemini 在 MMLU 評估中首次超越人類專家

由於從一開始構建就基於多模態訓練，Gemini Ultra 理論上對文字、圖片、語音、影片、程式碼等各種形態的資訊都能理解，這就給 AI 應用和使用場景帶來了更多可能性。

例如在教育領域，藉助 Gemini Ultra 的多模態推理技能，凌亂的手寫筆記能被理解，學生解題時出錯的步驟能被發現，然後給出題目的正確解答和過程。這一套下來，不能說要淘汰教師吧，至少老師們也得到了一個高能 AI 助手。

在影片的理解與推理上，Gemini Ultra 甚至展現出「足球教練」的素養，能分析運動員的動作與發力，還會給出具體的改進建議。

對於複雜的影象理解、程式碼生成、指令追蹤，Gemini Ultra 也不在話下。輸入影象與提示次「我希望你採用左上角子圖中描繪的函式，將其乘以 1000，然後將其新增到左下子圖中描繪的函式中，生成 matplotlib 程式碼單個結果圖」後，Gemini Ultra 能夠完美的執行逆圖形任務來推斷生成繪圖的程式碼、執行額外的數學轉換並生成相關程式碼。

從Google給出的這些案例看，Gemini Ultra 簡直是「地表最強」的大模型，觀眾朋友們最想知道的是，這個大模型界的「超級賽亞人」，咱啥時候能用上？

按照Google的披露，從 12 月 6 號開始，Bard 就會上載 Gemini Pro 的精細調整版本，用於更高階的推理、規劃、理解等，這是 Bard 自推出以來的最大升級。

需要注意的是，集成了 Gemini Pro 的 Bard 只提供英語支援，可在全球 170 多個國家和地區使用，計劃在不久的將來擴充套件到不同的模態，支援新的語言和地區。也就是說，中文使用者目前還無法完美體驗 Gemini Pro。

Gemini Nano 最先在Google的 Pixel 8 Pro 智慧手機上應用，從 WhatsApp 開始，明年將支援更多的訊息應用。

在未來幾個月中，Gemini 還將在更多的產品和服務中推出，包括 Search、Ads、Chrome 和 Duet AI。也就是說，Google的搜尋引擎中也將輸入 Gemini 能力。

至於「最強」的 Gemini Ultra，普通使用者還得等等。Google說，它正在進行信任和安全性檢查，在推出前還得通過對人類回饋的微調和強化學習（RLHF）的進一步改進。

在這個過程中，Gemini Ultra 會有選擇地給客戶、開發人員、合作伙伴以及安全和責任專家拿來早期實驗，等待回饋，然後在明年初向開發人員和企業客戶開放。

Ultra 的 MMLU 「試卷」疑為Google版

展示的是最強的 Gemini Ultra，但推出和使用要緩一緩，Google這樣的操作很快就惹來了懷疑，真比 GPT-4 強嗎？

彭博社就出來「打臉」說，Google的模型和 OpenAI 相比還仍有差距，現在這能力也僅憑演示，而影片演示還是錄製的，又不即時，很可能是「精心調整的文字提示與靜態影象」。彭博社還指出，Gemini 的回答需要其他資訊的輔助，在真正的互動中需要暗示性很強的提示。

圍觀演示影片的網友們也覺得，影片中有很明顯的剪輯痕跡，「強大的能力存在水分」。

而Google給 Gemini Ultra 考試的 MMLU 測評，被網友指出用的是自家出的「試卷」。在 57 個科目的多選題測試中，得了 90 分的 Ultra，底下分明標著「CoT@32*」，這是Google自己除錯的測評方案。如果採用和 GPT-4 同樣的標準，它的得分只有 83.7，還不如得分 86.4 的 GPT-4。

學術上的事情太專業，好在Google已經把 Gemini 植入了 Bard，儘管用的是 Utral 的低配版 Pro，但也號稱能多工處理，這是普通大眾最能直接測試 Gemini 的方式了。

《元宇宙日爆》直接選用了數學題，因為 ChatGPT 對數學就不太精通，而有唯一正確性的數學被 OpenAI 視作通往 AGI 的基礎，咱來看看被輸入 Gemini 能力的 Bard 是否擅長數學。

我們統一用英文進行提問，題 1 為求算圓錐體積，題 2 為稍難的幾何證明題。

測試結果表明，Gemini Pro 能夠準確識別影象以及圖片內的文字，也能夠正確解決簡單數學問題，但在處理複雜數學題時，仍然存在明顯錯誤。題 2 中的錯誤就很明顯，Bard 在第 2 步將 EG 與 AB 兩條線錯誤地證明為相互垂直。

這難道是因為 Bard 用的是 Gemini Pro 而顯得不夠強大？那我們只能等 Ultra 加入再測試了。

而會引入智慧手機 Pixel 8 Pro 的 Gemini Nano，將應用在「記錄器摘要」和「Gboard 智慧回覆」兩項功能中。

按Google說法，即使手機不連網，記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要；而智慧回覆功能類似結束通話電話後的自動回覆，Gemini Nano 可以識別來信的內容，生成對應的回覆。不過，這兩項功能，目前也只支援英文文字的識別。

按照 DeepMind 曾提出的 AGI 評估框架，在 AGI-1 階段，人工智慧將能夠跨領域和跨模態地進行學習和推理，在多個領域和任務上表現出智慧，如問答、摘要、翻譯、對話等，實現與人類和其他 AI 進行基本的溝通和協作，感知和表達簡單的情感和價值。

綜合 Google 官方釋出與實際測試體驗來看，值得期待並有希望超越 GPT-4 模型的仍是尚未公開發布的 Ultra 版本，如果這個版本的多模態能力真能如演示般表現，那麼 Google 距離它定義的 AGI 也就不遠了。

Google新AI模型「Gemini」將推出！曝算力比GPT-4強五倍，能打敗OpenAI？

科技一周速報》Google發表Gemini、IBM推出量子晶片、蘋果 Vision Pro 新應用..

Tags: AI Gemini Google GPT-4

實測》Google承認造假「Gemini」，解答數學題果真不堪？

熱門文章

美債要漲了？大摩報告：2025年中「10 年期美國公債殖利率」料降至3.75％

礦機變身電暖器！嘉楠科技Canaan預告推出家用型比特幣礦機：人人都可是礦工

觀點》這輪牛市的「頂部訊號」已經失效，新主力尚未抵達

最新文章

Adam Back攜手北科大「區塊鏈數位資產研究室」，Blockstream加入產學合作

TON HackerHouse曼谷站圓滿落幕！TONX攜手300位全球開發者締造創新70項目

馬斯克爆料：貝佐斯選前看衰川普必敗！叫人拋售特斯拉、SpaceX股票

關於我們

動區動趨

主題分類

訂閱我們的最新消息

實測》Google承認造假「Gemini」，解答數學題果真不堪？

那麼，Gemini 真的比 GPT-4 強嗎？

Google展示 Gemini 「聽說讀寫」 能力

Ultra 的 MMLU 「試卷」 疑為Google版

📍相關報導📍

熱門文章

美債要漲了？大摩報告：2025年中「10 年期美國公債殖利率」料降至3.75％

礦機變身電暖器！嘉楠科技Canaan預告推出家用型比特幣礦機：人人都可是礦工

觀點》這輪牛市的「頂部訊號」已經失效，新主力尚未抵達

最新文章

Adam Back攜手北科大「區塊鏈數位資產研究室」，Blockstream加入產學合作

TON HackerHouse曼谷站圓滿落幕！TONX攜手300位全球開發者締造創新70項目

馬斯克爆料：貝佐斯選前看衰川普必敗！叫人拋售特斯拉、SpaceX股票

關於我們

動區動趨

主題分類

訂閱我們的最新消息

Google展示 Gemini 「聽說讀寫」能力

Ultra 的 MMLU 「試卷」疑為Google版