本週 4 日,AI 新創 Anthropic 發表了最新的 Claude 3 系列模型,聲稱為廣泛的認知任務(cognitive tasks)樹立了新的產業標準。Claude 3 系列包含三個不同級別的模型:Opus、Sonnet 和 Haiku,以滿足從智能、速度到成本效益的不同需求。
(前情提要:FTX全額賠付能實現!法院批准出售AI新創Anthropic持股、價值14億鎂 )
(背景補充:ChatGPT陷科技倫理風波!「三觀正確」的AI機器人Claude、Sparrow能迎頭趕上? )
獲亞馬遜、Google 以及已破產交易所 FTX 投資的 AI 新創 Anthropic,在 4 日發表了最新的 Claud 3 系列模型,據傳在各種檢測上顯示與 OpenAI 的 GPT-4 以及 Google 的 Gemini 1.0 Uitra 一樣好,甚至更好。
與早期版本不同,Claude 3 是多模態的,能夠理解文字和圖像輸入。Anthropic 在公告中寫道:
今天,我們宣布推出 Claude 3 系列模型,它為廣泛的認知任務(cognitive tasks)樹立了新的產業標準。
Claude 3 系列的三個模型
Claude 3 系列由三個模型組成,以滿足從智能、速度到成本效益的不同需求,在智能程度上由高到低分別為:
- Claude 3 Opus:系列中最強大的模型,針對追求最高性能和智能輸出的使用者設計,適合處理最複雜的任務。
- Claude 3 Sonnet:在智能和速度之間取得平衡的模型,與同類產品相比,它以更低的成本提供強大的性能,專為大規模 AI 部署中的高耐用性設計。
- Claude 3 Haiku:是最快速且經濟的選項,聲稱具有近乎即時的回應能力,可以在不到 3 秒的時間內閱讀約 1 萬代幣長度、包含圖表和密集數據的研究論文。
目前,Opus 和 Sonnet 可以在 Claude.ai 上及 Claude API 中使用,不過 Opus 需要訂閱每月 20 美元的 Claude Pro 才能使用,Haiku 則即將推出。
智能測試上勝過 GPT-4、Gemini 1.0 Uitra
Anthropic 表示,Opus 在智能測試的多項基準中表現優於大多數模型,包括大學水準的專家知識(MMLU)、研究生水準的專業推理(GPQA)、基礎數學(GSM8K)等,並且在複雜任務上展現出近乎人類的理解和流暢程度。
舉例來說,Opus 顯示出比 OpenAI 的 GPT-4 更好的研究生水平推理能力,在該基準測試中獲得了 50.4%,而 GPT-4 為 35.7%。
強大的視覺能力
同時,為了因應企業客戶的需求,尤其是那些高達 50% 的資料儲存在 PDF 文件、流程圖或投影片等多樣化格式中的客戶,Anthropic 表示 Claude 3 模型能夠處理包括照片、圖表等多種視覺資料,並且展現了與 GPT-4 及 Gemini 1.0 相匹配的高階視覺處理能力,其中在數學推理(MMMU)、科學圖表(AI2D)和圖表問答(relaxed accuracy)上,Claude 3 甚至優於其他模型。
值得注意的是,雖然 Claude 3 可以處理圖像,但不會生成圖像內容。
此外,Anthropic 表明 Claude 3 還有一些特點:
- 將回答更多問題。Claude 的早期版本拒絕回答一些無害的指令,該公司寫道「這表明缺乏上下文理解」,而 Claude 3 不太可能拒絕回答遵守其安全指南的問題。
- 能理解比上一代多一倍的上下文。Claude 3 推出初期可以處理 20 萬個代幣(15 萬個單字)的文本,更驚人的是,Anthropic 表示所有三種模型都能夠接受超過 100 萬個代幣的輸入,未來可能將提供有需求的客戶。
📍相關報導📍
OpenAI宮鬥劇延燒:馬斯克、Sam Altman 間不為人知的權力博弈