中國新創公司 DeepSeek 推出的開源推理模型 R1 近期才對全球 AI 科技界投下震撼彈,昨(28)日又宣佈推出了其多模態大模型 Janus-Pro,並在多個基準測試中,超過了 DALL-E 3 和 Stable Diffusion 等行業龍頭產品的表現。
(前情提要:DeepSeek 炸破美國AI產業護城河,其實是大利多?背後GPU算力有鬼?)
(背景補充:Arthur Hayes預測:DeepSeek觸發比特幣跌至7萬鎂!年底再飆破25萬鎂)
由中國新創公司 DeepSeek 推出的開源推理模型 R1 近期震撼整個 AI 科技領域,其低成本、高性能的特征不僅對美股造成劇烈衝擊,輝達股價在 1 月 27 日暴跌蒸發高達 5,890 億美元,創下美股歷史紀錄;同時 DeepSeek 還引發了美國總統川普的關注,川普直接表態稱 DeepSeek 已經為美國的 AI 產業敲響了警鐘。
DeepSeek 推出多模態大模型 Janus-Pro
就在昨(28)日,DeepSeek 繼續發力,正式發佈了其多模態大模型 Janus-Pro,並在多個基準測試中,超過了 DALL-E 3 和 Stable Diffusion 等行業龍頭產品的表現。
同時,Janus-Pro 不僅具備文生圖的功能,還能夠識別圖像中的文字、地標等,並對其進行內容描述和知識解釋。另外,Janus-Pro 還採用了 MIT 許可證,允許進行無限制的商業使用。
Janus-Pro 是什麼?
Janus-Pro 是 DeepSeek 在 2024 年 11 月發佈的 JanusFlow 模型的升級版本,具備以下技術特征:
- 架構創新:採用視覺編碼解耦設計,將理解與生成這兩項任務分開處理,提升了靈活性和生成穩定性
- 訓練策略優化:通過三階段訓練,引入 7,200 萬張合成美學數據,提升了生成圖片的審美質量和收斂速度
- 模型規模擴展:提供了 70 億參數和 15 億參數兩種版本,其中,70 億參數的版本支援更加複雜的多模態任務
另外,在具體的性能測試中,Janus-Pro 的表現為:
- 視覺生成任務:在 GenEval 和 DPG-Bench 基準測試中,Janus-Pro 70 億參數的版本得分為 0.8,超過了 DALL-E 3 的 0.67 和 Stable Diffusion 3 Medium 的 0.74 得分,且在圖像細節和穩定性上表現更好
- 多模態理解任務:在 MMBench 測試中得分 79.2,高於 TokenFlow-XL 的 68.9 分和 MetaMorph 的 75.2 分
- 應用場景適配:目前 Janus-Pro 的缺點是僅支援 384×384 分辨率的圖像生成,不過其緊湊的模型設計讓其能夠在消費級設備上進行本地運行
📍相關報導📍
祖克柏警告:Deepseek等中國AI模型太強,美國企業與政府應全力圍堵