AI大戰|Meta發布Llama 4系列開源模型 採MoE架構
撰文: 李哲毅
發布時間: 2025/04/06 18:46
最後更新: 2025/04/24 18:02
▲ AI大戰|Meta發布Llama 4系列開源模型 採MoE架構
- Meta發布Llama 4 Scout和Maverick
- 使用混合專家(MoE)架構
- Scout上下文窗口大,處理長文檔
Facebook、Instagram母企Meta Platforms(美:META)上周六(5日)發布大型語言模型 (LLM) Llama 的最新版本,名為「 Llama 4 Scout」 和「Llama 4 Maverick」。Meta 表示,Llama 是一個多模態 AI系統,能夠處理和整合各種類型的數據,包括文字、影片、圖像和音頻。
Meta 補充,Llama 4 Maverick 和 Llama 4 Scout 將是開源軟件,該公司還表示正在預覽 Llama 4 Behemoth。
Meta 表示,Llama 4 是其第一批使用混合專家 (MoE) 架構的模型,該架構在訓練和回答查詢方面具有更高的計算效率。MoE 架構基本上將數據處理任務分解為子任務,然後將其委托給較小的、專門的「專家」模型。 例如,Maverick 總共擁有 4000 億個參數,但在 128 位「專家」中只有 170 億個活躍參數。Scout 擁有 170 億個活躍參數、16 位專家和 1090 億個總參數。
據報,Scout 的優勢在於文檔摘要和大型代碼庫推理等任務,擁有非常大的上下文窗口:1000 萬個標記,可以接收圖像和多達數百萬個單詞,從而能夠處理和處理非常長的文檔。據 Meta 稱,Scout 可以在單個 NVIDIA H100 GPU 上運行,而 Maverick 則需要 NVIDIA H100 DGX 系統。