一個強大的混合專家 (MoE) 語言模型,總共有 671B 參數,每個 token 啟動 37B 參數。

671b

749.1K 8 週前

說明

注意:此模型需要 Ollama 0.5.5 或更高版本。

DeepSeek-V3 在推理速度上相較於先前的模型取得了重大突破。它在開源模型排行榜上名列前茅,並可媲美全球最先進的閉源模型。

參考資料

GitHub

論文