一個強大的混合專家 (MoE) 語言模型,總參數為 6710 億,每個 token 啟用 370 億個參數。

671b

159.5K 3 週前

讀我檔案

注意:此模型需要 Ollama 0.5.5 或更高版本。

DeepSeek-V3 在推理速度上相較於先前的模型取得了顯著的突破。它在開源模型中名列前茅,並與全球最先進的閉源模型相匹敵。

參考文獻

GitHub

論文