Mistral Small 3 在 70B 以下的「小型」大型語言模型類別中,樹立了新的基準。
工具 22b 24b
298.8K 下載次數 更新於 5 週前
更新於 5 個月前
5 個月前
dfaf3aefa53f · 9.6GB
模型
archllama
·
parameters22.2B
·
quantizationQ3_K_S
9.6GB
參數
{ "stop": [ "[INST]", "[/INST]", "</s>" ] }
47B
模板
{{- if .Messages }} {{- range $index, $_ := .Messages }} {{- if eq .Role "user" }} {{- if and (le (l
900B
授權條款
# Mistral AI 研究授權條款 如果您想將 Mistral 模型、衍生品或輸出用於任何用途
11kB
說明文件
Mistral Small 3 在 70B 以下的「小型」大型語言模型類別中,樹立了新的基準,擁有 24B 參數,並實現了可與更大型模型相媲美的最先進功能。
Mistral Small 可以本地部署,並且非常「知識密集」,量化後可容納在單張 RTX 4090 或 32GB RAM 的 MacBook 中。非常適合用於
- 快速回應的對話式代理。
- 低延遲的函式呼叫。
- 透過微調的領域專家。
- 供愛好者和處理敏感性資料的組織進行本地推論。
主要特色
- 多語言:支援數十種語言,包括英語、法語、德語、西班牙語、義大利語、中文、日語、韓語、葡萄牙語、荷蘭語和波蘭語。
- 以代理為中心:提供同類最佳的代理功能,具備原生函式呼叫和 JSON 輸出。
- 進階推理:最先進的對話和推理能力。
- Apache 2.0 授權條款:開放授權條款,允許商業和非商業目的的使用和修改。
- 內容視窗:32k 內容視窗。
- 系統提示:維持對系統提示的強烈遵守和支援。
- 分詞器:使用 Tekken 分詞器,詞彙量為 131k。
人工評估
我們與外部第三方供應商針對超過 1 千組專有的編碼和通用提示進行了並排評估。評估人員的任務是從 Mistral Small 3 與另一個模型產生的匿名生成結果中,選出他們偏好的模型回應。我們知道在某些情況下,人工判斷的基準與公開可用的基準截然不同,但我們已格外謹慎地驗證了評估的公平性。我們確信上述基準是有效的。
指令效能
我們的指令微調模型在程式碼、數學、一般知識和指令遵循基準測試中,效能可與體積是其三倍的開放權重模型,以及專有的 GPT4o-mini 模型相媲美。
所有基準測試的效能準確度都是透過相同的內部評估流程獲得的 - 因此,數字可能與先前報告的效能 (Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT) 略有不同。諸如 Wildbench、Arena hard 和 MTBench 等基於判斷的評估是基於 gpt-4o-2024-05-13。
客戶正在多個產業中評估 Mistral Small 3,包括
- 金融服務客戶用於詐欺偵測
- 醫療保健供應商用於客戶分流
- 機器人、汽車和製造公司用於裝置端命令和控制
- 跨客戶的橫向使用案例包括虛擬客戶服務,以及情緒和意見回饋分析。