Mistral Small 3 為 70B 以下的「小型」大型語言模型類別樹立了新的標竿。

工具 22b 24b

96.5K 4 天前

讀我檔案

Mistral Small 3 為 70B 以下的「小型」大型語言模型類別樹立了新的標竿,擁有 240 億個參數,並實現了可與更大型模型相媲美的最先進功能。

Mistral Small 可以本地部署,並且非常「知識密集」,量化後可容納在單個 RTX 4090 或 32GB RAM 的 MacBook 中。非常適合用於

  • 快速回應對話代理。
  • 低延遲函數呼叫。
  • 透過微調的主題專家。
  • 本地推論,適用於業餘愛好者和處理敏感資料的組織。

主要特色

  • 多語言:支援數十種語言,包括英語、法語、德語、西班牙語、義大利語、中文、日語、韓語、葡萄牙語、荷蘭語和波蘭語。
  • 以代理為中心:提供一流的代理功能,具有原生函數呼叫和 JSON 輸出。
  • 進階推理:最先進的對話和推理能力。
  • Apache 2.0 許可證:開放許可證,允許將其用於商業和非商業目的並進行修改。
  • 上下文視窗:32k 上下文視窗。
  • 系統提示:維持對系統提示的強烈堅持和支援。
  • 分詞器:使用 Tekken 分詞器,詞彙量為 131k。

人工評估

Human ratings

我們與外部第三方供應商針對超過 1,000 個專有編碼和通用提示集進行了並排評估。評估人員的任務是從 Mistral Small 3 與另一個模型產生的匿名生成結果中選擇他們偏好的模型回應。我們知道在某些情況下,人工判斷基準與公開可用的基準顯著不同,但在驗證公平評估方面已格外謹慎。我們確信上述基準是有效的。

指令效能

我們的指令調整模型在程式碼、數學、一般知識和指令遵循基準測試中,與尺寸是其三倍的開放權重模型以及專有的 GPT4o-mini 模型相比,展現出競爭力。

instruct performance instruct performance

instruct performance

所有基準測試的效能準確度都是透過相同的內部評估管道獲得的 - 因此,數字可能與先前報告的效能 (Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT) 略有不同。諸如 Wildbench、Arena hard 和 MTBench 等基於判斷的評估是基於 gpt-4o-2024-05-13。

客戶正在跨多個產業評估 Mistral Small 3,包括

  • 金融服務客戶用於詐欺偵測
  • 醫療保健提供者用於客戶分流
  • 機器人技術、汽車和製造公司用於設備端命令和控制
  • 跨客戶的橫向用例包括虛擬客戶服務以及情感和回饋分析。