Phi-3 是微軟開發的一系列輕量級、最先進的 3B (Mini) 和 14B (Medium) 開源模型。

3.8b 14b

2.9M 6 個月前

說明文件

Phi-3 是微軟開發的一系列開源 AI 模型。

參數大小

上下文窗口大小

注意:此模型的 128k 版本需要 Ollama 0.1.39 或更高版本。

  • 4k ollama run phi3:mini ollama run phi3:medium
  • 128k ollama run phi3:medium-128k

image.png

Phi-3 Mini

Phi-3 Mini 是一個 3.8B 參數、輕量級、最先進的開源模型,使用 Phi-3 數據集進行訓練,該數據集包括合成數據和經過濾的公開可用的網站數據,重點關注高品質和推理密集特性。

該模型經過後訓練流程,結合了監督式微調和直接偏好最佳化,以確保精確的指令遵循和強大的安全措施。

當針對測試常識、語言理解、數學、程式碼、長上下文和邏輯推理的基準進行評估時,Phi-3 Mini-4K-Instruct 在參數少於 130 億的模型中展現了強大且最先進的性能。

Phi-3 Medium

Phi-3 Medium 是一個 14B 參數的語言模型,並且優於 Gemini 1.0 Pro。

image.png

預期用途

主要用例

該模型旨在用於英語的商業和研究用途。該模型為需要以下應用提供用途:1) 記憶體/運算受限的環境 2) 延遲限制情境 3) 強大的推理能力(尤其是數學和邏輯)4) 長上下文

我們的模型旨在加速語言和多模態模型的研究,用作生成式 AI 驅動功能的構建模組。

用例注意事項

我們的模型並非專門為所有下游目的而設計或評估。開發人員在選擇用例時應考慮語言模型的常見限制,並在特定下游用例中使用之前,評估並減輕準確性、安全性與公平性,特別是對於高風險情境。開發人員應注意並遵守適用於其用例的相關法律或法規(包括隱私、貿易合規法律等)。本模型卡中包含的任何內容均不應被解釋或視為對模型發布所依據的許可證的限制或修改。

負責任的 AI 考量

與其他語言模型一樣,Phi 系列模型可能以不公平、不可靠或冒犯性的方式運作。需要注意的限制行為包括

  • 服務品質:Phi 模型主要以英文文本進行訓練。非英語語言將體驗較差的性能。英語變體表示較少的情況可能比標準美式英語體驗更差的性能。

  • 危害的呈現與刻板印象的延續:這些模型可能過度或不足地呈現人群群體,抹去某些群體的呈現,或強化貶低或負面的刻板印象。儘管進行了安全性後訓練,但由於不同群體的呈現程度不同,或訓練數據中負面刻板印象示例的普遍性反映了真實世界的模式和社會偏見,因此這些限制可能仍然存在。

  • 不當或冒犯性內容:這些模型可能會產生其他類型的不當或冒犯性內容,這可能使其不適合在敏感情境中部署,除非有特定於用例的額外緩解措施。

  • 資訊可靠性:語言模型可能會產生無意義的內容或捏造聽起來合理但不準確或過時的內容。

  • 程式碼的有限範圍:Phi-3 的大部分訓練數據都基於 Python,並使用「typing, math, random, collections, datetime, itertools」等常用套件。如果模型產生使用其他套件的 Python 腳本或以其他語言編寫的腳本,我們強烈建議使用者手動驗證所有 API 使用。

開發人員應應用負責任的 AI 最佳實踐,並負責確保特定用例符合相關法律法規(例如隱私、貿易等)。重要的考量領域包括:+ 分配:在沒有進一步評估和額外的去偏見技術的情況下,模型可能不適用於可能對法律地位或資源或生活機會分配產生重大影響的情境(例如:住房、就業、信貸等)。

  • 高風險情境:開發人員應評估在高風險情境中使用模型的適用性,在這些情境中,不公平、不可靠或冒犯性的輸出可能極其昂貴或導致傷害。這包括在準確性和可靠性至關重要的敏感或專業領域(例如:法律或健康建議)中提供建議。應根據部署情境在應用層級實施額外的安全措施。

  • 錯誤資訊:模型可能會產生不準確的資訊。開發人員應遵循透明度最佳實踐,並通知最終使用者他們正在與 AI 系統互動。在應用層級,開發人員可以建立回饋機制和管道,以在特定用例的上下文資訊中建立回應基礎,這是一種稱為檢索增強生成 (RAG) 的技術。

  • 有害內容的產生:開發人員應評估輸出的上下文,並使用適用於其用例的可用安全分類器或自訂解決方案。

  • 誤用:其他形式的誤用(例如詐欺、垃圾郵件或惡意軟體生產)可能發生,開發人員應確保其應用程式不違反適用法律法規。

訓練

模型

  • 架構:Phi-3 Mini 具有 3.8B 參數,是一個密集的僅解碼器 Transformer 模型。該模型使用監督式微調 (SFT) 和直接偏好最佳化 (DPO) 進行微調,以確保與人類偏好和安全準則對齊。
  • 輸入:文本。它最適合使用聊天格式的提示。
  • 上下文長度:128K 個 tokens
  • GPUS:512 H100-80G
  • 訓練時間:7 天
  • 訓練數據:3.3T 個 tokens
  • 輸出:響應輸入產生的文本
  • 日期:我們的模型在 2024 年 2 月至 4 月期間進行訓練。
  • 狀態:這是一個靜態模型,在截止日期為 2023 年 10 月的離線數據集上進行訓練。隨著我們改進模型,可能會發布已調整模型的未來版本。

數據集

我們的訓練數據包含各種來源,總計 3.3 兆個 tokens,並且是以下項目的組合:1) 經過嚴格品質篩選的公開可用文件、選定的高品質教育數據和程式碼;2) 新創建的合成「教科書式」數據,用於教學數學、編碼、常識推理、世界通用知識(科學、日常活動、心智理論等);3) 高品質聊天格式監督數據,涵蓋各種主題,以反映人類在不同方面的偏好,例如指令遵循、真實性、誠實和樂於助人。

軟體

許可證

該模型根據 MIT 許可證授權。

商標

此專案可能包含專案、產品或服務的商標或標誌。授權使用 Microsoft 商標或標誌必須遵守 Microsoft 的商標與品牌指南。在此專案的修改版本中使用 Microsoft 商標或標誌不得造成混淆或暗示 Microsoft 贊助。任何使用第三方商標或標誌均受這些第三方政策的約束。

資源