更新於 6 個月前
6 個月前
58dabb8dab6e · 2.1GB
自述文件
Phi-3 是微軟開發的一系列開放 AI 模型。
參數大小
- Phi-3 Mini – 3B 參數 –
ollama run phi3:mini
- Phi-3 Medium – 14B 參數 –
ollama run phi3:medium
上下文窗口大小
注意:此模型的 128k 版本需要 Ollama 0.1.39 或更高版本。
- 4k
ollama run phi3:mini
ollama run phi3:medium
- 128k
ollama run phi3:medium-128k
Phi-3 Mini
Phi-3 Mini 是一個 3.8B 參數、輕量級、最先進的開放模型,使用 Phi-3 數據集進行訓練,該數據集包括合成數據和經過篩選的公開網站數據,重點是高質量和推理密集的屬性。
該模型經過後訓練過程,結合了監督式微調和直接偏好優化,以確保精確的指令遵循和穩健的安全措施。
在針對常識、語言理解、數學、程式碼、長上下文和邏輯推理的基準測試中,Phi-3 Mini-4K-Instruct 在參數少於 130 億的模型中展現了穩健且最先進的性能。
Phi-3 Medium
Phi-3 Medium 是一個 14B 參數的語言模型,其性能優於 Gemini 1.0 Pro。
預期用途
主要用例
該模型旨在用於英語的商業和研究用途。該模型為需要以下條件的應用提供用途:1) 記憶體/運算受限的環境 2) 延遲限制的場景 3) 強大的推理能力(尤其是數學和邏輯)4) 長上下文
我們的模型旨在加速語言和多模態模型的研究,用作生成式 AI 驅動功能的基礎模組。
用例考量
我們的模型並非專門為所有下游目的而設計或評估。開發人員在選擇用例時應考慮語言模型的常見限制,並在使用於特定下游用例(尤其是高風險場景)之前,評估和減輕準確性、安全性和公平性。開發人員應了解並遵守適用於其用例的適用法律或法規(包括隱私、貿易合規法律等)。本模型卡中包含的任何內容均不應被解釋或視為對模型發布所依據的許可證的限制或修改。
負責任的 AI 考量
與其他語言模型一樣,Phi 系列模型可能會以不公平、不可靠或冒犯性的方式運作。需要注意的一些限制性行為包括:
服務品質:Phi 模型主要在英語文本上進行訓練。非英語語言的性能會較差。在訓練數據中代表性較低的英語語言變體,其性能可能比標準美式英語更差。
危害的呈現與刻板印象的延續:這些模型可能會過度或過度代表某些人群,消除某些人群的代表性,或強化貶低或負面的刻板印象。儘管進行了安全後訓練,但由於不同群體的代表性水平不同,或反映現實世界模式和社會偏見的訓練數據中負面刻板印象示例的普遍性,這些限制可能仍然存在。
不當或冒犯性內容:這些模型可能會產生其他類型的不當或冒犯性內容,這可能會使其不適合在敏感環境中部署,除非有針對特定用例的額外緩解措施。
資訊可靠性:語言模型可能會產生無意義的內容或捏造聽起來合理但不準確或過時的內容。
程式碼的有限範圍:Phi-3 訓練數據的大部分基於 Python,並使用常見的套件,例如 “typing, math, random, collections, datetime, itertools”。如果模型產生使用其他套件或使用其他語言的腳本的 Python 腳本,我們強烈建議用戶手動驗證所有 API 用法。
開發人員應應用負責任的 AI 最佳實踐,並負責確保特定用例符合相關法律法規(例如隱私、貿易等)。需要考慮的重要領域包括:+ 分配:模型可能不適用於可能對法律地位或資源或生活機會分配產生重大影響的場景(例如:住房、就業、信貸等),除非經過進一步評估和額外的去偏見技術。
高風險場景:開發人員應評估在高風險場景中使用模型的適用性,在這些場景中,不公平、不可靠或冒犯性的輸出可能會造成極其高昂的代價或導致傷害。這包括在準確性和可靠性至關重要的敏感或專業領域提供建議(例如:法律或健康建議)。應根據部署環境在應用程式層級實施額外的安全措施。
錯誤資訊:模型可能會產生不準確的資訊。開發人員應遵循透明度最佳實踐,並告知終端用戶他們正在與 AI 系統互動。在應用程式層級,開發人員可以建立反饋機制和管道,以根據用例特定的上下文資訊來調整回應,這種技術稱為檢索增強生成 (RAG)。
有害內容的產生:開發人員應根據其上下文評估輸出,並使用可用的安全分類器或適合其用例的自訂解決方案。
濫用:可能存在其他形式的濫用,例如詐欺、垃圾郵件或惡意軟體製作,開發人員應確保其應用程式不違反適用的法律法規。
訓練
模型
- 架構:Phi-3 Mini 具有 3.8B 參數,是一個密集的僅解碼器 Transformer 模型。該模型使用監督式微調 (SFT) 和直接偏好優化 (DPO) 進行微調,以確保與人類偏好和安全指南保持一致。
- 輸入:文本。它最適合使用聊天格式的提示。
- 上下文長度:128K tokens
- GPUS: 512 H100-80G
- 訓練時間:7 天
- 訓練數據:3.3T tokens
- 輸出:產生的文本以響應輸入
- 日期:我們的模型在 2024 年 2 月至 4 月之間進行訓練
- 狀態:這是一個靜態模型,在截止日期為 2023 年 10 月的離線數據集上進行訓練。隨著我們改進模型,未來版本的微調模型可能會發布。
數據集
我們的訓練數據包括各種來源,總計 3.3 兆個 tokens,並且是以下項目的組合:1) 公開可用的文檔,經過嚴格的質量篩選、選定的高質量教育數據和程式碼;2) 新創建的合成的「教科書式」數據,用於教授數學、程式碼編寫、常識推理、世界常識(科學、日常活動、心智理論等);3) 高質量的聊天格式監督數據,涵蓋各種主題,以反映人類在不同方面的偏好,例如遵循指示、真實性、誠實和樂於助人。
軟體
授權條款
該模型根據 MIT 許可證 獲得許可。
商標
此專案可能包含專案、產品或服務的商標或標誌。經授權使用 Microsoft 商標或標誌須遵守且必須遵循 Microsoft 商標與品牌指南。在本專案的修改版本中使用 Microsoft 商標或標誌不得造成混淆或暗示 Microsoft 贊助。任何使用第三方商標或標誌均受該第三方的政策約束。