Qwen 1.5 是阿里巴巴雲推出的一系列大型語言模型,參數規模從 0.5B 到 110B。
0.5b 1.8b 4b 7b 14b 32b 72b 110b
430萬 下載次數 更新於 9 個月前
說明文件
Qwen 2 現已在此處提供。here.
Qwen 是阿里巴巴雲推出的一系列基於 Transformer 的大型語言模型,在大量數據上進行了預訓練,包括網路文本、書籍、程式碼等。
Qwen 1.5 的新功能
- 6 種模型尺寸,包括 0.5B、1.8B、4B(預設)、7B、14B、32B(新增)和 72B
ollama run qwen:0.5b
ollama run qwen:1.8b
ollama run qwen:4b
ollama run qwen:7b
ollama run qwen:14b
ollama run qwen:32b
ollama run qwen:72b
ollama run qwen:110b
- 聊天模型在人類偏好方面有顯著的性能提升
- 基礎模型和聊天模型的多語言支援
- 穩定支援所有尺寸模型的 32K 上下文長度
原始的 Qwen 模型提供四種不同的參數尺寸:1.8B、7B、14B 和 72B。
功能特色
低成本部署:推論的最低記憶體需求低於 2GB。
大規模高質量訓練語料庫:模型在超過 2.2 兆個 token 上進行了預訓練,包括中文、英文、多語言文本、程式碼和數學,涵蓋通用和專業領域。預訓練語料庫的分佈已通過大量消融實驗進行了優化。
良好性能:Qwen 支援長上下文長度(1.8b、7b 和 14b 參數模型為 8K,72b 參數模型為 32K),並且在多個中英文下游評估任務(包括常識、推理、程式碼、數學等)上顯著超越了現有的同等規模開源模型,甚至在多個基準測試中超越了一些更大規模的模型。
更全面的詞彙覆蓋範圍:與其他基於中英文詞彙的開源模型相比,Qwen 使用了超過 15 萬個 token 的詞彙表。這個詞彙表對多種語言更友好,使用戶可以直接進一步增強某些語言的能力,而無需擴展詞彙表。
系統提示:Qwen 可以通過使用系統提示來實現角色扮演、語言風格轉換、任務設定和行為設定。