Qwen 1.5 是由阿里巴巴雲推出的一系列大型語言模型,參數規模從 0.5B 到 110B

0.5b 1.8b 4b 7b 14b 32b 72b 110b

4.3M 9 個月前

Readme

Qwen 2 現已於 此處 推出。

Qwen 是由阿里巴巴雲推出的一系列基於 Transformer 的大型語言模型,並使用大量資料進行預訓練,資料包括網路文本、書籍、程式碼等等。

Qwen 1.5 新功能

  • 6 種模型尺寸,包括 0.5B、1.8B、4B (預設)、7B、14B、32B (新增) 和 72B
    • ollama run qwen:0.5b
    • ollama run qwen:1.8b
    • ollama run qwen:4b
    • ollama run qwen:7b
    • ollama run qwen:14b
    • ollama run qwen:32b
    • ollama run qwen:72b
    • ollama run qwen:110b
  • 聊天模型在人類偏好方面有顯著的效能提升
  • 基礎模型和聊天模型皆支援多語言
  • 所有尺寸的模型皆穩定支援 32K 上下文長度

原始 Qwen 模型提供四種不同的參數尺寸:1.8B、7B、14B 和 72B。

特色

  • 低成本部署:推論的最低記憶體需求少於 2GB。

  • 大規模高品質訓練語料庫:模型使用超過 2.2 兆個 token 進行預訓練,語料庫包括中文、英文、多語言文本、程式碼和數學,涵蓋一般和專業領域。預訓練語料庫的分配已通過大量消融實驗進行優化。

  • 良好的效能:Qwen 支援長上下文長度 (在 1.8b7b14b 參數模型上為 8K,在 72b 參數模型上為 32K),並在多項中英文下游評估任務 (包括常識、推理、程式碼、數學等等) 中顯著超越現有同等規模的開源模型,甚至在多項基準測試中超越一些更大規模的模型。

  • 更全面的詞彙覆蓋:與其他基於中英文詞彙的開源模型相比,Qwen 使用超過 15 萬個 token 的詞彙。此詞彙對多種語言更友善,讓使用者無需擴展詞彙即可直接進一步提升特定語言的能力。

  • 系統提示:Qwen 可以透過使用系統提示來實現角色扮演、語言風格轉換、任務設定和行為設定。

參考資料

GitHub

Hugging Face