Qwen2.5 模型基於阿里巴巴最新的大規模數據集進行預訓練,數據集包含多達 18 兆個 tokens。該模型支援高達 128K tokens 的上下文長度,並具有多語言支援。

工具 0.5b 1.5b 3b 7b 14b 32b 72b

3.6M 4 個月前

說明

Qwen2.5 是最新的 Qwen 大型語言模型系列。Qwen2.5 發布了一系列基礎語言模型和指令微調模型,模型大小從 0.5 到 720 億參數不等。相較於 Qwen2,Qwen2.5 引入了以下改進:

  • 由於在這些領域中使用了專業的專家模型,它擁有顯著更多的知識,並且在程式編碼數學方面的能力也大大增強。
  • 它在指令遵循長文本生成(超過 8K tokens)、理解結構化數據(例如,表格)以及生成結構化輸出(尤其是在 JSON 格式中)方面展現了顯著的進步。它也更能適應多樣化的系統提示,從而改善了聊天機器人的角色扮演和條件設定。
  • 它支援高達 128K tokens 的長上下文,並且可以生成高達 8K tokens 的文本。
  • 它提供超過 29 種語言的多語言支援,包括中文、英文、法文、西班牙文、葡萄牙文、德文、義大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文等等。

請注意:除了 3B 和 72B 模型外,所有模型均以 Apache 2.0 授權發布,而 3B 和 72B 模型則以 Qwen 授權發布。

參考文獻

GitHub

部落格文章

HuggingFace