Qwen2.5 模型是在阿里巴巴最新的大規模資料集上預訓練的,資料集包含多達 18 兆個 tokens。該模型最多支援 128K tokens,並具有多語言支援。

tools 0.5b 1.5b 3b 7b 14b 32b 72b

3.6M 4 個月前

說明文件

Qwen2.5 是 Qwen 大型語言模型的最新系列。對於 Qwen2.5,發布了一系列基礎語言模型和指令調整模型,尺寸範圍從 0.5 到 720 億個參數。Qwen2.5 相較於 Qwen2 引入了以下改進:

  • 由於這些領域的專業模型,它擁有顯著更多的知識,並且在程式碼編寫數學方面的能力大大增強。
  • 它在指令遵循長文本生成(超過 8K tokens)、理解結構化資料(例如,表格)和生成結構化輸出(尤其是在 JSON 格式中)方面展現了顯著的進步。它也更能適應多樣化的系統提示,從而改進了聊天機器人的角色扮演和條件設定。
  • 它支援高達 128K tokens 的長上下文,並且可以生成高達 8K tokens。
  • 它為超過 29 種語言提供多語言支援,包括中文、英語、法語、西班牙語、葡萄牙語、德語、義大利語、俄語、日語、韓語、越南語、泰語、阿拉伯語等等。

請注意:除 3B 和 72B 之外的所有模型均根據 Apache 2.0 許可證發布,而 3B 和 72B 模型則根據 Qwen 許可證發布。

參考文獻

GitHub

部落格文章

HuggingFace