最新系列的程式碼專用 Qwen 模型,在程式碼生成、程式碼推理和程式碼修復方面有顯著改進。
1.9M 下載次數 更新於 2 個月前
說明文件
Qwen 2.5 Coder 系列模型現已更新至 6 種尺寸:0.5B、1.5B、3B、7B、14B 和 32B。
在程式碼生成、程式碼推理和程式碼修復方面有顯著改進。32B 模型在效能上可與 OpenAI 的 GPT-4o 相媲美。
32B: ollama run qwen2.5-coder:32b
14B: ollama run qwen2.5-coder:14b
7B: ollama run qwen2.5-coder:7b
3B: ollama run qwen2.5-coder:3b
1.5B: ollama run qwen2.5-coder:1.5b
0.5B: ollama run qwen2.5-coder:0.5b
程式碼能力達到開源模型的頂尖水準
程式碼生成: Qwen2.5 Coder 32B Instruct 作為本次開源發布的旗艦模型,在多個熱門程式碼生成基準測試 (EvalPlus、LiveCodeBench、BigCodeBench) 中,已在開源模型中取得最佳效能,且效能可與 GPT-4o 相媲美。
程式碼修復: 程式碼修復是一項重要的程式設計技能。Qwen2.5 Coder 32B Instruct 可以協助使用者修正程式碼中的錯誤,進而提高程式設計效率。Aider 是一個熱門的程式碼修復基準測試,而 Qwen2.5 Coder 32B Instruct 獲得了 73.7 分,效能與 GPT-4o 在 Aider 上不相上下。
程式碼推理: 程式碼推理指的是模型學習程式碼執行過程並準確預測模型輸入和輸出的能力。最近發布的 Qwen2.5 Coder 7B Instruct 已在程式碼推理方面展現出令人驚豔的效能,而這款 32B 模型更進一步提升了效能。
多種程式語言
智慧型程式設計助手應熟悉所有程式語言。Qwen 2.5 Coder 32B 在超過 40 種程式語言中表現出色,在 McEval 上獲得 65.9 分,在 Haskell 和 Racket 等語言中表現令人印象深刻。Qwen 團隊在預訓練階段使用了他們獨特的資料清理和平衡技術。
此外,Qwen 2.5 Coder 32B Instruct 的多語言程式碼修復能力依然令人印象深刻,可協助使用者理解和修改他們熟悉的程式語言,大幅降低不熟悉語言的學習成本。與 McEval 類似,MdEval 是一個多語言程式碼修復基準測試,Qwen 2.5 Coder 32B Instruct 在其中獲得 75.2 分,在所有開源模型中排名第一。
人類偏好
為了評估 Qwen 2.5 Coder 32B Instruct 在人類偏好方面的對齊效能,我們建構了一個名為 Code Arena 的內部註解程式碼偏好評估基準測試 (類似於 Arena Hard)。我們使用 GPT-4o 作為偏好對齊的評估模型,採用「A 對 B 獲勝」的評估方法,該方法衡量測試集中模型 A 的分數超過模型 B 的實例百分比。以下結果證明了 Qwen 2.5 Coder 32B Instruct 在偏好對齊方面的優勢。