最新的 Code-Specific Qwen 模型系列,在程式碼生成、程式碼推理和程式碼修復方面有顯著改進。

工具 0.5b 1.5b 3b 7b 14b 32b

1.9M 2 個月前

說明文件

Qwen 2.5 Coder 系列模型現已更新 6 種尺寸:0.5B、1.5B、3B、7B、14B 和 32B

程式碼生成程式碼推理程式碼修復方面有顯著改進。 32B 模型具有與 OpenAI 的 GPT-4o 相匹敵的效能。

32B: ollama run qwen2.5-coder:32b

14B: ollama run qwen2.5-coder:14b

7B: ollama run qwen2.5-coder:7b

3B: ollama run qwen2.5-coder:3b

1.5B: ollama run qwen2.5-coder:1.5b

0.5B: ollama run qwen2.5-coder:0.5b

程式碼能力達到開源模型的最新技術水準

Comparison benchmarks

程式碼生成: Qwen2.5 Coder 32B Instruct 作為本次開源發布的旗艦模型,在多個流行的程式碼生成基準測試(EvalPlus、LiveCodeBench、BigCodeBench)中取得了開源模型中的最佳效能,並具有與 GPT-4o 相匹敵的效能。

程式碼修復: 程式碼修復是一項重要的程式設計技能。 Qwen2.5 Coder 32B Instruct 可以幫助使用者修復程式碼中的錯誤,從而提高程式設計效率。 Aider 是程式碼修復的常用基準測試,Qwen2.5 Coder 32B Instruct 在 Aider 上的得分為 73.7,效能與 GPT-4o 相當。

程式碼推理: 程式碼推理是指模型學習程式碼執行過程並準確預測模型的輸入和輸出的能力。 最近發布的 Qwen2.5 Coder 7B Instruct 已經在程式碼推理方面展現出令人印象深刻的效能,而這款 32B 模型更進一步。

Benchmarks

多種程式語言

智慧型程式設計助手應熟悉所有程式語言。 Qwen 2.5 Coder 32B 在 40 多種程式語言中表現出色,在 McEval 上的得分為 65.9,在 Haskell 和 Racket 等語言中表現出色。 Qwen 團隊在預訓練階段使用了他們獨特的資料清理和平衡方法。

McEval Performance

此外,Qwen 2.5 Coder 32B Instruct 的多語言程式碼修復能力仍然令人印象深刻,可協助使用者理解和修改他們熟悉的程式語言,大幅降低不熟悉語言的學習成本。 與 McEval 類似,MdEval 是一個多語言程式碼修復基準測試,Qwen 2.5 Coder 32B Instruct 在該基準測試中得分為 75.2,在所有開源模型中排名第一。

MdEval Performance

人類偏好

為了評估 Qwen 2.5 Coder 32B Instruct 與人類偏好的一致性效能,我們構建了一個名為 Code Arena 的內部註解程式碼偏好評估基準測試(類似於 Arena Hard)。 我們使用 GPT-4o 作為偏好一致性的評估模型,採用「A vs. B 勝出」評估方法,該方法衡量模型 A 的分數超過模型 B 的測試集中的實例百分比。 以下結果證明了 Qwen 2.5 Coder 32B Instruct 在偏好一致性方面的優勢。

human preference

全面的模型尺寸以適應您的裝置

Model sizes

參考文獻

部落格文章

HuggingFace