最新系列的程式碼專用 Qwen 模型,在程式碼生成、程式碼推理和程式碼修復方面有顯著改進。

工具 0.5b 1.5b 3b 7b 14b 32b

4.5M 4 個月前

Readme

Qwen 2.5 Coder 系列模型現已更新 6 種尺寸:0.5B、1.5B、3B、7B、14B 和 32B

在程式碼生成、程式碼推理和程式碼修復方面有顯著改進。32B 模型具有與 OpenAI 的 GPT-4o 相媲美的效能。

32B: ollama run qwen2.5-coder:32b

14B: ollama run qwen2.5-coder:14b

7B: ollama run qwen2.5-coder:7b

3B: ollama run qwen2.5-coder:3b

1.5B: ollama run qwen2.5-coder:1.5b

0.5B: ollama run qwen2.5-coder:0.5b

程式碼能力達到開源模型的頂尖水準

Comparison benchmarks

程式碼生成:Qwen2.5 Coder 32B Instruct 作為本次開源發布的旗艦模型,在多個流行的程式碼生成基準測試(EvalPlus、LiveCodeBench、BigCodeBench)中取得了開源模型中的最佳效能,並具有與 GPT-4o 相媲美的效能。

程式碼修復:程式碼修復是一項重要的程式設計技能。Qwen2.5 Coder 32B Instruct 可以幫助使用者修復程式碼中的錯誤,從而提高程式設計效率。Aider 是一個流行的程式碼修復基準測試,Qwen2.5 Coder 32B Instruct 獲得了 73.7 分,在 Aider 上表現與 GPT-4o 相當。

程式碼推理:程式碼推理指的是模型學習程式碼執行過程並準確預測模型輸入和輸出的能力。最近發布的 Qwen2.5 Coder 7B Instruct 已經在程式碼推理方面展現出令人印象深刻的效能,而這款 32B 模型更進一步。

Benchmarks

多種程式語言

一個智慧型程式設計助理應該熟悉所有程式語言。Qwen 團隊在預訓練階段使用了他們自己獨特的資料清理和平衡方法。

McEval Performance

此外,Qwen 2.5 Coder 32B Instruct 的多語言程式碼修復能力仍然令人印象深刻,... 與 McEval 類似,MdEval 是一個多語言程式碼修復基準測試,Qwen 2.5 Coder 32B Instruct 在該測試中獲得了 75.2 分,在所有開源模型中排名第一。

MdEval Performance

人類偏好

為了評估 Qwen 2.5 Coder 32B Instruct 與人類偏好的一致性效能,... 以下結果展示了 Qwen 2.5 Coder 32B Instruct 在偏好對齊方面的優勢。

human preference

完整的模型尺寸,以適應您的裝置

Model sizes

參考文獻

部落格文章

HuggingFace