qwen2.5-coder:3b-base - Ollama 框架

qwen2.5-coder

說明文件

Qwen 2.5 Coder 系列模型現已更新至 6 種尺寸：0.5B、1.5B、3B、7B、14B 和 32B。

在程式碼生成、程式碼推理和程式碼修復方面有顯著改進。 32B 模型具有與 OpenAI 的 GPT-4o 相媲美的效能。

32B: ollama run qwen2.5-coder:32b

14B: ollama run qwen2.5-coder:14b

7B: ollama run qwen2.5-coder:7b

3B: ollama run qwen2.5-coder:3b

1.5B: ollama run qwen2.5-coder:1.5b

0.5B: ollama run qwen2.5-coder:0.5b

程式碼能力達到開源模型的最新技術水準

程式碼生成： Qwen2.5 Coder 32B Instruct 作為本次開源發布的旗艦模型，在多個流行的程式碼生成基準測試（EvalPlus、LiveCodeBench、BigCodeBench）中取得了開源模型中的最佳效能，並且具有與 GPT-4o 相媲美的效能。

程式碼修復： 程式碼修復是一項重要的程式設計技能。 Qwen2.5 Coder 32B Instruct 可以幫助使用者修復程式碼中的錯誤，從而提高程式設計效率。 Aider 是一個流行的程式碼修復基準測試，Qwen2.5 Coder 32B Instruct 在 Aider 上得分 73.7，效能與 GPT-4o 相當。

程式碼推理： 程式碼推理是指模型學習程式碼執行過程並準確預測模型的輸入和輸出的能力。最近發布的 Qwen2.5 Coder 7B Instruct 已經在程式碼推理方面展現出令人印象深刻的效能，而這款 32B 模型更進一步。

多種程式語言

一個智慧型程式設計助理應熟悉所有程式語言。 Qwen 2.5 Coder 32B 在超過 40 種程式語言中表現出色，在 McEval 上獲得 65.9 分，在 Haskell 和 Racket 等語言中表現出色。 Qwen 團隊在預訓練階段使用了他們自己獨特的資料清理和平衡方法。

此外，Qwen 2.5 Coder 32B Instruct 的多語言程式碼修復能力仍然令人印象深刻，有助於使用者理解和修改他們熟悉的程式語言，從而顯著降低不熟悉語言的學習成本。與 McEval 類似，MdEval 是一個多語言程式碼修復基準測試，Qwen 2.5 Coder 32B Instruct 在該基準測試中獲得 75.2 分，在所有開源模型中排名第一。

人類偏好

為了評估 Qwen 2.5 Coder 32B Instruct 在人類偏好方面的一致性效能，我們構建了一個名為 Code Arena 的內部註解程式碼偏好評估基準測試（類似於 Arena Hard）。我們使用 GPT-4o 作為偏好一致性評估模型，採用「A vs. B 勝出」評估方法，該方法衡量測試集中模型 A 的得分超過模型 B 的實例百分比。下面的結果證明了 Qwen 2.5 Coder 32B Instruct 在偏好一致性方面的優勢。

完整的模型尺寸以適應您的裝置

參考資料

部落格文章

HuggingFace

Qwen 2.5 Coder series of models are now updated in 6 sizes: **0.5B, 1.5B, 3B, 7B, 14B and 32B**.

There are significant improvements in **code generation**, **code reasoning** and **code fixing**. The 32B model has competitive performance with OpenAI's GPT-4o.

**32B:** 
`ollama run qwen2.5-coder:32b`

**14B:** 
`ollama run qwen2.5-coder:14b`

**7B:** 
`ollama run qwen2.5-coder:7b`

**3B:**
`ollama run qwen2.5-coder:3b`

**1.5B:**
`ollama run qwen2.5-coder:1.5b`

**0.5B:**
`ollama run qwen2.5-coder:0.5b`

### Code capabilities reaching state of the art for open-source models

![Comparison benchmarks](/assets/library/qwen2.5-coder/05059413-3cc4-4b07-b546-001594d0ae26)

**Code Generation:** Qwen2.5 Coder 32B Instruct, as the flagship model of this open-source release, has achieved the best performance among open-source models on multiple popular code generation benchmarks (EvalPlus, LiveCodeBench, BigCodeBench), and has competitive performance with GPT-4o.

**Code Repair:** Code repair is an important programming skill. Qwen2.5 Coder 32B Instruct can help users fix errors in their code, making programming more efficient. Aider is a popular benchmark for code repair, and Qwen2.5 Coder 32B Instruct scored 73.7, performing comparably to GPT-4o on Aider.

**Code Reasoning:** Code reasoning refers to the model’s ability to learn the process of code execution and accurately predict the model’s inputs and outputs. The recently released Qwen2.5 Coder 7B Instruct has already shown impressive performance in code reasoning, and this 32B model takes it a step further.

![Benchmarks](/assets/library/qwen2.5-coder/0bd9e1aa-a87b-474b-84ba-264a85041605)

### Multiple programming languages
An intelligent programming assistant should be familiar with all programming languages. Qwen 2.5 Coder 32B performs excellent across more than 40 programming languages, scoring 65.9 on McEval, with impressive performances in languages like Haskell and Racket. The Qwen team used their own unique data cleaning and balancing during the pre-training phase.

![McEval Performance](/assets/library/qwen2.5-coder/6436978b-1371-48a4-a21a-b6da729b74e1)

Additionally, the multi-language code repair capabilities of Qwen 2.5 Coder 32B Instruct remain impressive, aiding users in understanding and modifying programming languages they are familiar with, significantly reducing the learning cost of unfamiliar languages. Similar to McEval, MdEval is a multi-language code repair benchmark, where Qwen 2.5 Coder 32B Instruct scored 75.2, ranking first among all open-source models.

![MdEval Performance](/assets/library/qwen2.5-coder/f2401bd6-f6d7-41ca-981d-98abc62f1493)

### Human Preference

To evaluate the alignment performance of Qwen 2.5 Coder 32B Instruct with human preferences, we constructed an internal annotated code preference evaluation benchmark called Code Arena (similar to Arena Hard). We used GPT-4o as the evaluation model for preference alignment, employing an ‘A vs. B win’ evaluation method, which measures the percentage of instances in the test set where model A’s score exceeds model B’s. The results below demonstrate the advantages of Qwen 2.5 Coder 32B Instruct in preference alignment.

![human preference](/assets/library/qwen2.5-coder/bbf378d8-c80e-4ae3-98ab-90111dfbf3e7)

### Comprehensive model sizes to fit your device

![Model sizes](/assets/library/qwen2.5-coder/752764ea-d510-4bc5-8658-dc5d8ba51019)

## References

[Blog Post](https://qwenlm.github.io/blog/qwen2.5-coder-family/)

[HuggingFace](https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f)

貼上、拖放或點擊上傳圖片 (.png, .jpeg, .jpg, .svg, .gif)