Deepseek-R1-Distilled-Qwen-1.5B 的微調版本,僅以 1.5B 參數在熱門數學評估中超越 OpenAI 的 o1-preview 效能。
1.5b
66.3K 下載次數 更新於 4 週前
更新於 4 週前
4 週前
0031bcf7459f · 3.6GB
模型
架構qwen2
·
參數1.78B
·
量化F16
3.6GB
參數
{ "stop": [ "<|begin of sentence|>", "<|end of sentence|>",
179B
模板
{{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice
387B
授權條款
MIT License Copyright (c) 2025 Agentica Permission is hereby granted, free of charge, to any perso
1.1kB
自述文件
DeepScaleR
🚀 將大型語言模型的強化學習普及化 🌟
DeepScaleR-1.5B-Preview 是一個語言模型,它基於 DeepSeek-R1-Distilled-Qwen-1.5B 進行微調,並使用分散式強化學習 (RL) 來擴展到長上下文長度。該模型在 AIME 2024 上達到 43.1% 的 Pass@1 準確度,相較於基礎模型 (28.8%) 提升了 15%,並僅以 1.5B 參數超越了 OpenAI 的 O1-Preview 效能。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | Olympiad Bench | 平均 |
---|---|---|---|---|---|---|
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
資料
我們的訓練資料集包含約 40,000 個獨特的問題解答對,編譯自
- AIME 問題 (1984-2023)
- AMC 問題 (2023 年之前)
- Omni-MATH 資料集
- Still 資料集
評估
我們在競賽級數學基準測試中評估我們的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。以下報告 Pass@1 準確度,每個問題平均取樣 16 次。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | OlympiadBench | 平均 |
---|---|---|---|---|---|---|
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
Still-1.5B | 32.5 | 84.4 | 66.7 | 29.0 | 45.4 | 51.6 |
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
我們將 DeepScaleR 與我們使用的基礎 DeepSeek 模型,以及近期探索推理任務強化學習的學術著作進行比較。DeepScaleR 在所有基準測試中顯著優於基礎模型,在 AIME2024 上取得了 14.4% 的絕對提升,整體改進了 8.1%。此外,DeepScaleR 超越了近期的學術著作,如 rSTAR、Prime 和 SimpleRL,這些著作都是從 7B 模型微調而來。DeepScaleR 僅以 1.5B 參數就達到了 O1-preview 等級的效能,展現了卓越的效率提升。