Deepseek-R1-Distilled-Qwen-1.5B 的微調版本,僅以 1.5B 參數在熱門數學評估中超越 OpenAI 的 o1-preview 效能。

1.5b

66.3K 4 週前

自述文件

DeepScaleR

🚀 將大型語言模型的強化學習普及化 🌟

DeepScaleR-1.5B-Preview 是一個語言模型,它基於 DeepSeek-R1-Distilled-Qwen-1.5B 進行微調,並使用分散式強化學習 (RL) 來擴展到長上下文長度。該模型在 AIME 2024 上達到 43.1% 的 Pass@1 準確度,相較於基礎模型 (28.8%) 提升了 15%,並僅以 1.5B 參數超越了 OpenAI 的 O1-Preview 效能。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math Olympiad Bench 平均
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
O1-Preview 40.0 81.4 - - - -

image.png

資料

我們的訓練資料集包含約 40,000 個獨特的問題解答對,編譯自

  • AIME 問題 (1984-2023)
  • AMC 問題 (2023 年之前)
  • Omni-MATH 資料集
  • Still 資料集

評估

我們在競賽級數學基準測試中評估我們的模型,包括 AIME 2024、AMC 2023、MATH-500、Minerva Math 和 OlympiadBench。以下報告 Pass@1 準確度,每個問題平均取樣 16 次。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math OlympiadBench 平均
Qwen-2.5-Math-7B-Instruct 13.3 79.8 50.6 34.6 40.7 43.8
rStar-Math-7B 26.7 78.4 47.5 - 47.1 -
Eurus-2-7B-PRIME 26.7 79.2 57.8 38.6 42.1 48.9
Qwen2.5-7B-SimpleRL 26.7 82.4 62.5 39.7 43.3 50.9
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5 43.3 48.9
Still-1.5B 32.5 84.4 66.7 29.0 45.4 51.6
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2 50.0 57.0
O1-Preview 40.0 81.4 - - - -

我們將 DeepScaleR 與我們使用的基礎 DeepSeek 模型,以及近期探索推理任務強化學習的學術著作進行比較。DeepScaleR 在所有基準測試中顯著優於基礎模型,在 AIME2024 上取得了 14.4% 的絕對提升,整體改進了 8.1%。此外,DeepScaleR 超越了近期的學術著作,如 rSTAR、Prime 和 SimpleRL,這些著作都是從 7B 模型微調而來。DeepScaleR 僅以 1.5B 參數就達到了 O1-preview 等級的效能,展現了卓越的效率提升。

image.png

參考文獻

文章

GitHub

Hugging Face