一個完全開源的推理模型系列,使用透過 DeepSeek-R1 蒸餾而來的資料集所建構。

7b 32b

509.8K 3 週前

說明文件

OpenThinker 是一個基於 Qwen2.5 微調的模型系列,資料集為 OpenThoughts-114k 資料集,在某些基準測試上超越了 DeepSeek-R1 蒸餾模型。

此資料集透過 GitHub 上提供的資料管線,以 DeepSeek-R1 蒸餾而來。關於此資料集的更多資訊,請參閱 OpenThoughts-114k 資料集頁面。

模型

32B

ollama run openthinker:32b
模型名稱 資料集大小 AIME24 I/II AIME25 I MATH500 GPQA Diamond LCBv2
LIMO-32B 0.8k 56.7 49.3 86.6 58.1 60.0
s1-32B 1k 36.0 25.3 84.8 50.5 40.9
s1.1-32B 1k 64.7 49.3 89.0 60.1 65.5
DeepSeek-R1-Distill-Qwen-32B 800k (closed) 76.7 55.9 89.4 57.6 71.2
OpenThinker-32B 114k 66.0 53.3 90.6 61.6 68.9

7B (預設)

ollama run openthinker:7b
AIME24 MATH500 GPQA-Diamond LCBv2 Easy LCBv2 Medium LCBv2 Hard LCBv2 All
OpenThinker-7B 31.3 83.0 42.4 75.3 28.6 6.5 39.9
Bespoke-Stratos-7B 22.7 79.6 38.9 71.4 25.2 0.8 35.8
DeepSeek-R1-Distill-Qwen-7B 60 88.2 46.9 79.7 45.1 14.6 50.1
gpt-4o-0513 8.7 75.8 46.5 87.4 42.7 8.9 50.5
o1-mini 64 85.6 60 92.8 74.7 39.8 72.8

參考資料

GitHub

部落格文章