一個完全開源的推理模型系列,使用通過提煉 DeepSeek-R1 得到的數據集構建。

7b 32b

509.8K 3 週前

Readme

OpenThinker 是一系列基於 Qwen2.5 微調的模型,數據集來自 OpenThoughts-114k 數據集,在某些基準測試中超越了 DeepSeek-R1 蒸餾模型。

該數據集通過使用 github 上提供的數據管道提煉 DeepSeek-R1 而來。有關數據集的更多信息,請參閱 OpenThoughts-114k 數據集的數據集卡。

模型

32B

ollama run openthinker:32b
模型名稱 數據集大小 AIME24 I/II AIME25 I MATH500 GPQA Diamond LCBv2
LIMO-32B 0.8k 56.7 49.3 86.6 58.1 60.0
s1-32B 1k 36.0 25.3 84.8 50.5 40.9
s1.1-32B 1k 64.7 49.3 89.0 60.1 65.5
DeepSeek-R1-Distill-Qwen-32B 800k (closed) 76.7 55.9 89.4 57.6 71.2
OpenThinker-32B 114k 66.0 53.3 90.6 61.6 68.9

7B (default)

ollama run openthinker:7b
AIME24 MATH500 GPQA-Diamond LCBv2 Easy LCBv2 Medium LCBv2 Hard LCBv2 All
OpenThinker-7B 31.3 83.0 42.4 75.3 28.6 6.5 39.9
Bespoke-Stratos-7B 22.7 79.6 38.9 71.4 25.2 0.8 35.8
DeepSeek-R1-Distill-Qwen-7B 60 88.2 46.9 79.7 45.1 14.6 50.1
gpt-4o-0513 8.7 75.8 46.5 87.4 42.7 8.9 50.5
o1-mini 64 85.6 60 92.8 74.7 39.8 72.8

參考文獻

GitHub

部落格文章