smallthinker - Ollama 框架

一個基於 Qwen2.5-3b-Instruct 模型微調而成的新模型。

SmallThinker 專為以下使用案例設計

邊緣部署：其小巧的尺寸使其非常適合部署在資源受限的裝置上。
QwQ-32B-Preview 的草稿模型：SmallThinker 可以作為更大的 QwQ-32B-Preview 模型的快速高效草稿模型，從而產生 70% 的加速。

為了實現推理能力，產生長鏈的 COT 推理至關重要。因此，基於 QWQ-32B-Preview，作者們使用了各種合成技術（例如 personahub）來創建 QWQ-LONGCOT-500K 數據集。與其他類似數據集相比，作者超過 75% 的樣本輸出 token 超過 8K。為了鼓勵開源社群的研究，該數據集也被公開發布。

參考文獻

Hugging Face

一個基於 Qwen 2.5 3B Instruct 模型微調而成的新型小型推理模型。

自述文件

參考文獻