一個新的小型推理模型,基於 Qwen 2.5 3B Instruct 模型微調。

3b

37.1K 5 週前

簡介

image.png

一個新的模型,基於 Qwen2.5-3b-Instruct 模型微調。

SmallThinker 設計用於以下使用情境

  • 邊緣部署:其小巧的尺寸使其非常適合部署在資源受限的裝置上。
  • QwQ-32B-Preview 的草稿模型:SmallThinker 可以作為較大型 QwQ-32B-Preview 模型的快速且高效的草稿模型,從而提高 70% 的速度。

為了實現推理能力,產生長鏈的 COT 推理至關重要。因此,基於 QWQ-32B-Preview,作者使用了各種合成技術(例如 personahub)來創建 QWQ-LONGCOT-500K 資料集。與其他類似資料集相比,作者超過 75% 的樣本輸出 token 超過 8K。為了鼓勵開源社群的研究,該資料集也已公開發布。

參考文獻

Hugging Face