一個基於 Qwen 2.5 3B Instruct 模型微調的新小型推理模型。

3b

37.1K 5 週前

讀我檔案

image.png

一個基於 Qwen2.5-3b-Instruct 模型微調的新模型。

SmallThinker 專為以下使用案例設計

  • 邊緣部署:其小尺寸使其非常適合在資源受限的設備上部署。
  • QwQ-32B-Preview 的草稿模型:SmallThinker 可以作為更大的 QwQ-32B-Preview 模型的快速高效草稿模型,產生 70% 的加速。

為了實現推理能力,生成長的 COT 推理鏈至關重要。因此,基於 QWQ-32B-Preview,作者使用了各種合成技術(例如 personahub)來創建 QWQ-LONGCOT-500K 資料集。與其他類似的資料集相比,超過 75% 的作者樣本的輸出 tokens 超過 8K。為了鼓勵開源社群的研究,該資料集也被公開提供。

參考文獻

Hugging Face