更新於 6 天前
6 天前
cc1091b0e276 · 20GB
模型
架構qwen2
·
參數32.8B
·
量化Q4_K_M
20GB
參數
{ "stop": [ "<|im_start|>", "<|im_end|>" ], "temperature": 0.6 }
77B
範本
{{- if or .System .Tools }}<|im_start|>system {{- if .System }} {{ .System }} {{- end }} {{- if .Too
1.2kB
授權條款
Apache License Version 2.0, January 2004
11kB
說明文件
QwQ 是 Qwen 系列的推理模型。與傳統的指令微調模型相比,QwQ 具備思考和推理能力,可以在下游任務中實現顯著增強的性能,尤其是在難題上。QwQ-32B 是中等規模的推理模型,能夠在與最先進的推理模型(例如 DeepSeek-R1、o1-mini)的競爭中取得優異的性能。
未來工作
這標誌著 Qwen 在擴展強化學習 (RL) 以增強推理能力方面邁出的第一步。透過這段旅程,我們不僅見證了規模化 RL 的巨大潛力,也認識到預訓練語言模型中未開發的可能性。當我們致力於開發下一代 Qwen 時,我們深信,將更強大的基礎模型與由規模化計算資源驅動的 RL 相結合,將推動我們更接近實現人工通用智慧 (AGI) 的目標。此外,我們正在積極探索將代理與 RL 整合,以實現長程推理,目標是透過推論時間擴展來釋放更大的智慧。