qwq

QwQ 是 Qwen 系列的推理模型。

工具 32b

868.2K 6 天前

說明

QwQ 是 Qwen 系列的推理模型。與傳統的指令微調模型相比,QwQ 具備思考和推理能力,可以在下游任務中實現顯著增強的性能,尤其是在難題上。QwQ-32B 是中等規模的推理模型,能夠與最先進的推理模型(例如 DeepSeek-R1、o1-mini) 競爭。

未來展望

這標誌著 Qwen 在擴展強化學習 (RL) 以增強推理能力方面的初步 পদক্ষেপ。 在此過程中,我們不僅見證了規模化 RL 的巨大潛力,也認識到預訓練語言模型中尚未開發的可能性。 當我們努力開發下一代 Qwen 時,我們相信將更強大的基礎模型與由規模化計算資源驅動的 RL 相結合,將推動我們更接近實現人工通用智慧 (AGI)。 此外,我們正在積極探索將代理與 RL 整合,以實現長期的推理,旨在通過推理時間縮放來釋放更大的智慧。

參考