qwq

QwQ 是一個實驗性研究模型,專注於提升 AI 推理能力。

工具 32b

153.9K 2 個月前

Readme

QwQ 是一個 32B 參數的實驗性研究模型,由 Qwen 團隊開發,專注於提升 AI 推理能力。

image.png

image.png

QwQ 在這些基準測試中展現了卓越的效能

  • GPQA 上達到 65.2%,展現其研究生級別的科學推理能力
  • AIME 上達到 50.0%,突顯其強大的數學問題解決能力
  • MATH-500 上達到 90.6%,展現其在各種主題中卓越的數學理解能力
  • LiveCodeBench 上達到 50.0%,驗證其在真實世界情境中穩健的程式設計能力。

這些結果 подчеркивают QwQ 在分析和問題解決能力方面的顯著進步,尤其是在需要深度推理的技術領域。

作為預覽版本,它展示了有前景的分析能力,但同時存在一些重要的限制

  1. 語言混合和程式碼切換: 模型可能會混合語言或意外地在語言之間切換,影響回應的清晰度。

  2. 遞迴推理迴圈: 模型可能會進入循環推理模式,導致冗長的回應而沒有明確的答案。

  3. 安全性和倫理考量: 模型需要加強安全措施,以確保可靠和安全的效能,使用者在部署時應謹慎行事。

  4. 效能和基準測試限制: 模型在數學和程式碼方面表現出色,但在其他領域,如常識推理和細緻的語言理解方面,仍有改進空間。