qwq

QwQ 是一個專注於提升人工智慧推理能力的實驗性研究模型。

工具 32b

153.9K 2 個月前

說明文件

QwQ 是由 Qwen 團隊開發的 32B 參數實驗性研究模型,專注於提升人工智慧推理能力。

image.png

image.png

QwQ 在這些基準測試中展現了卓越的性能

  • 在 GPQA 上達到 65.2%,展現其研究生級別的科學推理能力
  • 在 AIME 上達到 50.0%,突顯其強大的數學問題解決能力
  • 在 MATH-500 上達到 90.6%,展現其在不同主題中卓越的數學理解能力
  • 在 LiveCodeBench 上達到 50.0%,驗證了其在真實場景中穩健的程式設計能力。

這些結果突顯了 QwQ 在分析和問題解決能力方面的顯著進展,尤其是在需要深度推理的技術領域。

作為預覽版本,它展現了有前景的分析能力,但同時也存在一些重要的限制

  1. 語言混合和程式碼切換: 模型可能會混合語言或意外地在語言之間切換,影響回應的清晰度。

  2. 遞迴推理迴圈: 模型可能會進入循環推理模式,導致冗長的回應而沒有結論性的答案。

  3. 安全性和倫理考量: 模型需要加強安全措施以確保可靠和安全的性能,使用者在部署時應謹慎。

  4. 性能和基準測試限制: 模型在數學和編碼方面表現出色,但在其他領域,例如常識推理和細緻的語言理解方面,仍有改進空間。