qwq

QwQ 是一個專注於提升人工智慧推理能力的實驗性研究模型。

工具 32b

153.9K 2 個月前

讀我檔案

QwQ 是由 Qwen 團隊開發的 32B 參數實驗性研究模型,專注於提升人工智慧推理能力。

image.png

image.png

QwQ 在這些基準測試中展現了卓越的效能

  • 在 GPQA 上取得 65.2% 的成績,展現其研究生級別的科學推理能力
  • 在 AIME 上取得 50.0% 的成績,突顯其強大的數學問題解決能力
  • 在 MATH-500 上取得 90.6% 的成績,展現其在多樣主題中卓越的數學理解能力
  • 在 LiveCodeBench 上取得 50.0% 的成績,驗證其在真實世界情境中穩健的程式設計能力。

這些結果突顯了 QwQ 在分析和問題解決能力方面的顯著進步,尤其是在需要深度推理的技術領域。

作為預覽版本,它展現了有前景的分析能力,但同時也存在一些重要的限制。

  1. 語言混合與程式碼切換: 模型可能會意外地混合語言或在語言之間切換,影響回應的清晰度。

  2. 遞迴推理迴圈: 模型可能會進入循環推理模式,導致冗長的回應而沒有結論性的答案。

  3. 安全與倫理考量: 模型需要加強安全措施,以確保可靠且安全的效能,使用者在部署時應謹慎。

  4. 效能與基準測試限制: 模型在數學和程式碼方面表現出色,但在其他領域仍有改進空間,例如常識推理和細緻的語言理解。