一個高效能模型,使用名為「Reflection-tuning」(反思調校)的新技術訓練而成,該技術教導 LLM 偵測其推理中的錯誤並修正方向。

70b

103.4K 6 個月前

讀我

在採樣過程中,模型將首先在 <thinking></thinking> 標籤內輸出推理過程,一旦對其推理感到滿意,它將在 <output></output> 標籤內輸出最終答案。這些標籤中的每一個都是特殊 token,已訓練到模型中。

這使模型能夠將其內部想法和推理與最終答案分開,從而改善使用者體驗。

<thinking> 部分內,模型可能會輸出一個或多個 <reflection> 標籤,這表示模型已發現其推理中的錯誤,並將嘗試在提供最終答案之前對其進行更正。

參考資料

Hugging Face