一個高效能模型,採用名為「反思調整」(Reflection-tuning) 的新技術進行訓練,此技術教導大型語言模型 (LLM) 偵測其推理中的錯誤並修正方向。
70b
103.4K 下載次數 更新於 6 個月前
更新於 6 個月前
6 個月前
41bd1db0b708 · 53GB
模型
架構llama
·
參數70.6B
·
量化Q5_1
53GB
參數
{ "stop": [ "<|start_header_id|>", "<|end_header_id|>", "<|eot_id|>"
127B
模板
{{- range $i, $_ := .Messages }}<|start_header_id|>{{ .Role }}<|end_header_id|> {{ .Content }} {{- i
297B
系統
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the que
298B
授權
LLAMA 3.1 COMMUNITY LICENSE AGREEMENT Llama 3.1 Version Release Date: July 23, 2024 “Agreement”
12kB
自述文件
在採樣期間,模型將首先在 <thinking>
和 </thinking>
標籤內輸出推理,然後一旦對其推理感到滿意,它將在 <output>
和 </output>
標籤內輸出最終答案。這些標籤中的每一個都是特殊 tokens,被訓練到模型中。
這使模型能夠將其內部的想法和推理與最終答案分開,從而改善使用者體驗。
在 <thinking>
區段內,模型可能會輸出一個或多個 <reflection>
標籤,這表示模型已在其推理中發現錯誤,並將嘗試在提供最終答案之前糾正它。