一個高效能模型,採用名為「Reflection-tuning」的新技術訓練而成,該技術教導 LLM 偵測其推理中的錯誤並修正方向。
70b
103.4K 提取次數 更新於 6 個月前
更新於 6 個月前
6 個月前
77fecce26024 · 58GB
模型
架構llama
·
參數70.6B
·
量化Q6_K
58GB
參數
{ "stop": [ "<|start_header_id|>", "<|end_header_id|>", "<|eot_id|>"
127B
模板
{{- range $i, $_ := .Messages }}<|start_header_id|>{{ .Role }}<|end_header_id|> {{ .Content }} {{- i
297B
系統
您是一個世界級的 AI 系統,能夠進行複雜的推理和反思。針對問題進行推理
298B
授權條款
LLAMA 3.1 社群授權協議 Llama 3.1 版本發布日期:2024 年 7 月 23 日 「協議」
12kB
Readme
在採樣過程中,模型將首先在 <thinking>
和 </thinking>
標籤內輸出推理過程,然後一旦對其推理感到滿意,它將在 <output>
和 </output>
標籤內輸出最終答案。 這些標籤中的每一個都是特殊符記,經過模型訓練。
這使模型能夠將其內部想法和推理與最終答案分開,從而改善用戶體驗。
在 <thinking>
部分內,模型可能會輸出一個或多個 <reflection>
標籤,這表示模型已發現其推理中的錯誤,並將嘗試在提供最終答案之前對其進行更正。