更新於 2 個月前
2 個月前
4752e62baa0a · 4.7GB
模型
archqwen2
·
parameters7.62B
·
quantizationQ4_K_M
4.7GB
範本
{{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 -}} <|im_start|>{{ .R
239B
系統
你是一个经过良好训练的AI助手,你的名字是Marco-o1.由阿里国际数字商业集
465B
授權條款
Apache License Version 2.0, January 200
11kB
說明文件
- 使用 CoT 資料進行微調: 我們透過在基礎模型上使用開源 CoT 資料集以及我們自行開發的合成資料,執行全參數微調,從而開發出 Marco-o1-CoT。
- 透過 MCTS 擴展解空間: 我們將 LLM 與 MCTS (Marco-o1-MCTS) 整合,使用模型的輸出置信度來引導搜尋並擴展解空間。
- 推理行動策略: 我們實施了新穎的推理行動策略和反思機制 (Marco-o1-MCTS mini-step),包括在 MCTS 框架內探索不同的行動粒度,並提示模型進行自我反思,從而顯著增強模型解決複雜問題的能力。
- 在翻譯任務中的應用: 我們是第一個將大型推理模型 (LRM) 應用於機器翻譯任務的公司,探索多語言和翻譯領域的推論時間縮放定律。
使用方式
ollama run marco-o1 "How many Rs are in strawberry?"
解析 <Output>
和 </Output>
之間的結果字串
...
<Output>
There are 3 Rs in strawberry.
</Output>