阿里巴巴國際數字商業集團 (AIDC-AI) 為真實世界解決方案開發的開放大型推理模型。

7b

33.3K 3 個月前

讀我檔案

  • 使用 CoT 數據進行微調: 我們通過使用開源 CoT 數據集結合我們自行開發的合成數據,對基礎模型進行全參數微調,從而開發出 Marco-o1-CoT
  • 通過 MCTS 擴展解決方案空間: 我們將 LLM 與 MCTS (Marco-o1-MCTS) 整合,使用模型的輸出置信度來引導搜索並擴展解決方案空間。
  • 推理行動策略: 我們實施了新穎的推理行動策略和反思機制 (Marco-o1-MCTS mini-step),包括探索 MCTS 框架內不同的行動粒度,並提示模型進行自我反思,從而顯著提高模型解決複雜問題的能力。
  • 在翻譯任務中的應用: 我們是第一個將大型推理模型 (LRM) 應用於機器翻譯任務的團隊,探索多語言和翻譯領域中的推理時間縮放定律。

使用方法

ollama run marco-o1 "How many Rs are in strawberry?"

解析 <Output></Output> 之間的結果字串

...
<Output>
There are 3 Rs in strawberry.
</Output>

參考文獻

GitHub

HuggingFace