Falcon 3 是一系列參數小於 100 億的高效率 AI 模型,透過創新的訓練技術,在科學、數學和編碼方面表現出色。

1b 3b 7b 10b

28.4K 6 週前

讀我檔案

Falcon 3 代表 TII 在參數小於 100 億的高效率語言模型方面的最新進展,致力於提升科學、數學和程式碼能力,同時保持訓練效率。

主要特色

  • 四種尺寸:1B, 3B, 7B, 10B
  • 使用深度擴展技術,從 7B 模型創建 10B 模型
  • 針對較小模型(1B、3B)的知識蒸餾

效能亮點

  • falcon3:1b 的效能優於 smollm2:1.7b,並與 gemma2:2b 匹敵
  • falcon3:10b 在 130 億參數以下類別中達到 SOTA
  • 擴展上下文長度至 32K tokens(1B 模型為 8K)

參考資料

Hugging Face