Falcon3 代表了 TII 在小於 10B 參數的高效率 AI 模型上的最新進展,專注於透過創新的訓練技術來增強科學、數學和程式碼能力。

1b 3b 7b 10b

28.4K 6 週前

Readme

Falcon3 代表了 TII 在小於 10B 參數的高效率語言模型上的最新進展,專注於增強科學、數學和程式碼能力,同時保持訓練效率。

主要特色

  • 四種尺寸:1B、3B、7B、10B
  • 使用深度向上擴展技術從 7B 模型創建 10B 模型
  • 為較小模型(1B、3B)進行知識蒸餾

效能亮點

  • falcon3:1b 勝過 smollm2:1.7b,與 gemma2:2b 相匹敵
  • falcon3:10b 在小於 13B 類別中達到 SOTA
  • 擴展上下文長度最多 32K tokens(1B 模型為 8K)

參考文獻

Hugging Face