Falcon3 是一系列基於創新訓練技術,在科學、數學和編碼方面表現出色,且參數少於 100 億的高效率人工智慧模型。

1b 3b 7b 10b

42.2K 2 個月前

說明文件

Falcon3 代表 TII 在參數少於 100 億的高效率語言模型方面的最新進展,專注於提升在科學、數學和程式碼方面的能力,同時保持訓練效率。

主要特色

  • 四種尺寸:1B、3B、7B、10B
  • 使用深度放大技術從 7B 模型創建 10B 模型
  • 較小模型(1B、3B)的知識蒸餾

效能亮點

  • falcon3:1b 效能優於 smollm2:1.7b,效能相當於 gemma2:2b
  • falcon3:10b 在低於 13B 參數類別中達到 SOTA
  • 擴展上下文長度高達 32K tokens(1B 模型為 8K)

參考文獻

Hugging Face