Falcon3 是一系列參數少於 100 億的高效 AI 模型,透過創新的訓練技術,在科學、數學和編碼方面表現出色。

10億 30億 70億 100億

2.84萬 6 週前

說明文件

Falcon3 代表科技創新研究院 (TII) 在參數少於 100 億的高效率語言模型方面的最新進展,致力於提升科學、數學和程式碼能力,同時維持訓練效率。

主要特色

  • 四種尺寸:10億、30億、70億、100億
  • 使用深度向上擴展技術,從 70 億模型創建 100 億模型
  • 針對較小模型(10億、30億)的知識提煉

效能亮點

  • falcon3:1b 效能超越 smollm2:1.7b,與 gemma2:2b 相匹敵
  • falcon3:10b 在 130 億以下類別中達到 SOTA
  • 擴展上下文長度最多可達 32K tokens (10億模型為 8K)

參考文獻

Hugging Face