基於 Llama 3 的開放權重函數呼叫模型,功能可與 GPT-4o 的函數呼叫能力相媲美。

工具 70b

19K 7 個月前

Readme

Firefunction-v2 的函數呼叫能力與 GPT-4o 競爭力相當,在綜合公開基準測試中得分 0.81,而 GPT-4o 的得分為 0.80。

Firefunction-v2 針對真實世界情境進行優化,包括多輪對話、指令遵循和平行函數呼叫。它保留了 Llama 3 的多輪指令能力 (在 MT bench 上得分 0.84,而 Llama 3 為 0.89),同時在函數呼叫任務上持續超越 Llama 3 (在 Nexus 平行多函數評估中得分 0.51,而 Llama 3 為 0.30)。

參考資料

部落格

Hugging Face