一個開放權重的函數呼叫模型,基於 Llama 3,與 GPT-4o 的函數呼叫能力相競爭。

工具 70b

17.9K 6 個月前

Readme

Firefunction-v2 與 GPT-4o 的函數呼叫能力相競爭,在綜合公開基準測試中得分 0.81,相較於 GPT-4o 的 0.80。

Firefunction-v2 針對真實世界情境進行優化,包括多輪對話、指令遵循和平行函數呼叫。它保留了 Llama 3 的多輪指令能力 (在 MT bench 上為 0.84,相較於 0.89),同時在函數呼叫任務上持續超越 Llama 3 (在 Nexus 平行多函數評估中為 0.51,相較於 0.30)。

參考文獻

部落格文章

Hugging Face