一個基於 Llama 3 的開放權重功能呼叫模型,在功能呼叫能力上與 GPT-4o 競爭激烈。

工具 70b

17.9K 6 個月前

說明文件

Firefunction-v2 在功能呼叫能力上與 GPT-4o 競爭激烈,在綜合公開基準測試中得分 0.81,而 GPT-4o 的得分為 0.80。

Firefunction-v2 針對真實世界情境進行了最佳化,包括多輪對話、指令遵循和並行功能呼叫。它保留了 Llama 3 的多輪指令能力 (在 MT bench 上得分為 0.84,而 Llama 3 為 0.89),同時在功能呼叫任務上持續優於 Llama 3 (在 Nexus 並行多功能評估中得分為 0.51,而 Llama 3 為 0.30)。

參考文獻

部落格文章

Hugging Face