Snowflake 的前沿嵌入模型。Arctic Embed 2.0 新增了多語言支援,且不犧牲英文效能或擴展性。

嵌入 568m

19.2K 2 個月前

讀我檔案

Snowflake 很高興宣布 Arctic Embed 2.0 的發布,這是我們前沿嵌入模型的下一次迭代,現在可以支援多語言搜尋。 雖然我們之前的版本受到了客戶、合作夥伴和開源社群的好評,並實現了數百萬次的下載,但我們一直收到一個要求:你們可以讓這個模型支援多語言嗎? Arctic Embed 2.0 基於我們之前版本的穩固基礎之上,新增了多語言支援,且不犧牲英文效能或擴展性,以滿足更廣泛用戶群的需求,這些用戶群涵蓋了廣泛的語言和應用程式。

Snowflake data 圖 1. 參數少於 10 億的開源多語言嵌入模型的單向量密集檢索效能。 分數是 MTEB 檢索和 CLEF (ELRA, 2006) 子集(涵蓋英語、法語、西班牙語、義大利語和德語)的平均 nDCG@10。

Arctic Embed 2.0 多樣化且強大的功能集

  1. 企業級的吞吐量和效率:Arctic Embed 2.0 模型專為大規模企業需求而打造。 即使我們的「大型」模型參數也遠低於 10 億,並提供快速、高吞吐量的嵌入功能。 根據內部測試,它在 NVIDIA A10 GPU 上輕鬆處理每秒超過 100 份文件(平均),並實現低於 10 毫秒的查詢嵌入延遲,從而在經濟實惠的硬體上實現實際部署。
  2. 毫不妥協的英文和非英文檢索品質:儘管 Arctic Embed 2.0 模型尺寸精巧,但在各種英文和非英文基準資料集上都取得了令人印象深刻的 NDCG@10 分數,展現了即使對於訓練配方中未包含的語言,也具有良好的泛化能力。 這些令人印象深刻的基準分數使 Arctic Embed 2.0 成為前沿檢索模型中的領導者。
  3. 通過 Matryoshka Representation Learning (MRL) 實現可擴展的檢索:Arctic Embed 2.0 版本包含 Arctic Embed 1.5 中引入的相同量化友善的 MRL 功能,允許使用者在對大型資料集執行搜尋時降低成本並優化規模。 透過這兩種模型尺寸,使用者可以使用每個向量僅 128 位元組(比 OpenAI 流行的 text-embedding-3-large 模型 1 的未壓縮嵌入小 96 倍)實現高品質的檢索。 與 Arctic Embed 1.5 一樣,Arctic Embed 2.0 模型在壓縮機制中也勝過幾個支援 MRL 的同類模型,且品質下降幅度更小,基準分數更高。
  4. 真正的開源:Arctic Embed 2.0 模型在寬鬆的 Apache 2.0 授權下發布。