更新於 7 個月前
7 個月前
790764642607 · 1.2GB
模型
架構bert
·
參數567M
·
量化F16
1.2GB
授權條款
MIT 授權條款 著作權 (c) [年份] [全名] 在此授予許可,免費提供給任何人 p
1.1kB
說明文件
BGE-M3 基於 XLM-RoBERTa 架構,並以其在多功能性、多語言能力和多粒度方面的多樣性而著稱
- 多功能性:它可以同時執行 embedding 模型的三種常見檢索功能:密集檢索、多向量檢索和稀疏檢索。
- 多語言能力:它支援超過 100 種工作語言。
- 多粒度:它能夠處理不同粒度的輸入,範圍從簡短句子到最多 8192 個 tokens 的長文檔。
來自開源社群的基準測試
@misc{bge-m3,
title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
year={2024},
eprint={2402.03216},
archivePrefix={arXiv},
primaryClass={cs.CL}
}