一系列為視覺語言理解設計的多模態 LLM (MLLM)。

視覺 8b

102.5K 2 個月前

自述檔案

注意:此模型需要 Ollama 0.3.10 或更高版本。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新且功能最強大的模型。該模型基於 SigLip-400M 和 Qwen2-7B 构建,總共有 8B 個參數。與 MiniCPM-Llama3-V 2.5 相比,它在性能上有顯著提升,並為多圖像和視頻理解引入了新功能。 MiniCPM-V 2.6 的顯著功能包括

  • 🔥 領先效能:MiniCPM-V 2.6 在最新版本的 OpenCompass 上取得了 65.2 的平均分,OpenCompass 是對 8 個熱門基準的全面評估。僅使用 8B 參數,它在單圖像理解方面超越了廣泛使用的專有模型,如 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。

  • 🖼️ 多圖像理解和情境學習。 MiniCPM-V 2.6 也可以執行基於多張圖像的對話和推理。它在流行的多圖像基準測試(如 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv)上取得了最先進的性能,並且還展現了有希望的情境學習能力。

  • 💪 強大的 OCR 能力:MiniCPM-V 2.6 可以處理任何長寬比且高達 180 萬像素(例如 1344x1344)的圖像。它在 OCRBench 上取得了最先進的性能,超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等專有模型。基於最新的 RLAIF-V 和 VisCPM 技術,它具有值得信賴的行為,在 Object HalBench 上的幻覺率顯著低於 GPT-4o 和 GPT-4V,並支持英語、中文、德語、法語、意大利語、韓語等多種語言能力。

  • 🚀 優越的效率:除了友好的尺寸外,MiniCPM-V 2.6 還展現了最先進的令牌密度(即編碼到每個視覺令牌中的像素數量)。在處理 180 萬像素圖像時,它僅產生 640 個令牌,比大多數模型少 75%。這直接提高了推理速度、首個令牌延遲、記憶體使用量和功耗。

參考文獻

GitHub

Hugging Face