更新於 2 個月前
2 個月前
a62e8056b1f0 · 5.1GB
Readme
注意:此模型需要 Ollama 0.3.10 或更新版本。
MiniCPM-V 2.6 是 MiniCPM-V 系列中最新且功能最強大的模型。此模型基於 SigLip-400M 和 Qwen2-7B 建構,總計 8B 參數。相較於 MiniCPM-Llama3-V 2.5,其效能顯著提升,並為多圖像和影片理解引入了新功能。MiniCPM-V 2.6 的顯著功能包括:
🔥 領先效能:MiniCPM-V 2.6 在最新版本的 OpenCompass 上,於 8 個熱門基準測試中獲得平均 65.2 分的成績。僅憑 8B 參數,在單張圖像理解方面,它超越了廣泛使用的專有模型,如 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。
🖼️ 多圖像理解和上下文學習。MiniCPM-V 2.6 也能夠針對多張圖像進行對話和推理。它在熱門的多圖像基準測試(如 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv)上取得了最先進的效能,並展現出有前景的上下文學習能力。
💪 強大的 OCR 能力:MiniCPM-V 2.6 可以處理任何長寬比且高達 180 萬像素的圖像(例如,1344x1344)。它在 OCRBench 上取得了最先進的效能,超越了專有模型,如 GPT-4o、GPT-4V 和 Gemini 1.5 Pro。基於最新的 RLAIF-V 和 VisCPM 技術,它具有值得信賴的行為,在 Object HalBench 上的幻覺率顯著低於 GPT-4o 和 GPT-4V,並支援英語、中文、德語、法語、義大利語、韓語等多種語言能力。
🚀 卓越效率:除了友善的尺寸外,MiniCPM-V 2.6 還展現了最先進的 token 密度(即,編碼到每個視覺 token 中的像素數量)。在處理 180 萬像素圖像時,它僅產生 640 個 token,比大多數模型少 75%。這直接提高了推理速度、首個 token 延遲、記憶體使用量和功耗。