一個精巧且高效的視覺語言模型,專為視覺文件理解而設計,能夠從表格、圖表、資訊圖表、繪圖、示意圖等自動提取內容。

vision 工具 2b

19.4K 12 天前

說明文件

注意:此模型需要 Ollama 0.5.13

一個精巧且高效的視覺語言模型,專為視覺文件理解而設計,能夠從表格、圖表、資訊圖表、繪圖、示意圖等自動提取內容。此模型在經過精心策劃的指令遵循資料集上訓練,該資料集包含多樣化的公開資料集和為支援廣泛的文件理解和一般圖像任務而量身定制的合成資料集。它通過微調 Granite 大型語言模型以及圖像和文字模態進行訓練。

參考文獻

Hugging Face