一款精巧且高效的視覺語言模型,專為視覺文件理解而設計,能夠自動從表格、圖表、資訊圖表、繪圖、示意圖等中提取內容。

vision tools 2b

19.3K 12 days ago

Readme

注意:此模型需要 Ollama 0.5.13

一款精巧且高效的視覺語言模型,專為視覺文件理解而設計,能夠自動從表格、圖表、資訊圖表、繪圖、示意圖等中提取內容。 此模型在精心策劃的指令遵循資料集上進行訓練,該資料集包含多樣化的公共資料集和為支援廣泛的文件理解和一般圖像任務而量身定制的合成資料集。 它通過使用圖像和文字模態微調 Granite 大型語言模型進行訓練。

參考文獻

Hugging Face