一個精巧且高效的視覺語言模型,專為視覺文件理解而設計,能夠自動從表格、圖表、資訊圖表、繪圖、示意圖等提取內容。

vision tools 2b

19.3K 12 天前

說明文件

注意:此模型需要 Ollama 0.5.13 版本。

一個精巧且高效的視覺語言模型,專為視覺文件理解而設計,能夠自動從表格、圖表、資訊圖表、繪圖、示意圖等提取內容。此模型在一個精心策劃的指令遵循數據集上訓練,該數據集包含多樣化的公共數據集和為支持廣泛的文件理解和通用圖像任務而客製化的合成數據集。它通過使用圖像和文本模態微調 Granite 大型語言模型進行訓練。

參考資料

Hugging Face