Llama 3.2 Vision 是一個指令微調的影像推理生成模型集合,具有 11B 和 90B 兩種尺寸。
vision 11b 90b
1.5M 下載次數 更新於 4 個月前
更新於 4 個月前
4 個月前
5ceef0c1d3d2 · 177GB
模型
架構mllama
·
參數87.7B
·
量化F16
175GB
投影器
架構mllama
·
參數926M
·
量化F16
2.0GB
參數
{ "temperature": 0.6, "top_p": 0.9 }
32B
模板
{{- range $index, $_ := .Messages }}<|start_header_id|>{{ .Role }}<|end_header_id|> {{ .Content }}
269B
授權條款
LLAMA 3.2 社群授權協議 Llama 3.2 版本發布日期:2024 年 9 月 25 日 “協
7.7kB
說明文件
Llama 3.2-Vision 多模態大型語言模型 (LLM) 系列,是指令微調的影像推理生成模型集合,具有 11B 和 90B 兩種尺寸(文字 + 圖片輸入 / 文字輸出)。Llama 3.2-Vision 指令微調模型針對視覺辨識、影像推理、圖片描述和回答關於圖片的常見問題進行了最佳化。這些模型在常見的產業基準測試中,效能優於許多現有的開放原始碼和封閉式多模態模型。
支援語言:對於僅限文字的任務,官方支援英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語和泰語。Llama 3.2 的訓練資料集涵蓋比這 8 種支援語言更廣泛的語言集合。請注意,對於圖片 + 文字應用,僅支援英語。
使用方式
首先,拉取模型
ollama pull llama3.2-vision
Python 函式庫
若要搭配 Ollama Python 函式庫 使用 Llama 3.2 Vision
import ollama
response = ollama.chat(
model='llama3.2-vision',
messages=[{
'role': 'user',
'content': 'What is in this image?',
'images': ['image.jpg']
}]
)
print(response)
JavaScript 函式庫
若要搭配 Ollama JavaScript 函式庫 使用 Llama 3.2 Vision
import ollama from 'ollama'
const response = await ollama.chat({
model: 'llama3.2-vision',
messages: [{
role: 'user',
content: 'What is in this image?',
images: ['image.jpg']
}]
})
console.log(response)
cURL
curl https://127.0.0.1:11434/api/chat -d '{
"model": "llama3.2-vision",
"messages": [
{
"role": "user",
"content": "what is in this image?",
"images": ["<base64-encoded image data>"]
}
]
}'