LLaVA 多模态大模型实战教程:让AI看懂图片
LLaVA(Large Language and Vision Assistant)是最知名的开源多模态模型,将视觉编码器与LLM结合,实现图片理解、OCR、图表分析等功能。本文教你部署和使用。
🧠 架构原理
| 组件 | 说明 |
|---|---|
| 视觉编码器 | CLIP ViT-L/14,提取图像特征 |
| 投影层 | 将视觉特征映射到文本空间 |
| LLM | Vicuna/LLaMA/Qwen 等 |
🚀 用 Ollama 部署(最简单)
# 拉取 LLaVA 模型
ollama pull llava:13b
# 交互式对话(输入图片路径)
ollama run llava:13b
>>> Describe this image: ./photo.jpg
🐍 Python API 调用
import base64, requests
with open("image.jpg", "rb") as f:
img_b64 = base64.b64encode(f.read()).decode()
response = requests.post("http://localhost:11434/api/chat", json={
"model": "llava:13b",
"messages": [{
"role": "user",
"content": "描述这张图片",
"images": [img_b64]
}]
})
print(response.json()["message"]["content"])
🎯 实战应用场景
| 场景 | 提示词示例 |
|---|---|
| 图片描述 | “详细描述这张图片的内容” |
| OCR 文字提取 | “提取图片中的所有文字” |
| 图表分析 | “分析这张图表的数据趋势” |
| 代码截图转代码 | “把截图中的代码转成文本” |
🎯 总结
LLaVA 是最成熟的开源多模态方案之一。配合 Ollama 部署极其简单,13B版本就能实现不错的图片理解能力。完全免费替代 GPT-4V 的图片分析功能。

发表回复