🥽 GPT Vision

2025年2月22日小于 1 分钟

🥽 GPT Vision

LocalAI 通过使用 LLaVA 支持理解图像，并实现了 OpenAI 的 GPT Vision API。

使用方法

OpenAI 文档：https://platform.openai.com/docs/guides/vision

要让 LocalAI 理解并回复图像中看到的内容，可以使用 /v1/chat/completions 端点，例如使用 curl：

curl http://localhost:8080/v1/chat/completions -H "Content-Type: application/json" -d '{
     "model": "llava",
     "messages": [{"role": "user", "content": [{"type":"text", "text": "图像中有什么?"}, {"type": "image_url", "image_url": {"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" }}], "temperature": 0.9}]}'

语法和功能工具可以与视觉 API 结合使用：

curl http://localhost:8080/v1/chat/completions -H "Content-Type: application/json" -d '{
     "model": "llava", "grammar": "root ::= (\"是\" | \"否\")",
     "messages": [{"role": "user", "content": [{"type":"text", "text": "图像中有没有草?"}, {"type": "image_url", "image_url": {"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" }}], "temperature": 0.9}]}'

设置

一键式镜像已经预装了 gpt-4-vision-preview 作为 llava 模型，所以在这种情况下不需要进行设置。

要设置 LLaVa 模型，请按照配置示例中的完整示例进行操作。