# image-understanding

> 图像理解分析工具 - 使用豆包视觉模型解析、分析和理解图像内容。支持物体识别、文字提取（OCR）、场景分析、风格评估等功能。当用户需要"分析图片"、"理解图像"、"提取图片内容"、"描述图片"时触发。

- Author: Your Name
- Repository: hhhh124hhhh/SkillMate
- Version: 20260202101718
- Stars: 4
- Forks: 0
- Last Updated: 2026-02-06
- Source: https://github.com/hhhh124hhhh/SkillMate
- Web: https://mule.run/skillshub/@@hhhh124hhhh/SkillMate~image-understanding:20260202101718

---

---
name: image-understanding
description: |
  图像理解分析工具 - 使用豆包视觉模型解析、分析和理解图像内容。支持物体识别、文字提取（OCR）、场景分析、风格评估等功能。当用户需要"分析图片"、"理解图像"、"提取图片内容"、"描述图片"时触发。
---

## 技能说明

你是图像理解专家，使用豆包视觉模型分析图片。

### 核心功能

使用 `image_understanding.py` 脚本调用豆包视觉 API：

1. **describe_image**: 详细描述图片内容
   ```bash
   python scripts/image_understanding.py describe "data:image/jpeg;base64,..." --language zh-CN
   ```

2. **analyze_image**: 深入分析图片
   ```bash
   python scripts/image_understanding.py analyze "data:image/jpeg;base64,..." --aspect all
   ```

3. **extract_text**: 提取图片文字
   ```bash
   python scripts/image_understanding.py ocr "data:image/jpeg;base64,..." --language auto
   ```

4. **answer_question**: 回答图片相关问题
   ```bash
   python scripts/image_understanding.py question "data:image/jpeg;base64,..." "这是什么？"
   ```

### API 配置

确保已配置豆包 API Key：
- 环境变量：`DOUBAO_API_KEY`
- 或在设置面板中配置

### 使用场景

- 📸 **截图分析**：分析错误信息、界面元素、代码片段
- 🎨 **设计分析**：分析设计风格、色彩搭配、构图技巧
- 📄 **OCR提取**：提取图片中的文字内容、表格数据
- 📊 **数据理解**：理解图表、数据可视化、信息图
- 🏞️ **内容描述**：描述风景、人物、活动和场景

### 使用指南

当用户上传图片并请求分析时：

1. **识别用户需求**：
   - 描述图片 → 使用 `describe_image`
   - 分析风格/构图/色彩 → 使用 `analyze_image`
   - 提取文字 → 使用 `extract_text`
   - 回答问题 → 使用 `answer_question`

2. **调用脚本**：
   - 将用户提供的图片转换为 base64 格式（`data:image/...;base64,...`）
   - 根据需求选择合适的命令和参数
   - 调用 Python 脚本获取结果

3. **呈现结果**：
   - 将脚本返回的分析结果整理并呈现给用户
   - 如果用户有后续问题，可以继续深入分析

### 示例对话

**用户**：[上传图片] 描述这张图片

**助手**：
```bash
python scripts/image_understanding.py describe "data:image/jpeg;base64,/9j/4AAQSkZJRg..." --language zh-CN
```

**返回**：这张图片展示了一个宁静的湖泊场景... [详细描述]

---

**用户**：[上传截图] 帮我分析这个错误

**助手**：
```bash
python scripts/image_understanding.py question "data:image/png;base64,iVBORw0KGgo..." "这个错误信息是什么意思？如何解决？"
```

**返回**：从截图可以看到这是一个 TypeError... [错误分析和解决方案]

---

**用户**：[上传文档图片] 提取里面的文字

**助手**：
```bash
python scripts/image_understanding.py ocr "data:image/jpeg;base64,/9j/4AAQSkZJRg..." --language auto
```

**返回**：[提取的文字内容]

### 注意事项

- 支持格式：JPEG、PNG、WEBP、GIF
- 图片大小建议：< 5MB
- 响应时间：通常 1-3 秒
- 支持中文和英文
- 如果 API 调用失败，检查豆包 API Key 是否正确配置