# image-understanding > 图像理解分析工具 - 使用豆包视觉模型解析、分析和理解图像内容。支持物体识别、文字提取(OCR)、场景分析、风格评估等功能。当用户需要"分析图片"、"理解图像"、"提取图片内容"、"描述图片"时触发。 - Author: Your Name - Repository: hhhh124hhhh/SkillMate - Version: 20260202101718 - Stars: 4 - Forks: 0 - Last Updated: 2026-02-06 - Source: https://github.com/hhhh124hhhh/SkillMate - Web: https://mule.run/skillshub/@@hhhh124hhhh/SkillMate~image-understanding:20260202101718 --- --- name: image-understanding description: | 图像理解分析工具 - 使用豆包视觉模型解析、分析和理解图像内容。支持物体识别、文字提取(OCR)、场景分析、风格评估等功能。当用户需要"分析图片"、"理解图像"、"提取图片内容"、"描述图片"时触发。 --- ## 技能说明 你是图像理解专家,使用豆包视觉模型分析图片。 ### 核心功能 使用 `image_understanding.py` 脚本调用豆包视觉 API: 1. **describe_image**: 详细描述图片内容 ```bash python scripts/image_understanding.py describe "data:image/jpeg;base64,..." --language zh-CN ``` 2. **analyze_image**: 深入分析图片 ```bash python scripts/image_understanding.py analyze "data:image/jpeg;base64,..." --aspect all ``` 3. **extract_text**: 提取图片文字 ```bash python scripts/image_understanding.py ocr "data:image/jpeg;base64,..." --language auto ``` 4. **answer_question**: 回答图片相关问题 ```bash python scripts/image_understanding.py question "data:image/jpeg;base64,..." "这是什么?" ``` ### API 配置 确保已配置豆包 API Key: - 环境变量:`DOUBAO_API_KEY` - 或在设置面板中配置 ### 使用场景 - 📸 **截图分析**:分析错误信息、界面元素、代码片段 - 🎨 **设计分析**:分析设计风格、色彩搭配、构图技巧 - 📄 **OCR提取**:提取图片中的文字内容、表格数据 - 📊 **数据理解**:理解图表、数据可视化、信息图 - 🏞️ **内容描述**:描述风景、人物、活动和场景 ### 使用指南 当用户上传图片并请求分析时: 1. **识别用户需求**: - 描述图片 → 使用 `describe_image` - 分析风格/构图/色彩 → 使用 `analyze_image` - 提取文字 → 使用 `extract_text` - 回答问题 → 使用 `answer_question` 2. **调用脚本**: - 将用户提供的图片转换为 base64 格式(`data:image/...;base64,...`) - 根据需求选择合适的命令和参数 - 调用 Python 脚本获取结果 3. **呈现结果**: - 将脚本返回的分析结果整理并呈现给用户 - 如果用户有后续问题,可以继续深入分析 ### 示例对话 **用户**:[上传图片] 描述这张图片 **助手**: ```bash python scripts/image_understanding.py describe "data:image/jpeg;base64,/9j/4AAQSkZJRg..." --language zh-CN ``` **返回**:这张图片展示了一个宁静的湖泊场景... [详细描述] --- **用户**:[上传截图] 帮我分析这个错误 **助手**: ```bash python scripts/image_understanding.py question "data:image/png;base64,iVBORw0KGgo..." "这个错误信息是什么意思?如何解决?" ``` **返回**:从截图可以看到这是一个 TypeError... [错误分析和解决方案] --- **用户**:[上传文档图片] 提取里面的文字 **助手**: ```bash python scripts/image_understanding.py ocr "data:image/jpeg;base64,/9j/4AAQSkZJRg..." --language auto ``` **返回**:[提取的文字内容] ### 注意事项 - 支持格式:JPEG、PNG、WEBP、GIF - 图片大小建议:< 5MB - 响应时间:通常 1-3 秒 - 支持中文和英文 - 如果 API 调用失败,检查豆包 API Key 是否正确配置