# ms-qwen-vl

> 调用魔搭社区（ModelScope）Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用，支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。

- Author: crocketc
- Repository: crocketc/ms-qwen-vl
- Version: 20260201004137
- Stars: 1
- Forks: 0
- Last Updated: 2026-02-06
- Source: https://github.com/crocketc/ms-qwen-vl
- Web: https://mule.run/skillshub/@@crocketc/ms-qwen-vl~ms-qwen-vl:20260201004137

---

---
name: ms-qwen-vl
description: 调用魔搭社区（ModelScope）Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用，支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。
---

# MS-Qwen-VL Skill

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能，使用 OpenAI SDK 兼容方式调用。

## 功能特点

- **OpenAI SDK 兼容**：使用标准 OpenAI SDK 调用 API
- **多种任务支持**：图像描述、OCR、视觉问答、目标检测、图表解析
- **双模型模式**：默认快速模型（30B）+ 精细高精度模型（235B）
- **灵活输入**：支持本地图片和 URL

## 安装与配置

```bash
# 安装依赖
pip install -r requirements.txt

# 配置 API Key
cp .env.example .env
```

编辑 `.env` 文件，填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key：

```
MODELSCOPE_API_KEY=your_api_key_here
```

## 快速使用

```bash
# 图像描述（默认）
python scripts/ms_qwen_vl.py image.jpg

# OCR 文字识别
python scripts/ms_qwen_vl.py image.jpg --task ocr

# 视觉问答
python scripts/ms_qwen_vl.py image.jpg --task ask --question "图片里有什么？"

# 使用精细模式（235B 模型）
python scripts/ms_qwen_vl.py image.jpg --task describe --precise
```

Python 代码调用：

```python
from scripts.ms_qwen_vl import analyze_image

result = analyze_image("image.jpg", task="ocr")
print(result)
```

## 任务类型

| 任务 | 参数 | 说明 |
|------|------|------|
| 图像描述 | `describe` | 详细描述图片内容（默认） |
| OCR 识别 | `ocr` | 识别图片中的文字 |
| 视觉问答 | `ask` | 回答关于图片的问题 |
| 目标检测 | `detect` | 检测图片中的物体 |
| 图表解析 | `chart` | 解析图表数据 |

## 环境变量

| 变量名 | 说明 |
|--------|------|
| `MODELSCOPE_API_KEY` | API 密钥（必需） |
| `MODELSCOPE_MODEL` | 默认模型（可选） |
| `MODELSCOPE_MODEL_PRECISE` | 精细模式模型（可选） |

## Resources

### scripts/

**ms_qwen_vl.py** - 核心解析脚本，提供 `analyze_image()` 统一接口

### references/

**api-guide.md** - OpenAI SDK 兼容调用方式详细说明
**models.md** - Qwen3-VL 系列模型及推荐使用场景