ms-qwen-vl

Overview

Skill Key: crocketc/ms-qwen-vl
Author: crocketc
Source Repo: openclaw/skills
Version: -
Source Path: skills/crocketc/ms-qwen-vl
Latest Commit SHA: 3cd3d7da4bc60784222cbb0543aa5fc819766570

Extracted Content

SKILL.md excerpt

# MS-Qwen-VL Skill

基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能，使用 OpenAI SDK 兼容方式调用。

## 功能特点

- **OpenAI SDK 兼容**：使用标准 OpenAI SDK 调用 API
- **多种任务支持**：图像描述、OCR、视觉问答、目标检测、图表解析
- **双模型模式**：默认快速模型（30B）+ 精细高精度模型（235B）
- **灵活输入**：支持本地图片和 URL

## 安装与配置

```bash
# 安装依赖
pip install -r requirements.txt

# 配置 API Key
cp .env.example .env
```

编辑 `.env` 文件，填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key：

```
MODELSCOPE_API_KEY=your_api_key_here
```

## Claude Code 使用方式

### 重要：处理本地图片

当用户提供本地图片路径时（如桌面截图），**必须使用 Python 脚本处理**：

```bash
python scripts/ms_qwen_vl.py "<图片路径>" --task <任务类型>
```

脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。

### 处理 URL 图片

当用户提供网络 URL 时，同样使用上述命令，脚本会自动识别：

```bash
python scripts/ms_qwen_vl.py "<URL>" --task <任务类型>
```

### Claude Code 对话示例

**场景 1：分析桌面截图**
```
用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png
助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\screenshot.png"
```

**场景 2：OCR 识别本地图片**
```
用户: 识别这张图中的文字: D:\Documents\invoice.jpg
助手: [执行] python scripts/ms_qwen_vl.py "D:\Documents\invoice.jpg" --task ocr
```

**场景 3：分析网络图片**
```
用户: 分析这张图片 https://example.com/photo.jpg
助手: [执行] python scripts/ms_qwen_vl.py "https://example.com/photo.jpg" --task describe
```

**场景 4：视觉问答**
```
用户: 这张图里有几个人？C:\Users\...\Desktop\photo.png
助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\photo.png" --task ask --question "图片里有几个人？"
```

### 任务类型对照

| 用户需求 | --task 参数 |
|---------|-------------|
| 描述图片内容 | describe |
| 识别文字/OCR | ocr |
| 回答关于图片的问题 | ask（需要 --question） |
| 检测物体 | detect |
| 解析图表 | chart |

## 快速使用

```bash
# 图像描述（默认）
python scripts/ms_qwen_vl.py...

README excerpt

# MS-Qwen-VL

基于 ModelScope Qwen3-VL 多模态 API 的视觉识别技能，专为 Claude Code 设计。

## 功能特点

- **OpenAI SDK 兼容**：使用标准 OpenAI SDK 调用 API
- **多种任务支持**：图像描述、OCR、视觉问答、目标检测、图表解析
- **双模型模式**：
  - 快速模式：Qwen3-VL-30B（默认）
  - 精细模式：Qwen3-VL-235B
- **灵活输入**：支持本地图片和 URL

## 安装

```bash
# 安装依赖
pip install -r requirements.txt

# 配置 API Key
cp scripts/.env.example scripts/.env
```

编辑 `scripts/.env` 文件，填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key：

```bash
MODELSCOPE_API_KEY=your_api_key_here
```

## 使用方法

### 命令行

```bash
# 图像描述（默认）
python scripts/ms_qwen_vl.py image.jpg

# OCR 文字识别
python scripts/ms_qwen_vl.py image.jpg --task ocr

# 视觉问答
python scripts/ms_qwen_vl.py image.jpg --task ask --question "图片里有什么？"

# 目标检测
python scripts/ms_qwen_vl.py image.jpg --task detect

# 图表解析
python scripts/ms_qwen_vl.py image.jpg --task chart

# 使用精细模式（235B 模型）
python scripts/ms_qwen_vl.py image.jpg --task describe --precise

# 输出到文件
python scripts/ms_qwen_vl.py image.jpg --task ocr --output result.txt
```

### Python 代码

```python
from scripts.ms_qwen_vl import analyze_image

# 图像描述
result = analyze_image("image.jpg")
print(result)

# OCR 识别
result = analyze_image("image.jpg", task="ocr")
print(result)

# 视觉问答
result = analyze_image("image.jpg", task="ask", question="这是什么？")
print(result)

# 使用精细模式
result = analyze_image("image.jpg", task="describe", precise=True)
print(result)
```

## 任务类型

| 任务 | 参数 | 说明 |
|------|------|------|
| 图像描述 | `describe` | 详细描述图片内容（默认） |
| OCR 识别 | `ocr` | 识别图片中的文字 |
| 视觉问答 | `ask` | 回答关于图片的问题 |
| 目标检测 | `detect` | 检测图片中的物体 |
| 图表解析 | `chart` | 解析图表数据 |

## 环境变量

| 变量名 | 说明 | 默认值 |
|--------|------|--------|
| `MODELSCOPE_API_KEY` | API 密钥（必需） | - |
| `MODELSCOPE_MODEL` | 默认模型 | `Qwen/Qwen3-V...

TopRank Skills

安装方式

Overview

Extracted Content

SKILL.md excerpt

README excerpt

Related Claw Skills

humanpages

openclaw-skills

attio

firecrawl

Tweet Processor

windsor-ai