Overview
- Skill Key
- crocketc/ms-qwen-vl
- Author
- crocketc
- Source Repo
- openclaw/skills
- Version
- -
- Source Path
- skills/crocketc/ms-qwen-vl
- Latest Commit SHA
- 3cd3d7da4bc60784222cbb0543aa5fc819766570
调用魔搭社区(ModelScope)Qwen3-VL 多模态 API 进行视觉解析。使用 OpenAI SDK 兼容方式调用,支持图片内容描述、OCR 文字提取、视觉问答、对象检测等功能。用户提到"魔搭"、"ModelScope"、"Qwen-VL"、"多模态视觉"、"解析图片"等关键词时应触发。
Stars
0
Installs
0
Status
ACTIVE
Visibility
PUBLIC
直接复制以下提示词,发送给你的 AI 助手即可完成安装。
请先检查是否已安装 SkillHub 商店,若未安装,请根据 https://skillhub-1388575217.cos.ap-guangzhou.myqcloud.com/install/skillhub.md 安装 SkillHub 商店,然后安装 ms-qwen-vl 技能。 若已安装,则直接安装 ms-qwen-vl 技能。
# MS-Qwen-VL Skill 基于 ModelScope Qwen3-VL 系列模型的多模态视觉识别技能,使用 OpenAI SDK 兼容方式调用。 ## 功能特点 - **OpenAI SDK 兼容**:使用标准 OpenAI SDK 调用 API - **多种任务支持**:图像描述、OCR、视觉问答、目标检测、图表解析 - **双模型模式**:默认快速模型(30B)+ 精细高精度模型(235B) - **灵活输入**:支持本地图片和 URL ## 安装与配置 ```bash # 安装依赖 pip install -r requirements.txt # 配置 API Key cp .env.example .env ``` 编辑 `.env` 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key: ``` MODELSCOPE_API_KEY=your_api_key_here ``` ## Claude Code 使用方式 ### 重要:处理本地图片 当用户提供本地图片路径时(如桌面截图),**必须使用 Python 脚本处理**: ```bash python scripts/ms_qwen_vl.py "<图片路径>" --task <任务类型> ``` 脚本会自动将本地文件转换为 ModelScope API 需要的 base64 格式。 ### 处理 URL 图片 当用户提供网络 URL 时,同样使用上述命令,脚本会自动识别: ```bash python scripts/ms_qwen_vl.py "<URL>" --task <任务类型> ``` ### Claude Code 对话示例 **场景 1:分析桌面截图** ``` 用户: 请帮我描述这张图片 C:\Users\...\Desktop\screenshot.png 助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\screenshot.png" ``` **场景 2:OCR 识别本地图片** ``` 用户: 识别这张图中的文字: D:\Documents\invoice.jpg 助手: [执行] python scripts/ms_qwen_vl.py "D:\Documents\invoice.jpg" --task ocr ``` **场景 3:分析网络图片** ``` 用户: 分析这张图片 https://example.com/photo.jpg 助手: [执行] python scripts/ms_qwen_vl.py "https://example.com/photo.jpg" --task describe ``` **场景 4:视觉问答** ``` 用户: 这张图里有几个人?C:\Users\...\Desktop\photo.png 助手: [执行] python scripts/ms_qwen_vl.py "C:\Users\...\Desktop\photo.png" --task ask --question "图片里有几个人?" ``` ### 任务类型对照 | 用户需求 | --task 参数 | |---------|-------------| | 描述图片内容 | describe | | 识别文字/OCR | ocr | | 回答关于图片的问题 | ask(需要 --question) | | 检测物体 | detect | | 解析图表 | chart | ## 快速使用 ```bash # 图像描述(默认) python scripts/ms_qwen_vl.py...
# MS-Qwen-VL
基于 ModelScope Qwen3-VL 多模态 API 的视觉识别技能,专为 Claude Code 设计。
## 功能特点
- **OpenAI SDK 兼容**:使用标准 OpenAI SDK 调用 API
- **多种任务支持**:图像描述、OCR、视觉问答、目标检测、图表解析
- **双模型模式**:
- 快速模式:Qwen3-VL-30B(默认)
- 精细模式:Qwen3-VL-235B
- **灵活输入**:支持本地图片和 URL
## 安装
```bash
# 安装依赖
pip install -r requirements.txt
# 配置 API Key
cp scripts/.env.example scripts/.env
```
编辑 `scripts/.env` 文件,填入从 https://modelscope.cn/my/myaccesstoken 获取的 API Key:
```bash
MODELSCOPE_API_KEY=your_api_key_here
```
## 使用方法
### 命令行
```bash
# 图像描述(默认)
python scripts/ms_qwen_vl.py image.jpg
# OCR 文字识别
python scripts/ms_qwen_vl.py image.jpg --task ocr
# 视觉问答
python scripts/ms_qwen_vl.py image.jpg --task ask --question "图片里有什么?"
# 目标检测
python scripts/ms_qwen_vl.py image.jpg --task detect
# 图表解析
python scripts/ms_qwen_vl.py image.jpg --task chart
# 使用精细模式(235B 模型)
python scripts/ms_qwen_vl.py image.jpg --task describe --precise
# 输出到文件
python scripts/ms_qwen_vl.py image.jpg --task ocr --output result.txt
```
### Python 代码
```python
from scripts.ms_qwen_vl import analyze_image
# 图像描述
result = analyze_image("image.jpg")
print(result)
# OCR 识别
result = analyze_image("image.jpg", task="ocr")
print(result)
# 视觉问答
result = analyze_image("image.jpg", task="ask", question="这是什么?")
print(result)
# 使用精细模式
result = analyze_image("image.jpg", task="describe", precise=True)
print(result)
```
## 任务类型
| 任务 | 参数 | 说明 |
|------|------|------|
| 图像描述 | `describe` | 详细描述图片内容(默认) |
| OCR 识别 | `ocr` | 识别图片中的文字 |
| 视觉问答 | `ask` | 回答关于图片的问题 |
| 目标检测 | `detect` | 检测图片中的物体 |
| 图表解析 | `chart` | 解析图表数据 |
## 环境变量
| 变量名 | 说明 | 默认值 |
|--------|------|--------|
| `MODELSCOPE_API_KEY` | API 密钥(必需) | - |
| `MODELSCOPE_MODEL` | 默认模型 | `Qwen/Qwen3-V...
human-pages-ai
Search and hire real humans for tasks — photography, delivery, research, and more
zseven-w
Reusable skill templates for OpenClaw AI agents. Templates for API integration, data processing, web scraping, CLI tools, and file processing.
capt-marbles
Attio CRM integration for managing companies, people, deals, notes, tasks, and custom objects. Use when working with Attio CRM data, searching contacts, managing sales pipelines, adding notes to records, creating tasks, or syncing prospect information.
capt-marbles
Web scraping and crawling with Firecrawl API. Fetch webpage content as markdown, take screenshots, extract structured data, search the web, and crawl documentation sites. Use when the user needs to scrape a URL, get current web info, capture a screenshot, extract specific data from pages, or crawl docs for a framework/library.
caqlayan
Tweet Processor Skill
carlosarturoleon
Connect to Windsor.ai MCP for natural language access to 325+ data sources including Facebook Ads, GA4, HubSpot, Shopify, and more.