TopRank Skills

Home / Claw Skills / Git / GitHub / media-crawler
Official OpenClaw rules 36%

media-crawler

基于 MediaCrawler 的多平台公开信息采集工具,支持安装、命令行运行、WebUI、结果定位与常用任务模板。

Stars

0

Installs

0

Status

ACTIVE

Visibility

PUBLIC

安装方式

直接复制以下提示词,发送给你的 AI 助手即可完成安装。

请先检查是否已安装 SkillHub 商店,若未安装,请根据 https://skillhub-1388575217.cos.ap-guangzhou.myqcloud.com/install/skillhub.md 安装 SkillHub 商店,然后安装 media-crawler 技能。 若已安装,则直接安装 media-crawler 技能。

Overview

Skill Key
excalibur9527/mediacrawler-skill
Author
excalibur9527
Source Repo
openclaw/skills
Version
-
Source Path
skills/excalibur9527/mediacrawler-skill
Latest Commit SHA
8c77bab75c0194529265ad320adaf2aeeffb7c30

Extracted Content

SKILL.md excerpt

# MediaCrawler

基于 [MediaCrawler](https://github.com/NanmiCoder/MediaCrawler.git) 的多平台公开信息采集工具。

## 支持平台

- 小红书(xhs)
- 抖音(dy)
- 快手(ks)
- B站(bili)
- 微博(wb)
- 贴吧(tieba)
- 知乎(zhihu)

## 功能特性

- 自动安装依赖
- 关键词搜索采集
- 指定帖子/内容 ID 采集
- 创作者主页采集
- 评论/二级评论抓取
- 登录态缓存
- WebUI 可视化操作
- 多种数据存储(CSV, JSON, JSONL, Excel, SQLite, MySQL, MongoDB)
- 结果文件快速定位

## Usage

### 安装环境

```bash
bash scripts/setup.sh
```

### 查看帮助

```bash
cd "$PROJECT_PATH"
uv run main.py --help
```

### 运行采集

#### 小红书 - 关键词搜索

```bash
uv run main.py --platform xhs --lt qrcode --type search --keywords "护肤" --headless false
```

#### 抖音 - 关键词搜索

```bash
uv run main.py --platform dy --lt qrcode --type search --keywords "护肤" --headless false
```

#### 指定帖子详情抓取

```bash
uv run main.py --platform xhs --lt qrcode --type detail --specified_id "帖子ID1,帖子ID2"
```

#### 创作者主页抓取

```bash
uv run main.py --platform xhs --lt qrcode --type creator --creator_id "创作者ID1"
```

### 启动 WebUI

```bash
uv run uvicorn api.main:app --port 8080 --reload
```

启动后访问:

```text
http://127.0.0.1:8080
```

## 数据存储

根据 `config/base_config.py` 中:

```python
SAVE_DATA_OPTION = "jsonl"
SAVE_DATA_PATH = ""
```

默认结果保存到:

```bash
data/{平台}/{存储格式}/
```

例如抖音 JSONL:

```bash
data/douyin/jsonl/search_contents_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_comments_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_creators_YYYY-MM-DD.jsonl
```

例如小红书 JSONL:

```bash
data/xiaohongshu/jsonl/search_contents_YYYY-MM-DD.jsonl
data/xiaohongshu/jsonl/search_comments_YYYY-MM-DD.jsonl
```

如果你设置了:

```bash
--save_data_path "/your/custom/path"
```

则结果会写入你指定的目录。

## 快速查看结果

```bash
bash scripts/show_results.sh
```

该脚本会列出当前项目下 `data/` 目录中的结果文件。

## 前置依赖

- Git
- uv(脚本可自动安装)
- Playwright 浏览器驱动(脚本自动安装 Chrom...

README excerpt

# MediaCrawler Automation

基于 [MediaCrawler](https://github.com/NanmiCoder/MediaCrawler.git) 的多平台公开信息采集 skill,支持自动安装、命令行运行、WebUI、常用任务模板和结果定位。

## 这个 skill 做什么

- 自动检测 `git`
- 自动检测并安装 `uv`
- 从 GitHub 拉取或更新 MediaCrawler 项目
- 执行 `uv sync`
- 安装 Playwright Chromium
- 执行一次健康检查,确认主程序可以启动
- 提供常用搜索命令模板
- 提供 WebUI 启动命令
- 提供结果文件定位命令

## 默认项目目录

默认安装到:

```bash
$HOME/MediaCrawler
```

也可以通过环境变量覆盖:

```bash
PROJECT_PATH=/your/path/to/MediaCrawler
bash scripts/setup.sh
```

## 安装

```bash
bash scripts/setup.sh
```

## 安装脚本行为

脚本会依次执行:

1. 检查 `git`
2. 检查 `uv`,若缺失则尝试自动安装
3. 克隆项目;若目录已存在且是正确仓库,则执行 `git pull --ff-only`
4. 执行 `uv sync`(失败时自动重试一次)
5. 安装 Playwright Chromium
6. 执行 `uv run main.py --help` 做健康检查

## 使用方法

### 查看帮助

```bash
cd "$PROJECT_PATH"
uv run main.py --help
```

### 运行主程序

```bash
cd "$PROJECT_PATH"
uv run main.py
```

### 启动 WebUI

```bash
cd "$PROJECT_PATH"
uv run uvicorn api.main:app --port 8080 --reload
```

启动后访问:

```text
http://127.0.0.1:8080
```

### 抖音关键词搜索示例

```bash
cd "$PROJECT_PATH"
uv run main.py --platform dy --lt qrcode --type search --keywords "护肤" --headless false
```

### 小红书关键词搜索示例

```bash
cd "$PROJECT_PATH"
uv run main.py --platform xhs --lt qrcode --type search --keywords "护肤" --headless false
```

## 结果文件位置

当 `SAVE_DATA_OPTION = "jsonl"` 且 `SAVE_DATA_PATH = ""` 时,结果默认保存到:

```bash
data/{平台}/{存储格式}/
```

例如抖音:

```bash
data/douyin/jsonl/search_contents_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_comments_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_creators_YYYY-MM-DD.jsonl
```

例如小红书:

```bash
data/xiaohongshu/jsonl/search_contents_YYYY-MM-DD.jsonl
data/xiaohongshu/jsonl/search_comments_YYYY-MM-DD.jsonl
```

也可以通过:

```bash
--save_data_path "/your/custom/path"...

Related Claw Skills