media-crawler

Overview

Skill Key: excalibur9527/mediacrawler-skill
Author: excalibur9527
Source Repo: openclaw/skills
Version: -
Source Path: skills/excalibur9527/mediacrawler-skill
Latest Commit SHA: 8c77bab75c0194529265ad320adaf2aeeffb7c30

Extracted Content

SKILL.md excerpt

# MediaCrawler

基于 [MediaCrawler](https://github.com/NanmiCoder/MediaCrawler.git) 的多平台公开信息采集工具。

## 支持平台

- 小红书（xhs）
- 抖音（dy）
- 快手（ks）
- B站（bili）
- 微博（wb）
- 贴吧（tieba）
- 知乎（zhihu）

## 功能特性

- 自动安装依赖
- 关键词搜索采集
- 指定帖子/内容 ID 采集
- 创作者主页采集
- 评论/二级评论抓取
- 登录态缓存
- WebUI 可视化操作
- 多种数据存储（CSV, JSON, JSONL, Excel, SQLite, MySQL, MongoDB）
- 结果文件快速定位

## Usage

### 安装环境

```bash
bash scripts/setup.sh
```

### 查看帮助

```bash
cd "$PROJECT_PATH"
uv run main.py --help
```

### 运行采集

#### 小红书 - 关键词搜索

```bash
uv run main.py --platform xhs --lt qrcode --type search --keywords "护肤" --headless false
```

#### 抖音 - 关键词搜索

```bash
uv run main.py --platform dy --lt qrcode --type search --keywords "护肤" --headless false
```

#### 指定帖子详情抓取

```bash
uv run main.py --platform xhs --lt qrcode --type detail --specified_id "帖子ID1,帖子ID2"
```

#### 创作者主页抓取

```bash
uv run main.py --platform xhs --lt qrcode --type creator --creator_id "创作者ID1"
```

### 启动 WebUI

```bash
uv run uvicorn api.main:app --port 8080 --reload
```

启动后访问：

```text
http://127.0.0.1:8080
```

## 数据存储

根据 `config/base_config.py` 中：

```python
SAVE_DATA_OPTION = "jsonl"
SAVE_DATA_PATH = ""
```

默认结果保存到：

```bash
data/{平台}/{存储格式}/
```

例如抖音 JSONL：

```bash
data/douyin/jsonl/search_contents_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_comments_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_creators_YYYY-MM-DD.jsonl
```

例如小红书 JSONL：

```bash
data/xiaohongshu/jsonl/search_contents_YYYY-MM-DD.jsonl
data/xiaohongshu/jsonl/search_comments_YYYY-MM-DD.jsonl
```

如果你设置了：

```bash
--save_data_path "/your/custom/path"
```

则结果会写入你指定的目录。

## 快速查看结果

```bash
bash scripts/show_results.sh
```

该脚本会列出当前项目下 `data/` 目录中的结果文件。

## 前置依赖

- Git
- uv（脚本可自动安装）
- Playwright 浏览器驱动（脚本自动安装 Chrom...

README excerpt

# MediaCrawler Automation

基于 [MediaCrawler](https://github.com/NanmiCoder/MediaCrawler.git) 的多平台公开信息采集 skill，支持自动安装、命令行运行、WebUI、常用任务模板和结果定位。

## 这个 skill 做什么

- 自动检测 `git`
- 自动检测并安装 `uv`
- 从 GitHub 拉取或更新 MediaCrawler 项目
- 执行 `uv sync`
- 安装 Playwright Chromium
- 执行一次健康检查，确认主程序可以启动
- 提供常用搜索命令模板
- 提供 WebUI 启动命令
- 提供结果文件定位命令

## 默认项目目录

默认安装到：

```bash
$HOME/MediaCrawler
```

也可以通过环境变量覆盖：

```bash
PROJECT_PATH=/your/path/to/MediaCrawler
bash scripts/setup.sh
```

## 安装

```bash
bash scripts/setup.sh
```

## 安装脚本行为

脚本会依次执行：

1. 检查 `git`
2. 检查 `uv`，若缺失则尝试自动安装
3. 克隆项目；若目录已存在且是正确仓库，则执行 `git pull --ff-only`
4. 执行 `uv sync`（失败时自动重试一次）
5. 安装 Playwright Chromium
6. 执行 `uv run main.py --help` 做健康检查

## 使用方法

### 查看帮助

```bash
cd "$PROJECT_PATH"
uv run main.py --help
```

### 运行主程序

```bash
cd "$PROJECT_PATH"
uv run main.py
```

### 启动 WebUI

```bash
cd "$PROJECT_PATH"
uv run uvicorn api.main:app --port 8080 --reload
```

启动后访问：

```text
http://127.0.0.1:8080
```

### 抖音关键词搜索示例

```bash
cd "$PROJECT_PATH"
uv run main.py --platform dy --lt qrcode --type search --keywords "护肤" --headless false
```

### 小红书关键词搜索示例

```bash
cd "$PROJECT_PATH"
uv run main.py --platform xhs --lt qrcode --type search --keywords "护肤" --headless false
```

## 结果文件位置

当 `SAVE_DATA_OPTION = "jsonl"` 且 `SAVE_DATA_PATH = ""` 时，结果默认保存到：

```bash
data/{平台}/{存储格式}/
```

例如抖音：

```bash
data/douyin/jsonl/search_contents_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_comments_YYYY-MM-DD.jsonl
data/douyin/jsonl/search_creators_YYYY-MM-DD.jsonl
```

例如小红书：

```bash
data/xiaohongshu/jsonl/search_contents_YYYY-MM-DD.jsonl
data/xiaohongshu/jsonl/search_comments_YYYY-MM-DD.jsonl
```

也可以通过：

```bash
--save_data_path "/your/custom/path"...

TopRank Skills

安装方式

Overview

Extracted Content

SKILL.md excerpt

README excerpt

Related Claw Skills

openbotx

bambu-studio-ai

zsxq-digest

browser-use-skill

reddit-crosspost

veriglow-agent-map-skill