ecommerce-scraper

爬取动态电商网站数据。使用Playwright处理JavaScript渲染的页面，支持Cloudflare反爬、隐躲API发现、分页抓取。适用于： (1) 爬取京东/淘宝/拼多多等中国电商， (2) 爬取Amazon/eBay等国际电商， (3) 价格监控和竞品分析， (4) 批量商品数据采集。

View Source SKILL.md

Stars

Installs

Status

ACTIVE

Visibility

PUBLIC

安装方式

直接复制以下提示词，发送给你的 AI 助手即可完成安装。

请先检查是否已安装 SkillHub 商店，若未安装，请根据 https://skillhub-1388575217.cos.ap-guangzhou.myqcloud.com/install/skillhub.md 安装 SkillHub 商店，然后安装 ecommerce-scraper 技能。若已安装，则直接安装 ecommerce-scraper 技能。

Overview

Skill Key: chefroger/ecommerce-scraper
Author: chefroger
Source Repo: openclaw/skills
Version: 1.0.0
Source Path: skills/chefroger/ecommerce-scraper
Latest Commit SHA: e47991a389b3ec4b8e0ef7b1ef5e717057d06950

Extracted Content

SKILL.md excerpt

# E-commerce Scraper

电商动态网站爬虫技能，基于Playwright处理JavaScript渲染。

## 快速开始

### 基础爬取

```python
from playwright.sync_api import sync_playwright

def scrape_page(url):
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        page.goto(url, wait_until="networkidle")
        content = page.content()
        browser.close()
        return content
```

### 完整示例：爬取商品列表

```python
from playwright.sync_api import sync_playwright
import json
import re

def scrape_ecommerce_products(url, max_pages=3):
    """爬取电商商品数据"""
    products = []
    
    with sync_playwright() as p:
        browser = p.chromium.launch(
            headless=True,
            args=['--disable-blink-features=AutomationControlled']
        )
        
        context = browser.new_context(
            user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36'
        )
        page = context.new_page()
        
        # 绕过Cloudflare检测
        page.add_init_script("""
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            });
        """)
        
        for page_num in range(1, max_pages + 1):
            print(f"爬取第 {page_num} 页...")
            page.goto(f"{url}?page={page_num}", wait_until="networkidle", timeout=30000)
            
            # 等待商品加载
            try:
                page.wait_for_selector('.product-item, .goods-item, [class*="product"]', timeout=10000)
            except:
                pass
            
            # 提取商品数据
            items = page.query_selector_all('div[class*="product"], li[class*="item"], .goods-item')
            
            for item in items:
                try:
                    product = {
                        'title': item.query_selector('a[class*="title"], h3, .product-title')?.inner_text().strip(),
                        'price': item.query_sel...

Related Claw Skills

openbotx

★ 83

An open-source platform for orchestrating AI agents — secure, simple, and built for everyone. Multi-agent, real-time task board, web control panel, skills system, browser automation, multi-provider, scheduler, and more. One command to start. Everything from the browser. No coding required.

sealiu1997

zsxq-digest

★ 8

OpenClaw skill for 知识星球 / ZSXQ digests with token-first auth and browser recovery.

abczsl520

browser-use-skill

★ 3

🌐 OpenClaw skill for Browser-Use — AI-powered browser automation for complex multi-step workflows (login, form filling, scraping, posting)

chizhongwang

veriglow-agent-map-skill

★ 1

Teach AI agents to discover hidden APIs, data functions & browser automation recipes for any website. Works with Claude Code, ClawHub, Cursor & any AgentSkills-compatible agent.

ashemag

reddit-crosspost

★ 1

OpenClaw skill to crosspost X/Twitter posts to Reddit via browser automation

canbirlik

claw-browser

★ 0

A visual, human-like web browser for OpenClaw agents.Supports reading,screenshots, and visible mode.

Analysis Signals

Dependencies

playwright gh python go java