跳到主要内容

爬虫(spider)

Scrapy

安装

推荐使用虚拟环境安装,避免污染全局 Python。

python3 -m venv .venv
source .venv/bin/activate
python -m pip install -U pip
pip install scrapy

Windows(PowerShell)激活虚拟环境:

python -m venv .venv
.\.venv\Scripts\Activate.ps1
python -m pip install -U pip
pip install scrapy

验证安装:

scrapy version

创建项目

scrapy startproject demo_spider
cd demo_spider

生成一个爬虫文件:

scrapy genspider example example.com

运行方法

在 Scrapy 项目根目录执行:

scrapy crawl example

将结果导出为 JSON:

scrapy crawl example -O result.json

常用调试命令:

scrapy list
scrapy shell "https://example.com"