创建你的首个工程:scrapy startproject、目录结构解析

📂 所属阶段:第一阶段 — 初出茅庐(框架核心篇)
🔗 相关章节:Scrapy 五大核心组件 · Spider 实战


1. 创建项目

# 创建项目
scrapy startproject myproject

# 进入项目
cd myproject

# 创建爬虫
scrapy genspider example example.com

2. 项目结构

myproject/
├── myproject/
│   ├── __init__.py
│   ├── items.py           # 定义数据结构
│   ├── middlewares.py     # 中间件
│   ├── pipelines.py       # 数据管道
│   ├── settings.py        # 配置文件
│   └── spiders/
│       ├── __init__.py
│       └── example.py     # 爬虫脚本
├── scrapy.cfg             # 部署配置
└── README.md

3. 配置文件详解

# settings.py

# 爬虫名称
BOT_NAME = 'myproject'

# 项目模块
SPIDER_MODULES = ['myproject.spiders']
NEWSPIDER_MODULE = 'myproject.spiders'

# 并发数
CONCURRENT_REQUESTS = 16

# 下载延迟
DOWNLOAD_DELAY = 1

# User-Agent
USER_AGENT = 'Mozilla/5.0...'

# 中间件
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyDownloaderMiddleware': 543,
}

# 管道
ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

# 日志级别
LOG_LEVEL = 'INFO'

4. 小结

项目创建三步:

1. scrapy startproject myproject
2. cd myproject
3. scrapy genspider example example.com

然后编辑 spiders/example.py 开始爬取!

💡 记住:理解项目结构是使用 Scrapy 的第一步。每个文件都有其用途。


🔗 扩展阅读