性能优化与调试：并发调优、日志分析

📂 所属阶段：第四阶段 — 实战演练（项目开发篇）

1. 并发优化

# settings.py

# 并发请求数
CONCURRENT_REQUESTS = 32

# 单个域名的并发数
CONCURRENT_REQUESTS_PER_DOMAIN = 8

# 下载延迟
DOWNLOAD_DELAY = 0.5

# 自动限速
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5
AUTOTHROTTLE_MAX_DELAY = 60

2. 日志分析

# 启用日志
LOG_LEVEL = 'DEBUG'
LOG_FILE = 'scrapy.log'

# 分析日志
# grep "ERROR" scrapy.log | wc -l  # 错误数
# grep "Crawled" scrapy.log | wc -l  # 爬取数

3. 小结

性能优化关键：

1. 并发数：根据网站调整
2. 延迟：避免被封
3. 日志：便于调试

目标：
- 最大化吞吐量
- 最小化错误率
- 保持稳定性

💡 记住：性能优化是一个持续的过程。不断监控、分析、调整，你的爬虫会越来越快。

🔗 扩展阅读

Scrapy 性能优化