性能优化与调试:并发调优、日志分析

📂 所属阶段:第四阶段 — 实战演练(项目开发篇)


1. 并发优化

# settings.py

# 并发请求数
CONCURRENT_REQUESTS = 32

# 单个域名的并发数
CONCURRENT_REQUESTS_PER_DOMAIN = 8

# 下载延迟
DOWNLOAD_DELAY = 0.5

# 自动限速
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5
AUTOTHROTTLE_MAX_DELAY = 60

2. 日志分析

# 启用日志
LOG_LEVEL = 'DEBUG'
LOG_FILE = 'scrapy.log'

# 分析日志
# grep "ERROR" scrapy.log | wc -l  # 错误数
# grep "Crawled" scrapy.log | wc -l  # 爬取数

3. 小结

性能优化关键:

1. 并发数:根据网站调整
2. 延迟:避免被封
3. 日志:便于调试

目标:
- 最大化吞吐量
- 最小化错误率
- 保持稳定性

💡 记住:性能优化是一个持续的过程。不断监控、分析、调整,你的爬虫会越来越快。


🔗 扩展阅读