📂 所属阶段:第四阶段 — 实战演练(项目开发篇)
# settings.py # 并发请求数 CONCURRENT_REQUESTS = 32 # 单个域名的并发数 CONCURRENT_REQUESTS_PER_DOMAIN = 8 # 下载延迟 DOWNLOAD_DELAY = 0.5 # 自动限速 AUTOTHROTTLE_ENABLED = True AUTOTHROTTLE_START_DELAY = 5 AUTOTHROTTLE_MAX_DELAY = 60
# 启用日志 LOG_LEVEL = 'DEBUG' LOG_FILE = 'scrapy.log' # 分析日志 # grep "ERROR" scrapy.log | wc -l # 错误数 # grep "Crawled" scrapy.log | wc -l # 爬取数
性能优化关键: 1. 并发数:根据网站调整 2. 延迟:避免被封 3. 日志:便于调试 目标: - 最大化吞吐量 - 最小化错误率 - 保持稳定性
💡 记住:性能优化是一个持续的过程。不断监控、分析、调整,你的爬虫会越来越快。
🔗 扩展阅读