📂 所属阶段:第五阶段 — 战力升级(分布式与进阶篇)
# settings.py # 限制内存使用 MEMDEBUG_ENABLED = True # 关闭缓存 HTTPCACHE_ENABLED = False # 限制响应大小 DOWNLOAD_MAXSIZE = 1024 * 1024 # 1MB # 限制请求队列 SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.MemoryQueue'
# settings.py # DNS 缓存 DNSCACHE_ENABLED = True # 连接池 DOWNLOAD_TIMEOUT = 10 # 重试次数 RETRY_TIMES = 3 # 自动限速 AUTOTHROTTLE_ENABLED = True
大规模优化: 1. 内存:限制缓存、响应大小 2. 网络:DNS 缓存、连接池 3. 调度:优先级队列、去重 目标: - 最大化吞吐量 - 最小化内存占用 - 保持稳定性
💡 记住:大规模爬虫的关键是稳定性。优化内存和网络,你的爬虫就能跑得更久。
🔗 扩展阅读