Docker 容器化爬虫:标准化运行环境

📂 所属阶段:第六阶段 — 运维与监控(工程化篇)


1. Dockerfile

FROM python:3.9

WORKDIR /app

COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .

CMD ["scrapy", "crawl", "example"]

2. 构建与运行

# 构建镜像
docker build -t myspider:latest .

# 运行容器
docker run -d myspider:latest

# 查看日志
docker logs <container_id>

3. Docker Compose

version: '3'
services:
  redis:
    image: redis:latest
    ports:
      - "6379:6379"
  
  spider:
    build: .
    depends_on:
      - redis
    environment:
      - REDIS_URL=redis://redis:6379

4. 小结

Docker 优势:

1. 标准化:一致的运行环境
2. 可扩展:轻松扩展到多个容器
3. 易于部署:一键启动
4. 隔离性:不影响主机

工作流:
1. 编写 Dockerfile
2. 构建镜像
3. 运行容器
4. 监控日志

💡 记住:Docker 是现代爬虫部署的标准。掌握它,你就掌握了云原生爬虫的核心。


🔗 扩展阅读