实战项目二：社交媒体监控

品牌方、内容创作者、市场团队常常需要持续追踪社交平台上的舆情变化、竞品动态和热门话题。如果手动刷新成百上千个页面，不仅效率低下，还容易遗漏关键信息。Scrapy 官方提供的 CrawlSpider 正是为了解决这类“有规律链接跳转”的多页面自动抓取需求，让爬虫可以自动发现、自动跟踪、自动提取数据。

📂 所属阶段：第四阶段 — 实战演练（项目开发篇）

1. 核心工具：CrawlSpider 规则驱动架构

CrawlSpider 继承自 Scrapy 的基础 Spider，但额外增加了一套链接自动处理机制。以往我们需要在 parse 方法里手动构造 Request 并指定回调，而现在只需要用规则来描述“哪些链接要抓”“抓完交给谁处理”“要不要继续跟踪这个链接里的其他链接”，框架就会帮我们完成后续工作。

快速上手：一个极简但完整的监控模板

下面是一个面向类 Twitter/小红书这类单域名社交平台的监控爬虫，代码虽然简短，但已经包含了规则定义、数据提取等完整流程：

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class SocialMediaMonitor(CrawlSpider):
    # 爬虫唯一标识，启动时使用：scrapy crawl social_media
    name = 'social_media'
    # 限制只抓取目标域名，避免爬出无关站点
    allowed_domains = ['example-social.com']
    # 入口页面：热门话题页、竞品列表页、首页推荐等
    start_urls = ['https://example-social.com/trending']
    
    # rules 是 CrawlSpider 的灵魂，每个 Rule 定义一类链接的处理方式
    rules = (
        # 规则1：用户主页 → 交给 parse_user 提取粉丝、签名等 → 继续跟踪页面内的链接
        Rule(
            LinkExtractor(allow=r'/user/profile/\d{8,10}'),  # 匹配8-10位数字ID的用户
            callback='parse_user',
            follow=True
        ),
        # 规则2：帖子详情页 → 交给 parse_post 提取标题、正文、点赞 → 不再跟踪内部链接
        Rule(
            LinkExtractor(allow=r'/post/detail/\d{8,10}'),
            callback='parse_post',
            follow=False
        ),
    )
    
    def parse_user(self, response):
        """处理用户主页，只抓取监控关心的核心字段"""
        yield {
            'user_id': response.url.split('/')[-1],  # 从URL中直接提取ID，比CSS/XPath更稳定
            'username': response.css('h1.profile-name::text').get().strip(),
            'followers_count': response.css('div.stats span:nth-child(2)::text').get(),
            'bio': response.css('p.profile-bio::text').get(default='无签名'),  # 空字段给默认值，防止报错
        }
    
    def parse_post(self, response):
        """处理帖子详情页，同样只抓核心字段"""
        yield {
            'post_id': response.url.split('/')[-1],
            'author_id': response.css('div.author-info a::attr(href)').get().split('/')[-1],
            'title': response.css('h2.post-title::text').get().strip(),
            'content': response.css('div.post-body::text').getall(),  # 分段正文用 getall 取完整内容
            'likes_count': response.css('span.like-btn::text').get(),
            'publish_time': response.css('time::attr(datetime)').get(),  # 优先提取标准化的 ISO 时间
        }

模板里的关键细节（避坑指南）

规则顺序决定匹配优先级：框架会按照 rules 元组的顺序依次尝试匹配。如果把“帖子规则”放在“用户规则”前面，可能会在热门话题页上先把帖子链接消耗掉，从而漏掉其他用户链接。因此在设计规则时，应优先匹配那些包含更多有效目标链接的节点（比如主页、列表页）。
follow 参数的选择：
- follow=True：适合入口页、用户主页这类还会不断产生新目标链接的页面，让爬虫顺着链接继续深入。
- follow=False：适合详情页、评论页这类已经是数据终点的页面，避免无意义地扩散抓取范围。
LinkExtractor 的更多过滤手段：除了用 allow 正则匹配，还可以使用：
- deny：排除某些不需要的链接（例如帮助页面、举报页面）。
- restrict_xpaths / restrict_css：只在页面特定区域内查找链接（比如热门话题页的“用户卡片区”“帖子列表区”），从而大幅减少无效提取，提升效率。

2. 项目小结

CrawlSpider 的三大核心优势

规则驱动，自动发现：无需手动编写入口扫描和翻页逻辑，把精力集中在定义规则和提取数据上。
配置灵活，分工明确：支持多条规则并行，每条规则有独立的回调和 follow 属性，可以轻松处理“分类→商品→评论→店铺”这样的复杂链接结构。
内置去重，避免重复抓取：CrawlSpider 会自动记录已经访问过的链接，结合 Scrapy 的 DUPEFILTER_CLASS 还能进一步定制去重策略，减少资源浪费。

适合的实战场景

除了社交媒体监控，CrawlSpider 还非常适合：

垂直论坛的全量帖子爬取
新闻聚合平台的每日热点追踪
垂直电商竞品价格/库存监控
企业官网的全站内容归档

💡 记住：CrawlSpider 并非万能，但对于 90% 以上“有规律 URL 跳转”的多页面爬虫，它比基础 Spider 的开发效率高 3-5 倍，后续维护成本也更低。

🔗 官方扩展阅读

#实战项目二：社交媒体监控

#1. 核心工具：CrawlSpider 规则驱动架构

#快速上手：一个极简但完整的监控模板

#模板里的关键细节（避坑指南）

#2. 项目小结

#CrawlSpider 的三大核心优势

#适合的实战场景