【python爬虫微博评论】根据帖子链接批量爬微博评论，含二级评论

weixin_73817187

428人浏览 · 2025-12-24 22:00:40

weixin_73817187 · 2025-12-24 22:00:40 发布

一、背景分析

1.1 开发背景

微博是国内极具影响力的社交媒体平台，具有内容形式短平快、热点事件实时性强、舆论快速发酵、用户群体年轻且活跃等特点。其中，微博评论区是用户公开表达观点的重要场域，可通过评论区的数据，实时追踪情绪倾向、挖掘公众诉求、捕捉热点趋势、构建群体画像、从而进行社会学和传播学的研究等。

基于此，我用python开发了一个爬虫采集软件，下边详细介绍。

1.2 数据界面

采集结果-微博评论数据

字段：类型（一级或者二级），评论id，评论正文，评论时间，点赞数，回复数，IP地址。用户id，用户名，上一级的id。

字段齐全，后续可用于数据分析等方面。

二、主要技术

软件全部模块采用python语言开发，核心函数如下：

def get_comments(self, weibo_id, max_id='', count=20, is_secondary=False):
        url = 'https://weibo.com/ajax/statuses/buildComments'
        params = {
            'flow': 1,
            'is_reload': 1,
            'is_show_bulletin': 2,
            'is_mix': 1 if is_secondary else 0,
            'max_id': max_id,
            'count': count,
            'id': weibo_id
        }

        if is_secondary:
            params['fetch_level'] = 1

        response = self.session.get(url, params=params)
        if response.status_code == 200:
            return response.json()
        print(f"获取评论失败，状态码: {response.status_code}")
        return None

while True:
            print(f"正在爬取一级评论第{page}页...")
            data = self.get_comments(weibo_id, max_id)

            if not data or 'data' not in data or not data['data']:
                print("没有更多评论了")
                break

            for comment in data['data']:
                # 提取IP地址/地理位置
                ip_location = self.extract_ip_location(comment)

                primary_comment = {
                    '类型': '一级',
                    'id': str(comment['id']),
                    '正文': self.clean_text(comment['text']),
                    '时间': self.format_time(comment['created_at']),
                    '点赞数': comment['like_counts'],
                    '回复数': comment.get('total_number', 0),
                    'IP地址': ip_location,
                    '用户ID': comment.get('user', {}).get('id', ''),
                    '用户名': comment.get('user', {}).get('screen_name', '')
                }
                all_comments.append(primary_comment)

                # 爬取二级评论
                if get_secondary and comment.get('total_number', 0) > 0:
                    secondary_max_id = ''
                    secondary_page = 1
                    parent_id = str(comment['id'])  # 父评论ID

                    while True:
                        print(f"正在爬取二级评论第{secondary_page}页，父评论id:{parent_id}...")
                        secondary_data = self.get_comments(parent_id, secondary_max_id, is_secondary=True)

                        if not secondary_data or 'data' not in secondary_data or not secondary_data['data']:
                            print("没有更多二级评论了")
                            break

三、使用说明

1，运行前需更换最新cookie。

2，本作者一直在维护代码，确保您能顺利运行！

3，一起学习交流，通过公中号iFeng的小屋一键获取，有其他定制需要可以详细交流学习。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git