利用python爬取飞猪信息_飞猪爬虫项目

import requestsfrom bs4 import BeautifulSoup# 爬取飞猪IP免费代理class SpiderApp:#初始化属性def __init__(self):# 地址、头部、请求对象、解析对象self.url = "https://www.feizhuip.com/?source=baidu&keyword=feizhuIP"self.head = ..

weixin_39785600

953人浏览 · 2020-12-05 21:14:48

weixin_39785600 · 2020-12-05 21:14:48 发布

import requests

from bs4 import BeautifulSoup

# 爬取飞猪IP免费代理

class SpiderApp:

# 初始化属性

def __init__(self):

# 地址、头部、请求对象、解析对象

self.url = "https://www.feizhuip.com/?source=baidu&keyword=feizhuIP"

self.head = {"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"}

self.req = requests

self.bs = BeautifulSoup

# 存储page1中的路径和标题

self.href_list = []

# 响应对象

self.response = ""

# 请求第一级页面：获取二级页面的路径和标题

def sendReqPage1(self):

# 1 发起请求

self.response = self.req.get(url=self.url,headers=self.head)

# 2 查看状态

print("code-",self.response.status_code)

# 3 解析数据解析器：html5lib需要安装

soup = self.bs(self.response.text,"html.parser")

title = soup.title.string

print("标题",title)

# 4 通过标签条件查询标签

# find_all div len=3 [index=2] select "p.list span.date"

span

原文链接:https://blog.csdn.net/chen_zan_yu_/article/details/106683049

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手

腾讯云开发者社区

从具身智能到行业应用，腾讯云携业界专家共话 AI 新趋势

在热烈的讨论气氛下，本次活动圆满落幕。与会专家实地参观大模型创新生态社区“模速空间”，体验 AI 前沿创新应用落地。来自工业制造、数字化、AI领域的专家分享最新 AI 落地实践与思考，共同探讨从认知智能到物理交互的前沿先进路径，让我们看到AI在各行业释放出的巨大潜力。在头脑风暴环节，各位专家从不同角度深入探讨 AI 技术发展路径，提出诸多具有建设性的观点与建议，提供创新思路与方向，开启智能新时代的