cover

python自动化办公之BeautifulSoup爬取并解析html文本【代码示例】

分享代码

2301_76297780

370人浏览 · 2024-07-04 16:00:31

2301_76297780 · 2024-07-04 16:00:31 发布

用到的库：BeautifulSoup

实现效果：爬取网站内容，拿到html文本并解析html文本

代码：

先爬取

# 先导入requests包
import requests
url='https://www.baidu.com'
response=requests.get(url)
# 做1个断言，如果执行成功，拿到html文本
if response.status_code==200:
    html_content=response.text
    print(html_content)
else:
    print(f'访问失败，状态码是{response.status_code}')

再解析（需要和前面的代码一起执行）

# 导入BeautifulSoup包
from bs4 import BeautifulSoup
# 解析html内容
soup=BeautifulSoup(html_content,'html.parser')
# 提取网页里面的超链接
links=soup.find_all('a')
for link in links:
    print(link.get('href'))

代码效果

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

cover

李建忠：智能体正将互联网从信息网络重构为行动网络

腾讯云开发者社区

cover

探秘 DeepSeek 落地进展，腾讯云携手业界专家共话 AI 生产力

腾讯云开发者社区

cover

信息安全风云录，AI 时代安全江湖如何见招拆招？

腾讯云开发者社区

所有评论(0)

查看更多评论

2301_76297780

已为社区贡献10条内容