python爬虫时删除多余标签内的内容remove、remove_tags

当爬取到内容后，发现有些便签内的内容不是我们想要的，这时只能通过删除多余标签的方法来进行处理doc = pq(html)doc('.article-t style').remove()如上是：想要class为article里面的内容，但又不想要style标签中的内容，就可以通过以上把style标签删除，然后再提取article下的所有内容。另一种情况，含有完整的标签时：from w3lib.htm

童安格粉丝

5048人浏览 · 2020-06-02 10:58:31

童安格粉丝 · 2020-06-02 10:58:31 发布

当爬取到内容后，发现有些便签内的内容不是我们想要的，这时只能通过删除多余标签的方法来进行处理

doc = pq(html)
    doc('.article-t style').remove()

如上是：想要class为article里面的内容，但又不想要style标签中的内容，就可以通过以上把style标签删除，然后再提取article下的所有内容。

另一种情况，含有完整的标签时：

from w3lib.html import remove_tags
 
a = '<em><em>ai</em></em>工程师'
print(remove_tags(a))
 
ai工程师

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

新知实验室 TRTC在线上教育场景中的一种应用实践

腾讯云开发者社区

基于腾讯云实时音视频（TRTC）的web端多人人脸识别小游戏

腾讯云开发者社区

【新知实验室】腾讯云TRTC接入测试以及状态同步功能重点验证

由于文章内容涉及公司业务，关于具体业务部分均使用代称，请知悉。某学习机，是一款主打学生自主学习的教育产品。老师上传课件、视频资料、练习题等，作为一个独立完整的学习单元。学员首先自主学习，学习结束之后进行测评，通过测评，则进入下一个学习环节，类似游戏中的通关模式。如果不能通过评测或者在学习过程中存在疑问，可以向班主任老师提问，老师可以通过IM消息、语音连麦方式给学习答疑。答疑时间基本都在5~10分钟