当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理

doc = pq(html)
    doc('.article-t style').remove()


如上是:想要class为article里面的内容,但又不想要style标签中的内容,就可以通过以上把style标签删除,然后再提取article下的所有内容。

另一种情况,含有完整的标签时:

from w3lib.html import remove_tags
 
a = '<em><em>ai</em></em>工程师'
print(remove_tags(a))
 
ai工程师

 

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐