python爬虫时删除多余标签内的内容remove、remove_tags
当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理doc = pq(html)doc('.article-t style').remove()如上是:想要class为article里面的内容,但又不想要style标签中的内容,就可以通过以上把style标签删除,然后再提取article下的所有内容。另一种情况,含有完整的标签时:from w3lib.htm
·
当爬取到内容后,发现有些便签内的内容不是我们想要的,这时只能通过删除多余标签的方法来进行处理
doc = pq(html)
doc('.article-t style').remove()
如上是:想要class为article里面的内容,但又不想要style标签中的内容,就可以通过以上把style标签删除,然后再提取article下的所有内容。
另一种情况,含有完整的标签时:
from w3lib.html import remove_tags
a = '<em><em>ai</em></em>工程师'
print(remove_tags(a))
ai工程师
更多推荐
已为社区贡献1条内容
所有评论(0)