python爬取10个网站_9个用来爬取网络站点的 Python 库

1️⃣Scrapy一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。2️⃣cola一个分布式爬虫框架。3️⃣Demiurge基于 PyQuery 的爬虫微型框架。4️⃣feedparser通用 feed 解析器。5️⃣GrabGrab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单

weixin_40002238

417人浏览 · 2020-12-03 12:48:37

weixin_40002238 · 2020-12-03 12:48:37 发布

1️⃣Scrapy

一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。

2️⃣cola

一个分布式爬虫框架。

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

4️⃣feedparser

通用 feed 解析器。

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。与 HTML 文档的 DOM 树交互。

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。使用 Portia 可以注释一个网页以识别您想要提取的数据，Portia 将根据这些注释了解如何从类似页面中抓取数据。

8️⃣pyspider

一个强大的爬虫系统。

9️⃣RoboBrowser

一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

【关于技术清单】技术清单是由实验楼整合、梳理的一系列知识点合辑；每辑都有MD，PDF和思维导图多样呈现，并提供下载。本期为Python系列，包含5篇精选清单，下载方式如下：

**相关阅读**

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

新知实验室 TRTC在线上教育场景中的一种应用实践

腾讯云开发者社区

基于腾讯云实时音视频（TRTC）的web端多人人脸识别小游戏

腾讯云开发者社区

【新知实验室】腾讯云TRTC接入测试以及状态同步功能重点验证

由于文章内容涉及公司业务，关于具体业务部分均使用代称，请知悉。某学习机，是一款主打学生自主学习的教育产品。老师上传课件、视频资料、练习题等，作为一个独立完整的学习单元。学员首先自主学习，学习结束之后进行测评，通过测评，则进入下一个学习环节，类似游戏中的通关模式。如果不能通过评测或者在学习过程中存在疑问，可以向班主任老师提问，老师可以通过IM消息、语音连麦方式给学习答疑。答疑时间基本都在5~10分钟