python爬虫的常用库
1.requests这个库是爬虫最常用的一个库。2.Selenium Selenium这是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。3.ChomeDrive安装了这个库,才能驱动Chrome浏览器完成相应的操作。4.GeckoDriver使用W3C WebDriver兼容客户端与基于Gecko的浏览器进
1.requests
这个库是爬虫最常用的一个库。
2.Selenium Selenium
这是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。
3.ChomeDrive
安装了这个库,才能驱动Chrome浏览器完成相应的操作。
4.GeckoDriver
使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。
5.PhantomJS PhantomJS
这是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。
6.aiohttp
之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。
7.解析库
1)lxml lxml
这是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱
2)Beautiful Soup
Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。
3)pyquery
同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,
8.数据库
1)mysql 数据库
2)MongoDB
MongoDB 是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活
3)Redis 是一个基于 存的高效的非关系型数据库,
9.存储库
1)PyMySOL
2)PyMongo
3)redis-py
4)RedisDump
10.web库
1)Flask 是一个轻量级的Web服务程序,它简单,易用,灵活
2)Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/bd9fb365-ae11-4182-84d0-af28197bac71.html?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
更多推荐
所有评论(0)