在MOOC上学习课程《用Python玩转数据分析》的学习笔记。

datetime模块dir(datetime) 可以查看模块中所包含的内容

help()可以查看具体内容

timestamp时间戳,是指从1970年1月1日0时开始计算的秒数,全球电脑的时间戳都是一样的

本地数据获取打开文件

open(文件名, mode = 'r', buffering = -1, ...)

mode中r可读的意思,w是写文件(清空原来的内容),a是在文件后面追加内容

buffering默认为-1,即使用系统默认的缓冲区大小,0表示不缓冲,大于0表示设置的缓冲区大小

对象名.方法名( )

如with open(文件地址) as f:

p1 = f.read() / f.write() / f.close()

f.read(2), 至多读出2字节数据

对象名.readlines() / writelines() 读入或写入多行内容

对象名.seek(offset, whence = 0)

在文件中移动文件指针,从whence(0表示文件头部,默认;1表示当前位置,2表示文件尾部)往后偏移offset个字节

网络数据获取Requests库--网页数据获取

以豆瓣网为例,http://www.douban.com/robots.txt,可以查看该网站关于爬虫的协议,其中有crawl-delay=5,表示抓取的延迟是五秒钟

r = request.get('要抓取的url')

r.status_code

(若返回200则状态正常)

r.text就可显示抓取的内容

request.json/request.content用来解码

网页数据解析

BeautifulSoup是HTML和XML的解析器,正则表达式模块用于更复杂的、细节网页数据提取。BeautifulSoup使用

from bs4 import BeautifulSoup

soup = BeautifulSoup(lxml格式的对象名,'lxml')

soup.b, soup.p就是里面的tag;soup.string可以取到里面非属性的字符串内容,即取到NavigableString

soup.find_all(标签名,属性内容),find_all可以返回一个列表

正则模块使用

假如要找到一串网页内容后的一个数字

pattern_s = re.compile('一串网页内容')

p = re.findall(pattern_s,r.txt) 结果就可以返回一串列表p

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐