用python数据分析 第三版_用Python玩转数据分析3
在MOOC上学习课程《用Python玩转数据分析》的学习笔记。datetime模块dir(datetime) 可以查看模块中所包含的内容help()可以查看具体内容timestamp时间戳,是指从1970年1月1日0时开始计算的秒数,全球电脑的时间戳都是一样的本地数据获取打开文件open(文件名, mode = 'r', buffering = -1, ...)mode中r可读的意思,w是写文件(
在MOOC上学习课程《用Python玩转数据分析》的学习笔记。
datetime模块dir(datetime) 可以查看模块中所包含的内容
help()可以查看具体内容
timestamp时间戳,是指从1970年1月1日0时开始计算的秒数,全球电脑的时间戳都是一样的
本地数据获取打开文件
open(文件名, mode = 'r', buffering = -1, ...)
mode中r可读的意思,w是写文件(清空原来的内容),a是在文件后面追加内容
buffering默认为-1,即使用系统默认的缓冲区大小,0表示不缓冲,大于0表示设置的缓冲区大小
对象名.方法名( )
如with open(文件地址) as f:
p1 = f.read() / f.write() / f.close()
f.read(2), 至多读出2字节数据
对象名.readlines() / writelines() 读入或写入多行内容
对象名.seek(offset, whence = 0)
在文件中移动文件指针,从whence(0表示文件头部,默认;1表示当前位置,2表示文件尾部)往后偏移offset个字节
网络数据获取Requests库--网页数据获取
以豆瓣网为例,http://www.douban.com/robots.txt,可以查看该网站关于爬虫的协议,其中有crawl-delay=5,表示抓取的延迟是五秒钟
r = request.get('要抓取的url')
r.status_code
(若返回200则状态正常)
r.text就可显示抓取的内容
request.json/request.content用来解码
网页数据解析
BeautifulSoup是HTML和XML的解析器,正则表达式模块用于更复杂的、细节网页数据提取。BeautifulSoup使用
from bs4 import BeautifulSoup
soup = BeautifulSoup(lxml格式的对象名,'lxml')
soup.b, soup.p就是里面的tag;soup.string可以取到里面非属性的字符串内容,即取到NavigableString
soup.find_all(标签名,属性内容),find_all可以返回一个列表
正则模块使用
假如要找到一串网页内容后的一个数字
pattern_s = re.compile('一串网页内容')
p = re.findall(pattern_s,r.txt) 结果就可以返回一串列表p
更多推荐
所有评论(0)