笔记内容整理自mooc上北京理工大学嵩天老师python系列课程数据分析与展示,本人小白一枚,如有不对,多加指正

0.pandas基于Numpy实现的,前者注重应用,后者注重结构

1.Series类型(索引和数据组合的类型,也就是个带索引的narray)

1.1

440eca1975528afb5fe8c5ad2960d012.png

1.2api

pd.Series.index/value     支持切片

1.3 。。。。。

2.DataFrame类型(共用相同索引的多维Series类型)

2f2cfe9b01a0c8d88185f5fe3f4facb4.png

2.1   .index()    .column()    .values()

2.2  .reindex(index/column = )重排行或列

2.3  index是索引类型(行跟列的表头都是index类型)

276a35a21d8f39b14f73f57b3d2d57d7.png

2.4

de5298ea0079726408cc7124d97db2b3.png一轴是x轴

3.总结

2db00bb8e8a8d53b9ae273957a0a4adb.png

4.数据排序和统计操作

4.1  对索引进行排序dataframe.sort_index()    对数据进行排序dataframe.sort_values()

4.2

777bdd54da747a56197c7afa24ae23ad.png

44d38c43f9d0ee9762ee24a91c43ad7f.png

d40bdf21fba14aa0c171bbbf096c2f3f.png

4.3累计统计函数

13512a1a2b9746f343a3f9c3682f0e91.png

00d44312926eb59282514a210ff7c7fb.png

前者的累计统计函数不同于后者的滚动统计函数,后者是小范围的累计统计函数,范围由rolling(w)中w参数指定

5.数据的相关分析

2d41883b37d2c395caec5654c910624d.png

f0dbc14c4da4eff1fe8e29da34c4c487.png

95f3107e22768cfa31845fba95126b4c.png

协方差描述并不准确跟严谨,所以提出了pearson相关系数等描述两个事物或随机变量的相关性

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐