Python数据分析--Pandas常用函数讲解

Mr_WoLong

746人浏览 · 2019-03-30 13:12:25

Mr_WoLong · 2019-03-30 13:12:25 发布

Pandas常用函数讲解：

## 1. 重复值的处理
利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.

 import pandas as pd
df = pd.DataFrame({"ID": ["A1000","A1001","A1002", "A1002"],
                  "departmentId": [60001,60001, 60001, 60001]})

df.drop_duplicates()
数据处理效果
2. 缺失值的处理
2.1 缺失值产生的原因
主要原因可以分为两种: 人为原因和机械原因.

人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏;
机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失.
2.2 缺失值的处理方式
缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值.
补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值.
使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均值.

import pandas as pd
import numpy as np
df = pd.DataFrame({‘ID’:[‘A10001’, ‘A10002’, ‘A10003’, ‘A10004’],
“Salary”:[11560, np.NaN, 12988,12080]})
#用Salary字段的样本均值填充缺失值
df[“Salary”] = df[“Salary”].fillna(df[“Salary”].mean())
df
删除缺失值: 当数据量大时且缺失值占比较小可选用删除缺失值的记录.

示例: 删除entrytime中缺失的值, 采用dropna函数对缺失值进行删除:

import pandas as pd
df = pd.DataFrame({"ID": ["A1000","A1001","A1002"],
                 "entrytime": ["2015-05-06",pd.NaT,"2016-07-01" ]})
**df.dropna()**
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190330131715420.)

3. 删除前后空格
使用strip()函数删除前后空格.

 import pandas as pd
 df = pd.DataFrame({"ID": ["A1000","A1001","A1002"],
                  "Surname": [" Zhao ","Qian"," Sun " ]})
 df["Surname"] = df["Surname"].str.strip()
 df

4. 查看数据类型
查看所有列的数据类型使用dtypes, 查看单列使用dtype, 具体用法如下:
import pandas as pd
df = pd.DataFrame({“ID”: [100000,100101,100201],“Surname”: [" Zhao “,“Qian”,” Sun " ]})
#查看所有列的数据类型
df.dtypes
#查看单列的数据类型
df[“ID”].dtype

5. 修改数据类型
import pandas as pd
df = pd.DataFrame({“ID”: [100000,100101,100201],“Surname”: [" Zhao “,“Qian”,” Sun " ]})
#将ID列的类型转化为字符串的格式
df[“ID”].astype(str)
在这里插入图片描述
6. 字段的抽取
使用**slice(start, end)**函数可完成字段的抽取, 注意start是从0开始且不包含end. 比如抽取前两位slice(0, 2).
import pandas as pd
df = pd.DataFrame({“ID”: [100000,100101,100201],“Surname”: [" Zhao “,“Qian”,” Sun " ]})
#需要将ID列的类型转换为字符串, 否则无法使用slice()函数
df[“ID”]= df[“ID”].astype(str)
#抽取ID前两位
df[“ID”].str.slice(0,2)

7. 字段的拆分
使用split()函数进行字段的拆分, split(pat=None, n = -1, expand=True)函数包含三个参数:

第一个参数则是分隔的字符串, 默认是以空格分隔

第二个参数则是分隔符使用的次数, 默认分隔所有

第三个参数若是True, 则在不同的列展开, 否则以序列的形式显示.

 import pandas as pd
 df = pd.DataFrame({"ID": [100000,100101,100201],"Surname_Age": ["Zhao_23","Qian_33","Sun_28" ]})
 #对Surname_Age字段进行拆分
 df_new = df["Surname_Age"].str.split("_", expand =True)
 df_new

8. 字段的命名

 有两种方式一种是使用rename()函数, 另一种是直接设置columns参数
 import pandas as pd
df = pd.DataFrame({"ID": [100000,100101,100201],"Surname_Age": ["Zhao_23","Qian_33","Sun_28" ]})
#第一种方法使用rename()函数
#df_new = df["Surname_Age"].str.split("_", expand =True).rename(columns={0: "Surname", 1: "Age"})
#df_new
#第二种方法直接设置columns参数
df_new = df["Surname_Age"].str.split("_", expand =True)
df_new.columns = ["Surname","Age"]
df_new

9. 字段的合并
使用**merge()**函数对字段进行合并操作.

 import pandas as pd
 df = pd.DataFrame({"ID": [100000,100101,100201],"Surname_Age": ["Zhao_23","Qian_33","Sun_28" ]})
 df_new = df["Surname_Age"].str.split("_", expand =True)
 df_new.columns = ["Surname","Age"]
 #使用merge函数对两表的字段进行合并操作.
 pd.merge(df, df_new, left_index =True, right_index=True)

10. 字段的删除
利用**drop()**函数对字段进行删除.

import pandas as pd
df = pd.DataFrame({"ID": [100000,100101,100201],"Surname_Age": ["Zhao_23","Qian_33","Sun_28" ]})
df_new = df["Surname_Age"].str.split("_", expand =True)
df_new.columns = ["Surname","Age"]
df_mer= pd.merge(df, df_new, left_index =True, right_index=True)
#drop()删除字段,第一个参数指要删除的字段,axis=1表示字段所在列,inplace为True表示在当前表执行删除.
df_mer.drop("Surname_Age", axis = 1, inplace =True)
df_mer
![效果](https://img-blog.csdnimg.cn/20190330132458878.)

11. 记录的抽取

关系运算: df[df.字段名关系运算符数值], 比如抽取年龄大于30岁的记录.

import pandas as pd
df = pd.DataFrame({“ID”: [100000,100101,100201],“Surname_Age”: [“Zhao_23”,“Qian_33”,“Sun_28” ]})
df_new = df[“Surname_Age”].str.split("_", expand =True)
df_new.columns = [“Surname”,“Age”]
df_mer= pd.merge(df, df_new, left_index =True, right_index=True)
df_mer.drop(“Surname_Age”, axis = 1, inplace =True)
#将Age字段数据类型转化为整型
df_mer[“Age”] = df_mer[“Age”].astype(int)
#抽取Age中大于30的记录
df_mer[df_mer.Age > 30]
范围运算: df[df.字段名.between(s1, s2)], 注意既包含s1又包含s2, 比如抽取年龄大于等于23小于等于28的记录.

df_mer[df_mer.Age.between(23,28)]
逻辑运算: 与(&) 或(|) 非(not)

比如上面的范围运算df_mer[df_mer.Age.between(23,28)]就等同于df_mer[(df_mer.Age >= 23) & (df_mer.Age <= 28)]

df_mer[(df_mer.Age >= 23 ) & (df_mer.Age <= 28)]

4) 字符匹配: df[df.字段名.str.contains(“字符”, case = True, na =False)] contains()函数中case=True表示区分大小写, 默认为True; na = False表示不匹配缺失值.

1 import pandas as pd
2 import numpy as np
3 df = pd.DataFrame({"ID": [100000,100101,100201],"Surname_Age": ["Zhao_23","Qian_33","Sun_28"],"SpouseAge":[np.NaN,"32",np.NaN]})
4 #匹配SpouseAge中包含2的记录
5 df[df.SpouseAge.str.contains("2",na = False)]

5) 缺失值匹配: df[pd.isnull(df.字段名)]表示匹配该字段中有缺失值的记录.

1 import pandas as pd
2 import numpy as np
3 df = pd.DataFrame({"ID": [100000,100101,100201],"Surname_Age": ["Zhao_23","Qian_33","Sun_28"],"SpouseAge":[np.NaN,"32",np.NaN]})
4 #匹配SpouseAge中有缺失值的记录
5 df[pd.isnull(df.SpouseAge)]

12.记录的合并
使用concat()函数可以将两个或者多个数据表的记录合并一起, 用法: pandas.concat([df1, df2, df3…])

1 import pandas as pd
2 df1 = pd.DataFrame({"ID": ["A10006","A10001"],"Salary": [12000, 20000]})
3 df2 = pd.DataFrame({"ID": ["A10008"], "Salary": [10000]})
4 #使用concat()函数将df1与df2的记录进行合并
5 pd.concat([df1, df2])

以上是部分内容, 还会持续总结更新…

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git