机器学习自动化数据分析库-dataprep
dataprep是一个开源的Python第三方库,有助于数据科学者、数据挖掘/分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。在本文中小编给大家详细介绍dataprep库的使用。官网地址:https://dataprep.ai/GitHub地址:https://github.com/sfu-db/dataprep安装在使用之前,先进行安装:建议使
·
dataprep
是一个开源的Python
第三方库,有助于数据科学者、数据挖掘/分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。
在本文中小编给大家详细介绍dataprep
库的使用。
官网地址:https://dataprep.ai/
GitHub地址:https://github.com/sfu-db/dataprep
安装
在使用之前,先进行安装:建议使用豆瓣源安装,快速!
pip install -i https://pypi.douban.com/simple/ dataprep
导入库
先导入我们需要使用的库:
from dataprep.datasets import load_dataset # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report # 分析报告
from dataprep.eda import plot_missing # 缺失值
导入数据
提供两种数据导入方式:
内置数据集(如果有)
本地数据集
# 导入内置数据
df = load_dataset("titanic")
# 导入本地数据
# df = pd.read_csv("titanic.csv")
df.head()
查看数据的基本信息:
In [3]:
df.shape
Out[3]:
(891, 12)
In [4]:
df.isnull().sum()
Out[4]:
PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64
In [5]:
df.dtypes
Out[5]:
PassengerId int64
Survived int64
Pclass int64
Name object
Sex object
Age float64
SibSp int64
Parch int64
Ticket object
Fare float64
Cabin object
Embarked object
dtype: object
使用dataprep自动化探索
整体数据分析
In [6]:
plot(df)
指定单个字段分析
In [7]:
plot(df, "Age")
直接指定Age字段:
指定多个字段分析
In [8]:
plot(df, "Age","Embarked")
查看两个字段之间的分析:
相关系数
In [9]:
plot_correlation(df) # 相关系数
查看字段的3种相关系数:Stats
缺失值
In [10]:
plot_missing(df) # 缺失值情况
查看数据的缺失值信息:
主要分柱状图、谱图、热力图、层次图来显示
分析报告
In [11]:
create_report(df).show() # 报告
返回数据的整体分析报告(整个图):
——完——
更多推荐
已为社区贡献8条内容
所有评论(0)