dataprep是一个开源的Python第三方库,有助于数据科学者、数据挖掘/分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。

de4bbf0dd52df02c4439941b578586e4.png

在本文中小编给大家详细介绍dataprep库的使用。

官网地址:https://dataprep.ai/

GitHub地址:https://github.com/sfu-db/dataprep

f998ddc0c76d946c67e58e2b6946d519.png

安装

在使用之前,先进行安装:建议使用豆瓣源安装,快速!

pip install -i https://pypi.douban.com/simple/ dataprep

导入库

先导入我们需要使用的库:

from dataprep.datasets import load_dataset  # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report  # 分析报告
from dataprep.eda import plot_missing  # 缺失值

导入数据

提供两种数据导入方式:

  • 内置数据集(如果有)

  • 本地数据集

# 导入内置数据
df = load_dataset("titanic")  
# 导入本地数据
# df = pd.read_csv("titanic.csv")

df.head()

查看数据的基本信息:

In [3]:

df.shape

Out[3]:

(891, 12)

In [4]:

df.isnull().sum()

Out[4]:

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [5]:

df.dtypes

Out[5]:

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

使用dataprep自动化探索

整体数据分析

In [6]:

plot(df)

c294e6cf66211549690ce8030b29e606.png

指定单个字段分析

In [7]:

plot(df, "Age")

直接指定Age字段:

e7f0d3ce4840744b6a1bbcd77cd7ef55.png

e388237786d970a9218eb4defde85863.png

13baad72df01bc9ecce4c808294334ee.png

14ea12a7aa7a1b86e5be9eca480589b0.png

7f39870785e24f2bfa44a4e237710997.png

5753b6b818e9d4d555d0e6b360f4972c.png

指定多个字段分析

In [8]:

plot(df, "Age","Embarked")

查看两个字段之间的分析:

a7b794a0b7ed71d688824fb4b8108f74.png

6f213c951032c9cd11db23577673695a.png

相关系数

In [9]:

plot_correlation(df)  # 相关系数

查看字段的3种相关系数:Stats

097103cda73d9186247f1c72c5d1b8bd.png

d34f980fc7a0c663557bab10c2b38a46.png

76bc85be0c9f1d2bded2f2a67f1a6bb7.png

4fab136eb4d7d0ad5968315a4e5e9d8c.png

缺失值

In [10]:

plot_missing(df)  # 缺失值情况

查看数据的缺失值信息:

6775bdbf283f00ee28225320a0f87034.png

主要分柱状图、谱图、热力图、层次图来显示

0e63c5bfedcfaa2fc5f5180b7f6552b4.png

2486ba38d561850d1a56563d9cbdda34.png

df5de357fc6c893a4a293bab52361e25.png

5ea45baf4562fd65d24d56fcc319ba9e.png

分析报告

In [11]:

create_report(df).show()  # 报告

返回数据的整体分析报告(整个图):

097fc3fa813a7c7e3e11433f8a1fab92.png

bc9e6d19a097e44950cb87debd4693e3.png

964c63f78b4b7d9b6af7b45d5fa5c758.png

31bbf37a265be191a8f0eb5ee64ab95c.png

998fdef131738d5273eae0177218a5b6.png

e890579db1a43ce33dc541c23ce395f8.png

6f73aa5fdec5da4758d320ff48f3ed23.png

——完——

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐