超实用!Jupyter 数据分析必备库包,新手入门看这篇就够了
数据处理数据可视化科学计算与建模掌握这套组合,你就能从容应对绝大多数数据分析场景。从数据清洗到可视化,从统计分析到机器学习,一站式搞定!赶紧打开 Jupyter Notebook,动手试试这些库包吧~
在数据分析的世界里,Jupyter Notebook/Lab 绝对是当之无愧的 “明星工具”—— 交互式的代码运行环境、图文混排的展示效果,让数据清洗、分析、可视化的全流程都变得直观又高效。
但光有 Jupyter 还不够,想要玩转数据分析,必须搭配一套 “趁手” 的库包组合。今天就给大家盘点Jupyter 数据分析的 6 大核心库包,从数据处理到可视化,一站式搞定你的分析需求!
一、 NumPy:数值计算的 “发动机”
NumPy 是 Python 数据分析的底层基石,没有它,后续的 Pandas、Matplotlib 都无从谈起。
它最核心的贡献是提供了 ndarray 多维数组对象,相比于 Python 原生列表,ndarray 支持矢量运算—— 不用写循环,就能对整个数组进行加减乘除、统计计算,速度直接提升 10~100 倍。
核心用途:
- 快速处理数值型数据,比如矩阵运算、线性代数计算;
- 生成随机数、处理数据的形状变换(reshape);
- 为其他库包提供数据支撑(比如 Pandas 的 DataFrame 底层就是 NumPy 数组)。
新手入门示例:
python
import numpy as np
# 创建一维数组
arr = np.array([1, 2, 3, 4, 5])
# 矢量运算:所有元素乘2
print(arr * 2) # 输出 [ 2 4 6 8 10]
# 统计计算:求均值、最大值
print(np.mean(arr)) # 输出 3.0
print(np.max(arr)) # 输出 5
二、 Pandas:数据处理的 “瑞士军刀”
如果说 NumPy 是 “发动机”,那 Pandas 就是数据分析的核心主力。它专门为处理结构化数据而生,堪称数据清洗、转换、分析的 “天花板” 工具。
Pandas 提供了两个核心数据结构:
- Series:一维标签化数组,适合处理单列数据;
- DataFrame:二维表格型数据结构,对标 Excel 表格,有行索引、列名,支持复杂的数据操作。
核心用途:
- 读取 / 写入多种格式数据(Excel、CSV、SQL 数据库等);
- 数据清洗:处理缺失值、重复值、异常值;
- 数据转换:字段重命名、数据类型转换、分组聚合(groupby);
- 数据筛选:按条件筛选行、列,实现类似 SQL 的查询功能。
新手入门示例:
python
import pandas as pd
# 创建DataFrame
data = {
"姓名": ["张三", "李四", "王五"],
"年龄": [25, 30, 28],
"城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
# 筛选年龄大于25的行
print(df[df["年龄"] > 25])
# 按城市分组统计平均年龄
print(df.groupby("城市")["年龄"].mean())
三、 Matplotlib:数据可视化的 “开山鼻祖”
数据分析的结果,最终需要可视化呈现才能让人一目了然。Matplotlib 是 Python 可视化的 “元老级” 库包,几乎能绘制所有类型的静态图表。
它的设计理念是 “一切皆可定制”—— 从图表的标题、坐标轴标签,到线条的颜色、样式,甚至是图例的位置,都能精准调整。
核心用途:
- 绘制基础图表:折线图、柱状图、散点图、直方图、饼图;
- 自定义图表样式,满足学术报告、商业汇报的不同需求;
- 作为其他可视化库(如 Seaborn)的底层依赖。
新手入门示例:
python
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 10, 100) # 生成0到10的100个均匀数值
y = np.sin(x) # 计算正弦值
# 绘制折线图
plt.plot(x, y, label="sin(x)", color="blue", linestyle="-")
plt.xlabel("X轴")
plt.ylabel("Y轴")
plt.title("正弦函数曲线")
plt.legend() # 显示图例
plt.show()
四、 Seaborn:高颜值可视化的 “利器”
虽然 Matplotlib 功能强大,但默认的图表样式比较 “朴素”,想要做出高颜值图表,需要写大量代码。而 Seaborn 正是为解决这个痛点而生 —— 它基于 Matplotlib 开发,专门优化了图表样式和统计可视化。
Seaborn 内置了多种美观的主题风格,还能轻松绘制统计相关的复杂图表,比如热力图、箱线图、小提琴图等。
核心用途:
- 绘制高颜值的统计图表,一键切换主题风格;
- 可视化变量之间的相关性(如热力图);
- 展示数据的分布特征(如箱线图、小提琴图)。
新手入门示例:
python
import seaborn as sns
import pandas as pd
# 加载内置数据集
tips = sns.load_dataset("tips")
# 绘制箱线图,展示不同性别下的消费金额分布
sns.boxplot(x="sex", y="total_bill", data=tips)
sns.set_style("whitegrid") # 设置主题风格
plt.title("不同性别消费金额分布")
plt.show()
五、 SciPy:科学计算的 “工具箱”
当数据分析需要涉及更深入的科学计算时,SciPy 就派上用场了。它基于 NumPy 构建,提供了一系列用于科学计算的模块,覆盖线性代数、微积分、概率统计、信号处理等多个领域。
在数据分析中,SciPy 常用于假设检验、数据插值、优化求解等场景。
核心用途:
- 统计分析:假设检验、概率分布拟合;
- 数据处理:插值、滤波、信号处理;
- 优化问题:求解最小值、最大值等。
新手入门示例:
python
from scipy import stats
import numpy as np
# 生成两组服从正态分布的随机数据
data1 = np.random.normal(0, 1, 100)
data2 = np.random.normal(1, 1, 100)
# 进行t检验,判断两组数据均值是否有显著差异
t_stat, p_value = stats.ttest_ind(data1, data2)
print(f"t统计量: {t_stat:.2f}, p值: {p_value:.2f}")
六、 Scikit-learn:机器学习的 “入门神器”
数据分析的终极目标之一,就是从数据中挖掘规律、构建预测模型。而 Scikit-learn 就是 Python 机器学习的入门首选库包,它基于 NumPy、SciPy、Matplotlib 构建,提供了简单易用的机器学习接口。
Scikit-learn 涵盖了分类、回归、聚类、降维等常见的机器学习算法,而且 API 设计非常统一 —— 无论使用哪种算法,都是 “导入模型→训练模型→预测” 的三步流程。
核心用途:
- 数据预处理:特征缩放、特征编码、特征选择;
- 构建机器学习模型:线性回归、决策树、随机森林、KNN 等;
- 模型评估:交叉验证、准确率、召回率、F1 值计算。
新手入门示例:
python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# 加载鸢尾花数据集
iris = load_iris()
X = iris.data # 特征
y = iris.target # 标签
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练随机森林模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)
# 预测并评估准确率
y_pred = model.predict(X_test)
print(f"模型准确率: {accuracy_score(y_test, y_pred):.2f}")
总结:Jupyter 数据分析的 “黄金组合”
以上 6 个库包,构成了 Jupyter 数据分析的完整生态:
- 数据处理:NumPy + Pandas
- 数据可视化:Matplotlib + Seaborn
- 科学计算与建模:SciPy + Scikit-learn
掌握这套组合,你就能从容应对绝大多数数据分析场景。从数据清洗到可视化,从统计分析到机器学习,一站式搞定!
赶紧打开 Jupyter Notebook,动手试试这些库包吧~
更多推荐
所有评论(0)