【python】本地加载加利福尼亚住房数据集
摘要 本研究使用加州住房数据集进行房价预测分析,数据集包含9个特征变量:经度、纬度、住房年龄中位数、房间总数、卧室总数、人口数、住户数、收入中位数以及房屋价值中位数(目标变量)。通过Pandas库读取CSV格式数据文件后,将数据划分为特征矩阵X(包含前8个特征)和目标向量y(房屋价值中位数)。该数据预处理步骤为后续建立房价预测模型奠定了基础,可用于分析各特征对加州房价的影响程度。
·
import pandas as pd
# 定义特征名称
# ['经度', '纬度', '住房年龄中位数', '房间总数', '卧室总数', '人口', '住户', '收入中位数', '房屋价值中位数']
column_names = ['longitude', 'latitude', 'housingMedianAge', 'totalRooms', 'totalBedrooms', 'population', 'households', 'medianIncome', 'medianHouseValue']
# 读取数据文件
data_path = r"E:\地理探测器\SHAP\CaliforniaHousing\cal_housing.data" # 根据实际情况修改路径
data = pd.read_csv(data_path, sep=',', header=None, names=column_names)
# 分离特征矩阵X和目标向量Y
X = data.drop('medianHouseValue', axis=1)
y = data['medianHouseValue']
更多推荐
所有评论(0)