共享单车示例数据集分为两个数据集-训练数据集(bike_train_data)和预测数据集(bike_predict_data),通过Notebooks我们可以方便的使用熟悉的sql语句,对数据集内的数据进行浏览。

4e0ecf97c91a09160fd0c467379f3f26.png

从数据集内容可以看出,训练数据集包含一个时间段内的每日单车使用量(count),以及当日的其他相关信息,比如季节、天气情况、温度、风速等,而预测数据集内容基本相同除了没有单车使用量(此为我们需要进行预测的数值)。

从训练数据集数据可以看出,部分的数据是字符型数据,在进行回归建模前我们需要将该部分数据转化为数值型。以季节(season)和天气(weathersit)为例,我们需要先分析该变量的取值范围,我们可以使用ADW Notebooks提供的数据结果可视化能力进行快速分析。

c7668b1a25f4bd25d6dab8f770fc5a99.png

8043f3c23ea53700dadabdeb7ddc6ffa.png

通过对season数据分布的图形分析,以及进一步的season和weathersit数据的图形分析,很轻易的获得了这两个变量的取值范围。下面根据上面获得的信息,通过脚本构建用于进行数据建模的数据库视图。如下脚本所示,所有字符型的变量都转变为可进行建模的数值型变量。

c347c7db31c16a5d4066be742cb79648.png

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐