本文为数据挖掘竞赛技巧篇之常用trick介绍。

1.特征选择策略

特征选择(按重要程度排序)对数据分析非常重要。好的特征能够改善模型、提升模型的性能,特征选择主要有两个功能:

  • 减少特征数量、降维,使模型泛化能力更强,减少过拟合;

  • ​增强对特征和特征值之间的理解。 

2.模型融合

一般来说模型融合可以有效的、直接的提升自身模型精度,集成之后的模型比其中任何一个单独的模型都有更高的预测能力。

一般被选手常用的模型融合方式有n折交叉验证法、多模型融合投票法。

3.奥卡姆剃刀原理

奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单(特征尽量少,把没有必要的特征干掉、因为碍事还没价值或者价值边际递减的非常厉害)才是最好的,也就是应该选择的模型。

—End—

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐