深度学习训练数据中的特征重要性排名

查看神经网络模型特征重要性的思路：依次变动各个特征，通过模型最终预测的结果来衡量特征的重要性。神经网络特征重要性的获取步骤如下：训练一个神经网络模型；每次对一个特征列进行随机shuffle，并输入模型中进行预测得到Loss；记录变动的每个特征列以及其对应的Loss；每个Loss就是该特征对应的特征重要性，Loss越大，说明该特征对于模型越重要。Code :import matplotlib.pyp

Think@

7882人浏览 · 2021-10-11 21:57:31

Think@ · 2021-10-11 21:57:31 发布

查看神经网络模型特征重要性的思路：依次变动各个特征，通过模型最终预测的结果来衡量特征的重要性。

神经网络特征重要性的获取步骤如下：

训练一个神经网络模型；
每次对一个特征列进行随机shuffle，并输入模型中进行预测得到Loss；
记录变动的每个特征列以及其对应的Loss；
每个Loss就是该特征对应的特征重要性，Loss越大，说明该特征对于模型越重要。

Code :

import matplotlib.pyplot as plt
from tqdm.notebook import tqdm

import tensorflow as tf
from tensorflow import keras
import tensorflow.keras.backend as K
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from tensorflow.keras.callbacks import LearningRateScheduler, ReduceLROnPlateau
from tensorflow.keras.optimizers.schedules import ExponentialDecay
from sklearn.metrics import mean_absolute_error as mae
from sklearn.preprocessing import RobustScaler, normalize
from sklearn.model_selection import train_test_split, GroupKFold, KFold
from IPython.display import display

COMPUTE_LSTM_IMPORTANCE = 1
ONE_FOLD_ONLY = 1

with gpu_strategy.scope():
    kf = KFold(n_splits=NUM_FOLDS, shuffle=True, random_state=2021)
    test_preds = []
    for fold, (train_idx, test_idx) in enumerate(kf.split(train, targets)):
        K.clear_session()
        
        print('-'*15, '>', f'Fold {fold+1}', '<', '-'*15)
        X_train, X_valid = train[train_idx], train[test_idx]
        y_train, y_valid = targets[train_idx], targets[test_idx]
        
        # 导入已经训练好的模型
        model = keras.models.load_model('models/XXX.h5')
        # 计算特征重要性
        if COMPUTE_LSTM_IMPORTANCE:
            results = []
            print(' Computing LSTM feature importance...')

            for k in tqdm(range(len(COLS))):
                if k>0: 
                    save_col = X_valid[:,:,k-1].copy()
                    np.random.shuffle(X_valid[:,:,k-1])
                        
                oof_preds = model.predict(X_valid, verbose=0).squeeze() 
                mae = np.mean(np.abs( oof_preds-y_valid ))
                results.append({'feature':COLS[k],'mae':mae})
        
                if k>0: 
                    X_valid[:,:,k-1] = save_col
         
            # 展示特征重要性
            print()
            df = pd.DataFrame(results)
            df = df.sort_values('mae')
            plt.figure(figsize=(10,20))
            plt.barh(np.arange(len(COLS)),df.mae)
            plt.yticks(np.arange(len(COLS)),df.feature.values)
            plt.title('LSTM Feature Importance',size=16)
            plt.ylim((-1,len(COLS)))
            plt.show()
                               
            # SAVE LSTM FEATURE IMPORTANCE
            df = df.sort_values('mae',ascending=False)
            df.to_csv(f'lstm_feature_importance_fold_{fold}.csv',index=False)
                               
        # ONLY DO ONE FOLD
        if ONE_FOLD_ONLY: break

Result :

来源（Permutation Feature Importance）：LSTM Feature Importance | Kaggle

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

数据库完整性--断言--触发器实验

一、实验目的：（1）理解和掌握数据库完整性–断言–触发器，能够使用SQL语句对数据库完整性–断言–触发器实验操作。（2）掌握SQL语句常见语法错误的调试方法。二、实验内容：按照下列要求操作，并截取相应的结果图。要求设计测试数据进行实体完整性、参照完整性和用户定义完整性的检查和违约处理。1、按照教材158页例5.1至例5.13、例5.18至例5.23的要求操作5.1.1 定义实体完整性关系模型

腾讯云开发者社区

使用python进行根轨迹的绘制

简介利用python实现根轨迹的简易绘制，利用pyinstaller进行封装，点击dist文件夹内的exe文件就可运行。运行效果例如对如下图所示的开环传函分子的系数分别为：1，10分母的系数分别为：1，3，2，0enter之后如下所示：再附上matlab作图情况：参考：https://blog.csdn.net/kingyuan666/article/details/83418230...

腾讯云开发者社区

python题库刷题训练软件_自动刷题机 Python 解释源码超新泛雅

本文解释一下代码，如果有想要用机器刷题的（前提是能找的到答案），可以参考一下。开发原因：作业又多又无聊自己不想做，干脆用机器刷题。主要方法：主要用Python的selenium库实现刷题。需要基础：Python你得会点吧 html你得会的吧正则表达式你得会点吧登录部分导入以下包from selenium import webdriver#导入selenium的webdriver 如果这个看不懂的