UNIWIN - Forêts aléatoires de décision et de régression
La procédure Forêts aléatoires crée des modèles de deux formes : modèles décisionnels qui découpent les observations en groupes basés sur les caractéristiques observées et modèles de régression qui prévoient la valeur d’une variable à expliquer. Les modèles sont élaborés en construisant un grand nombre d’arbres et en faisant la moyenne des prévisions obtenues à partir de ces arbres. Les arbres sont construits en utilisant une procédure similaire à celle des arbres de décision et de régression, avec optimisation aléatoire des nœuds et agrégation de bootstrap (bagging). Les données brutes sont utilisées pour les calculs car la structure d’un arbre n’est pas impactée par les habituelles
transformations monotones des données. Les observations sont découpées en trois jeux : un jeu d’apprentissage utilisé pour construire les arbres, un jeu de validation et un jeu de prévision pour lequel les classes ou valeurs de la variable à expliquer ne sont pas connues et doivent être prévues. La variable à expliquer est soit qualitative, soit quantitative, comme c’est également le cas pour les variables explicatives.
Cette procédure est basée sur le package R ‘randomForest’.
Tableaux
Erreur de prévision (OOB) – classement
Erreurs quadratiques moyennes et R-carrés (OOB) – régression
Importances des variables explicatives
Utilisation des variables explicatives
Nombres de noeuds terminaux dans les arbres
Nombres de fois où chaque observation est OOB dans les arbres
Détail du classement pour les jeux d’apprentissage et de validation (OOB) – classement
Matrices de confusion pour les jeux d’apprentissage et de validation (OOB) – classement
Sensibilités, spécificités pour les jeux d’apprentissage et de validation (OOB) – classement
Détail du classement pour le jeu de prévision – classement
Valeurs observées, estimées et résidus pour les jeux d’apprentissage et de validaiton – régression
Valeurs estimées pour le jeu de prévision – régression
Graphiques
Utilisation des variables explicatives
Nombres de noeuds terminaux dans les arbres
Importance des variables (erreur de classement et impureté des noeuds (indice de Gini)) – classement
Importance des variables (erreur quadratique moyenne et impureté des noeuds (résidus)) – régression
Graphique de l’erreur de prévision OOB – classement
Nuages de points pour les jeux d’apprentissage, de validation et de prévision
Graphiques des frontières pour les jeux d’apprentissage et de validation
Graphiques des matrices de confusion pour les jeux d’apprentissage et de validation – classement
Courbes ROC pour les jeux d’apprentissage et de validation – classement
Graphique des erreurs quadratiques moyennes – régression
Graphique des R-carrés – régression
Graphiques des valeurs estimées vs observées pour les jeux d’apprentissage et de validation – régression
Graphiques des résidus vs valeurs estimées pour les jeux d’apprentissage et de validation – régression
Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site web. Si vous continuez à utiliser ce site, nous supposerons que vous en êtes satisfait.