UNIWIN - Forêts aléatoires de décision et de régression

La procédure Forêts aléatoires crée des modèles de deux formes : modèles décisionnels qui découpent les observations en groupes basés sur les caractéristiques observées et modèles de régression qui prévoient la valeur d’une variable à expliquer. Les modèles sont élaborés en construisant un grand nombre d’arbres et en faisant la moyenne des prévisions obtenues à partir de ces arbres. Les arbres sont construits en utilisant une procédure similaire à celle des arbres de décision et de régression, avec optimisation aléatoire des nœuds et agrégation de bootstrap (bagging). Les données brutes sont utilisées pour les calculs car la structure d’un arbre n’est pas impactée par les habituelles
transformations monotones des données. Les observations sont découpées en trois jeux : un jeu d’apprentissage utilisé pour construire les arbres, un jeu de validation et un jeu de prévision pour lequel les classes ou valeurs de la variable à expliquer ne sont pas connues et doivent être prévues. La variable à expliquer est soit qualitative, soit quantitative, comme c’est également le cas pour les variables explicatives.

Cette procédure est basée sur le package R ‘randomForest’.

Tableaux

Erreur de prévision (OOB) – classement
Erreurs quadratiques moyennes et R-carrés (OOB) – régression
Importances des variables explicatives
Utilisation des variables explicatives
Nombres de noeuds terminaux dans les arbres
Nombres de fois où chaque observation est OOB dans les arbres
Détail du classement pour les jeux d’apprentissage et de validation (OOB) – classement
Matrices de confusion pour les jeux d’apprentissage et de validation (OOB) – classement
Sensibilités, spécificités pour les jeux d’apprentissage et de validation (OOB) – classement
Détail du classement pour le jeu de prévision – classement
Valeurs observées, estimées et résidus pour les jeux d’apprentissage et de validaiton – régression
Valeurs estimées pour le jeu de prévision – régression

Graphiques

Utilisation des variables explicatives
Nombres de noeuds terminaux dans les arbres
Importance des variables (erreur de classement et impureté des noeuds (indice de Gini)) – classement
Importance des variables (erreur quadratique moyenne et impureté des noeuds (résidus)) – régression
Graphique de l’erreur de prévision OOB – classement
Nuages de points pour les jeux d’apprentissage, de validation et de prévision
Graphiques des frontières pour les jeux d’apprentissage et de validation
Graphiques des matrices de confusion pour les jeux d’apprentissage et de validation – classement
Courbes ROC pour les jeux d’apprentissage et de validation – classement
Graphique des erreurs quadratiques moyennes – régression 
Graphique des R-carrés – régression 
Graphiques des valeurs estimées vs observées pour les jeux d’apprentissage et de validation – régression
Graphiques des résidus vs valeurs estimées pour les jeux d’apprentissage et de validation – régression