UNIWIN - Forêts aléatoires de décision et de régression

La procédure Forêts aléatoires crée des modèles de deux formes : modèles décisionnels qui découpent les observations en groupes basés sur les caractéristiques observées et modèles de régression qui prévoient la valeur d’une variable à expliquer. Les modèles sont élaborés en construisant un grand nombre d’arbres et en faisant la moyenne des prévisions obtenues à partir de ces arbres. Les arbres sont construits en utilisant une procédure similaire à celle des arbres de décision et de régression, avec optimisation aléatoire des nœuds et agrégation de bootstrap (bagging). Les données brutes sont utilisées pour les calculs car la structure d’un arbre n’est pas impactée par les habituelles
transformations monotones des données. Les observations sont découpées en deux jeux : un jeu d’apprentissage utilisé pour construire les arbres et un jeu de prévision pour lequel les classes ou valeurs de la variable à expliquer ne sont pas connues et doivent être prévues. La variable à expliquer est soit qualitative, soit quantitative, comme c’est également le cas pour les variables explicatives.

Cette procédure est basée sur le package R ‘randomForest’.

Tableaux

Taux d’erreur de classement (OOB) – classement
Erreurs quadratiques moyennes et R-carrés (OOB) – régression
Importances des variables explicatives
Utilisation des variables explicatives
Nombres de noeuds terminaux dans les arbres
Nombres de fois où chaque observation est OOB dans les arbres
Détail du classement de la population d’apprentissage (OOB) – classement
Matrice de confusion de la population d’apprentissage (OOB) – classement
Sensibilité, spécificité de la population d’apprentissage (OOB) – classement
Détail du classement de la population de prévision – classement
Valeurs observées, estimées et résidus pour la population d’apprentissage – régression
Valeurs estimées pour la population de prévision – régression

Graphiques

Utilisation des variables explicatives
Nombres de noeuds terminaux dans les arbres
Importances des variables (taux d’erreur de classement et impureté des noeuds (indice de Gini)) – classement
Importances des variables (erreur quadratique moyenne et impureté des noeuds (résidus)) – régression
Graphique du taux d’erreur OOB
Matrice de confusion – classement
Courbe ROC – classement
Erreurs quadratiques moyennes – régression
R-carrés – régression
Valeurs estimées vs observées – régression
Résidus vs valeurs estimées – régression