Les arbres de décision et de régression sont des méthodes permettant d’obtenir des modèles explicatifs et prédictifs. Ils sont faciles à comprendre du fait de l’affichage des résultats sous la forme d’arbres et de la génération d’un ensemble de règles en langage naturel. Les arbres de décision (classement) permettent d’expliquer et de prévoir l’appartenance d’observations à une classe d’une variable qualitative en se basant sur un ensemble de variables explicatives quantitatives et qualitatives. Les arbres de régression permettent d’expliquer et de prévoir la valeur prise par une variable quantitative à expliquer en fonction de variables explicatives quantitatives et qualitatives.
La procédure propose l’étude des jeux d’apprentissage, de validation et de prévision. Un rapport général de synthèse est proposé ainsi que les graphiques des coefficients de complexité, de l’importance des variables, des arbres complet et élagué, de la courbe ROC (décision), des valeurs estimées par rapport aux valeurs observées (régression) et des résidus par rapport aux valeurs estimées (régression).
Cette procédure est basée sur les packages R ‘rpart’ et ‘rpart.plot’.