La procédure Forêts aléatoires crée des modèles de deux formes : modèles décisionnels qui découpent les observations en groupes basés sur les caractéristiques observées et modèles de régression qui prévoient la valeur d’une variable à expliquer. Les modèles sont élaborés en construisant un grand nombre d’arbres et en faisant la moyenne des prévisions obtenues à partir de ces arbres. Les arbres sont construits en utilisant une procédure similaire à celle des arbres de décision et de régression, avec optimisation aléatoire des nœuds et agrégation de bootstrap (bagging). Les données brutes sont utilisées pour les calculs car la structure d’un arbre n’est pas impactée par les habituelles
transformations monotones des données. Les observations sont découpées en deux jeux : un jeu d’apprentissage utilisé pour construire les arbres et un jeu de prévision pour lequel les classes ou valeurs de la variable à expliquer ne sont pas connues et doivent être prévues. La variable à expliquer est soit qualitative, soit quantitative, comme c’est également le cas pour les variables explicatives.
Cette procédure est basée sur le package R ‘randomForest’.