UNIWIN - Méthode des K plus proches voisins (classement, régression)

L’algorithme des K plus proches voisins (KNN) repose sur une idée simple : on suppose que la valeur d’une variable à expliquer pour une observation doit être proche des valeurs qu’elle prend pour ses observations les plus voisines.

Si la variable à expliquer est qualitative, on affecte l’observation à la classe majoritaire parmi ses données voisines.

Si la variable à expliquer est quantitative, on donne à l’observation la valeur moyenne observée de la variable à expliquer pour ses données voisines.

Une plage de valeurs de K est précisée et la valeur optimale de K est déterminée par validation croisée.

Les résultats sont fournis pour les jeux d’apprentissage et de prévision.

Cette procédure est basée sur le package R ‘caret’.

Tableaux

Détermination du K optimal

Classement pour le jeu d’apprentissage (classement)

Matrice de confusion pour le jeu d’apprentissage (classement)

Sensibilités, spécificités pour le jeu d’apprentissage (classement)

Classement pour le jeu de prévision (classement)

Valeurs observées, estimées, résidus pour le jeu d’apprentissage (régression)

Valeurs estimées pour le jeu de prévision (régression)

Graphiques

Graphique de l’évolution de la précision (classement)

Graphique des données du jeu d’apprentissage (classement)

Graphique des données du jeu de prévision (classement)

Graphique de la matrice de confusion (classement)

Courbe ROC (classement)

Graphique de l’évolution du R-carré (régression)

Graphique des valeurs estimées vs observées pour le jeu d’apprentissage (régression)

Graphique des résidus vs valeurs estimées pour le jeu d’apprentissage (régression)