L’algorithme des K plus proches voisins (KNN) repose sur une idée simple : on suppose que la valeur d’une variable à expliquer pour une observation doit être proche des valeurs qu’elle prend pour ses observations les plus voisines.
Si la variable à expliquer est qualitative, on affecte l’observation à la classe majoritaire parmi ses données voisines.
Si la variable à expliquer est quantitative, on donne à l’observation la valeur moyenne observée de la variable à expliquer pour ses données voisines.
Une plage de valeurs de K est précisée et la valeur optimale de K est déterminée par validation croisée.
Les résultats sont fournis pour les jeux d’apprentissage et de prévision.
Cette procédure est basée sur le package R ‘caret’.