La méthode des k plus proches voisins (KNN) a pour objectif de classer des observations dont les classes sont inconnues (échantillon de prévision) en fonction de leurs distances euclidiennes (calculées en utilisant les variables explicatives quantitatives précisées) à des observations dont les classes sont connues (échantillon d’apprentissage).
Une plage de valeurs de k est précisée.
La première étape de cette méthode consiste à classer les observations de l’échantillon d’apprentissage par validation croisée (méthode retirer 1 à la fois). Chaque observation retirée est affectée à la classe la plus fréquente de ses k plus proches voisins par un vote majoritaire. Le taux d’erreur de classement est alors calculé pour chaque valeur de k et le k optimal est déterminé.
La seconde étape consiste à classer les données de l’échantillon de prévision en utilisant ce k optimal. Chaque nouvelle observation est affectée à la classe la plus fréquente de ses k plus proches voisins.
Cette procédure est basée sur le package R ‘class’.