UNIWIN - Méthode des k plus proches voisins

La méthode des k plus proches voisins (KNN) a pour objectif de classer des observations dont les classes sont inconnues (échantillon de prévision) en fonction de leurs distances euclidiennes (calculées en utilisant les variables explicatives quantitatives précisées) à des observations dont les classes sont connues (échantillon d’apprentissage).

Une plage de valeurs de k est précisée.

La première étape de cette méthode consiste à classer les observations de l’échantillon d’apprentissage par validation croisée (méthode retirer 1 à la fois). Chaque observation retirée est affectée à la classe la plus fréquente de ses k plus proches voisins par un vote majoritaire. Le taux d’erreur de classement est alors calculé pour chaque valeur de k et le k optimal est déterminé.

La seconde étape consiste à classer les données de l’échantillon de prévision en utilisant ce k optimal. Chaque nouvelle observation est affectée à  la classe la plus fréquente de ses k plus proches voisins.

Cette procédure est basée sur le package R ‘class’.

Tableaux

Classement apprentissage (pour chaque valeur de K)

Synthèse apprentissage (pour chaque valeur de K)

VP, FN, FP, VN, sensibilité, spécificité (pour le K optimal)

Classement prévision (pour chaque valeur de K)

Graphiques

Graphique de l’évolution du taux d’erreur

Graphique des données d’apprentissage

Graphique des données de prévision

Courbe ROC (pour le K optimal)