UNIWIN - Classification par les K-médoïdes

La classification par la méthode des K-médoïdes est une approche de classification apparentée à la méthode des K-moyennes pour partitionner un ensemble de données en k classes. Dans la classification par K-médoïdes, chaque classe est représentée par l’une des observations de la classe. Ces observations sont appelées médoïdes.

Le terme médoïde fait référence à une observation au sein d’une classe pour laquelle la dissemblance moyenne entre elle et toutes les autres observations de la classe est minimale. Elle correspond au point le plus central de la classe. Ces observations (une par classe) peuvent être considérées comme des exemples représentatifs des membres des classes. Rappelons que, dans la classification par K-moyennes, le centre d’une classe donnée est calculé comme la valeur moyenne de toutes les observations de cette classe.

La méthode des K-médoïdes est une alternative robuste à la méthode des K-moyennes. Cela signifie que l’algorithme est moins sensible au bruit et aux valeurs aberrantes car il utilise les médoïdes comme centres des classes au lieu des moyennes.

La méthode des K-médoïdes la plus courante est l’algorithme PAM (Partitioning Around Medoids) de Kaufman et Rousseeuw (1990).

La procédure affiche un rapport indiquant notamment les médoïdes des classes formées, la classification des observations, des statistiques descriptives pour les classes formées et les contributions des variables aux classes. Si une classification mixte a été mise en œuvre, les résultats de la CAH sont également fournis.

Les graphiques des coefficients moyens et individuels de silhouette et des nuages de points des classes formées sont proposés. Si une classification mixte a été mise en œuvre, le diagramme des indices de la classification et l’affichage de l’arbre sont proposés.

Cette procédure est basée sur les packages R ‘stats’ et ‘cluster’.

Tableaux

Standardisation des données (PAM)

Nombre optimal de classes (PAM)

Médoïdes des classes (PAM)

Classification du jeu d’apprentissage (PAM)

Résumé de la classification (PAM)

Statistiques pour les classes (PAM)

Contributions des variables aux classes (PAM)

Contributions des classes aux variables (PAM)

Classification du jeu de prévision (PAM)

Indices de la classification (CAH)

Centroïdes des classes (CAH)

Classification (CAH)

Résumé de la classification (CAH)

Statistiques pour les classes (CAH)

Contributions des variables aux classes (CAH)

Contributions des classes aux variables (CAH)

Graphiques

Diagramme des coefficients moyens de silhouette (PAM)

Graphique des coefficients individuels de silhouette (PAM)

Nuage de points des classes (PAM)

Diagramme des indices de la classification (CAH)

Diagramme de l’arbre de classification (CAH)

Nuage de points des classes (CAH)