Logiciel Uniwin

Uniwin version 9.0.2

Analyses de données multidimensionnelles pour STATGRAPHICS Centurion

UNIWIN est un module complémentaire à STATGRAPHICS Centurion. Il lui ajoute un ensemble de méthodes d’analyse de données multidimensionnelles ainsi que diverses autres procédures.

Analyse en composantes principales

La méthode d’Analyse en Composantes Principales (ACP) permet d’étudier un tableau individus x variables dans le cas où toutes les variables sont quantitatives. La méthode permet d’obtenir une carte des individus en fonction de leurs proximités et une carte des variables en fonction de leurs corrélations. Il est également possible d’obtenir une représentation simultanée (Biplot). La possibilité d’analyse d’individus et de variables supplémentaires (quantitatives ou qualitatives) est offerte. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels des individus, des cercles des corrélations, du Biplot, de ceux relatifs aux individus et variables supplémentaires ainsi que des graphiques des contributions, des cosinus carrés et des distances carrées à l’origine.

Analyse factorielle des correspondances

La méthode d’Analyse Factorielle des Correspondances Simples ou Binaires (AFC) permet de représenter graphiquement un tableau de contingence créé par le ou les croisements (tris croisés) de deux ou plusieurs variables qualitatives. La méthode vise à rassembler sur un ou plusieurs graphiques (plan factoriel) la plus grande partie possible de l’information contenue dans le tableau en s’attachant non pas aux valeurs absolues mais aux correspondances entre les caractéristiques, c’est-à-dire aux valeurs relatives. La possibilité d’analyse de points lignes ou colonnes supplémentaires est offerte. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que l’ensemble des graphiques des plans factoriels lignes, colonnes, simultanés, barycentriques et de ceux relatifs aux lignes et colonnes supplémentaires. De nombreux outils d’aide à l’interprétation sont fournis, notamment contributions et cosinus carrés.

Analyse des correspondances multiples

L’Analyse des Correspondances Multiples (ACM) permet d’analyser un tableau individus x variables lorsque les variables sont qualitatives. Cette méthode effectue une analyse des correspondances sur le tableau disjonctif complet obtenu en remplaçant dans le tableau d’origine chaque variable qualitative par l’ensemble des variables indicatrices des différentes modalités de cette variable. La possibilité d’analyse d’individus ou de variables supplémentaires est offerte. La transformation du tableau des données initiales en tableau disjonctif complet est automatiquement effectuée. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que l’ensemble des graphiques des plans factoriels individus, variables, simultanés, barycentriques et de ceux relatifs aux individus et variables supplémentaires. De nombreux outils d’aide à l’interprétation sont fournis, notamment contributions, cosinus carrés, distances à l’origine, valeurs test.

Analyse sur tableau de distances ou de dissimilarités

La méthode d’Analyse sur Tableau de Distances ou de Dissimilarités (ATD) permet d’étudier un tableau de distances euclidiennes (tableau diagonal inférieur) individus x individus contenant à chaque intersection ligne-colonne la distance ou la dissimilarité entre cette ligne et cette colonne. Si le tableau n’est pas symétrique, il est symétrisé par la procédure et s’il ne définit pas une « vraie » distance, une technique dite de « la constante additive » est utilisée. La méthode permet d’obtenir une carte des individus en fonction de leurs proximités ou dissimilarités. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire et la méthode à utiliser si des valeurs propres sont négatives. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels des individus. De nombreux outils d’aide à l’interprétation sont fournis: contributions, cosinus carrés, distances calculées, écarts entre les distances d’origine et celles calculées.

Classification ascendante hiérarchique

La méthode de Classification Ascendante Hiérarchique (CAH) permet de construire une typologie (ou partition) d’un ensemble d’individus en classes telles que les individus appartenant à une même classe sont proches alors que les individus appartenant à des classes différentes sont éloignés. La méthode utilisée est celle de Ward, méthode dite des voisins réciproques. C’est une méthode ascendante partant d’un nombre de classes égal au nombre des individus et regroupant à chaque itération un (ou plusieurs) individus ou classes en fonction de la diminution de l’inertie inter-classes. L’algorithme s’applique à des données quantitatives individus x variables (avec standardisation ou non), à un tableau de contingence ou à un tableau de variables qualitatives. Dans le cas d’un tableau de contingence, la classification peut se faire suivant les lignes ou les colonnes. Un tableau résumé de la classification et le tracé de l’arbre de classification (avec zoom et troncature) et de nuages codifiés sont proposés ainsi que des outils d’analyse de la partition et des noeuds.

Ellipses de confiance et de tolérance

Les Ellipses de Tolérance ou de Confiance (ELL) permettent de définir des régions autour de nuages de points décrivant les différentes catégories de variables supplémentaires dans un plan d’une analyse factorielle. Plus généralement, elles permettent de définir les régions de confiance autour des centres de gravité de groupes définis par différentes catégories. Ellipses de tolérance ou de confiance sont proposées. Le choix du niveau de risque alpha est possible et pour les ellipses de confiance, les calculs peuvent se faire sous l’hypothèse d’un échantillon de taille finie ou infinie. La variable de liaison entre les points permet de définir comment les points seront reliés pour créer des courbes. Il est possible ou non d’afficher les symboles des points lorsque le tracé est sous la forme de courbes. Des graphiques permettent de visualiser les différentes ellipses, les centres de gravité, les codes des catégories et les numéros des points.

Analyse factorielle multiple

L’Analyse Factorielle Multiple (AFM) est spécialement conçue pour étudier une population d’individus caractérisée par un certain nombre de groupes de variables. Ces groupes de variables peuvent être constitués de variables mesurées à différents instants, mais aussi de sous-tableaux issus d’un unique tableau : ces sous-tableaux correspondent alors à des regroupements de variables selon des critères. Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des cercles factoriels, des plans factoriels du compromis, de l’interstructure, de l’intrastructure, des trajectoires des individus. De nombreux outils d’aide à l’interprétation sont fournis, notamment coefficients de liaison entre les groupes, comparaison des projections du compromis et des groupes, contributions, cosinus carrés, distances à l’origine pour les individus et les groupes.

Méthode Statis

La méthode Statis (Structuration de Tableaux A Trois Indices de la Statistique) permet l’exploration simultanée de plusieurs tableaux de données. Elle s’applique à des données quantitatives qui sont des tableaux de mesures recueillis en différentes occasions sur les mêmes individus, les variables pouvant être éventuellement différentes selon les tableaux. Si le tableau croise les mêmes individus et les mêmes variables, il peut être intéressant de réaliser également une analyse par la méthode Statis duale. Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels du compromis (individus), de l’interstructure (groupes des variables) et de l’intrastructure (individus et trajectoires des individus). De nombreux outils d’aide à l’interprétation sont fournis, notamment normes et traces des groupes, coefficients RV, distances entre les groupes, décompositions de ces distances par individu, pondérations des groupes, résultats pour les groupes et le compromis (distances à l’origine, contributions, cosinus carrés) ainsi que pour les individus pour les divers groupes.

Méthode Statis duale

La La méthode Statis duale (Structuration de Tableaux A Trois Indices de la Statistique) permet l’exploration simultanée de plusieurs tableaux de données. Elle s’applique à des données quantitatives qui sont des tableaux de mesures recueillis en différentes occasions sur les mêmes variables, les individus pouvant être éventuellement différents selon les tableaux. Si le tableau croise les mêmes variables et les mêmes individus, il peut être intéressant de réaliser également une analyse par la méthode Statis . Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels du compromis (variables), de l’interstructure (groupes des variables) et de l’intrastructure (variables et trajectoires des variables). De nombreux outils d’aide à l’interprétation sont fournis, notamment matrices des corrélations pour les groupes, inerties des groupes, normes des groupes, produits scalaires normés et distances entre les matrices des corrélations, décompositions de ces distances par variable, pondérations des matrices des corrélations, matrice des corrélations du compromis, produits scalaires et distances entre la matrice compromis et les matrices des groupes, résultats pour les groupes et le compromis (distances à l’origine, contributions, cosinus carrés) ainsi que pour les variables pour les divers groupes.

Analyse factorielle de données mixtes

L’Analyse Factorielle de Données Mixtes (AFDM) est une méthode spécialement conçue pour permettre l’étude simultanée de variables quantitatives et qualitatives (données dites mixtes) mesurées sur une population d’individus en tant qu’éléments actifs dans une même analyse. Cette analyse prend en compte les variables quantitatives comme une analyse en composantes principales normée (ACP) et les variables qualitatives comme une analyse des correspondances multiples (ACM). L’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des cercles factoriels, des représentations simultanées des variables quantitatives et qualitatives, des plans factoriels des individus et des modalités. De nombreux outils d’aide à l’interprétation sont fournis, notamment pondérations des indicatrices des variables qualitatives, liaisons entre les variables initiales, contributions des variables à l’inertie et pour les plans factoriels les contributions et cosinus carrés.

Analyse discriminante pas à pas

L’Analyse Discriminante Pas à Pas permet de sélectionner à partir d’un ensemble de variables quantitatives et d’une variable qualitative découpant la population en plusieurs groupes (2 ou plus), le sous-ensemble des variables quantitatives les plus explicatives des groupes qui seront alors utilisées pour définir des fonctions discriminantes robustes. La méthode proposée permet de préciser les valeurs des Fishers pour l’entrée et la sortie d’une variable, les critères d’arrêt de l’algorithme (variation minimale du lambda de Wilk si plus de 2 groupes ou de la distance de Mahalanobis si 2 groupes, nombre maximal de variables à sélectionner, nombre maximal d’itérations). La méthode itérative peut être « manuelle » (affiche toutes les étapes) ou « automatique » (affiche uniquement le tableau final). L’algorithme est formé d’une succession d’étapes ascendantes (entrée d’une variable) et descendantes (sortie d’une variable). Un rapport général de synthèse est proposé: il permet de visualiser toutes les étapes de l’algorithme. Cette méthode peut être complétée par une Analyse Discriminante Bayésienne (ADB) ou une Analyse Factorielle Discriminante (AFD).

Analyse factorielle discriminante

L’Analyse Factorielle Discriminante (AFD) est une méthode géométrique permettant de construire à partir d’un ensemble de variables quantitatives et d’une variable qualitative découpant la population en plusieurs groupes (2 ou plus) des fonctions discriminantes qui les séparent au mieux dans l’échantillon d’apprentissage. En fonction des données et des paramètres définis par l’utilisateur, l’analyse AFD réalise automatiquement les études de la population d’apprentissage et des éventuelles populations de validation et de prévision. De façon plus précise, la méthode peut se décomposer en trois étapes. Supposons une population de n individus. Découpons cette population en trois sous-populations de tailles n1, n2 et n3 avec n1 + n2 + n3 = n. Les trois étapes sont une étude initiale sur la population d’apprentissage de taille n1 puis une étude de validation sur la population de validation de taille net enfin une étude prospective sur une population de prévision de taille n3. Des tableaux résumés et détaillés des classements sont calculés. Le tracé de plans factoriels et un rapport général de synthèse sont proposés.

Analyse discriminante bayésienne

L’Analyse Discriminante Bayésienne (ADB) permet de construire à partir d’un ensemble de variables quantitatives et d’une variable qualitative découpant la population en plusieurs groupes (2 ou plus), des fonctions discriminantes qui définissent une règle de décision optimale à partir de laquelle on peut affecter des individus de validation et de prévision aux différents groupes. Cette technique suppose que l’on connaisse a priori les probabilités d’appartenance aux différents groupes et que les données suivent une loi multi-normale. La méthode proposée permet de traiter les cas linéaire (égalité des matrices de variances) et quadratique (non-égalité des matrices de variances). L’entrée des probabilités a priori est proposée. Par défaut, le système utilise les probabilités issues des fréquences des groupes dans les données entrées. En fonction des données et des paramètres définis par l’utilisateur, l’analyse ADB réalise automatiquement les études de la population d’apprentissage et des éventuelles populations de validation et de prévision. De façon plus précise, la méthode peut se décomposer en trois étapes. Supposons une population de n individus. Découpons cette population en trois sous-populations de tailles n1, n2 et n3 avec n1 + n2 + n3 = n. Les trois étapes sont  une étude initiale sur la population d’apprentissage de taille n1 puis  une étude de validation sur la population de validation de taille n2 et enfin  une étude prospective sur une population de prévision de taille n3. Des tableaux résumés et détaillés des classements sont calculés. Le tracé de plans factoriels et un rapport général de synthèse sont proposés.

Analyse discriminante qualitative

L’Analyse Discriminante Qualitative (ADQ) est une généralisation de l’Analyse Factorielle Discriminante (AFD) dans le cas où les variables explicatives sont qualitatives et non plus quantitatives. La première étape de l’analyse consiste à mettre en œuvre une Analyse des Correspondances Multiples (ACM) des variables qualitatives. La deuxième étape remplace les variables qualitatives d’origine par les coordonnées sur les axes factoriels issus de l’ACM et effectue sur ces données une Analyse Factorielle Discriminante (AFD). Les fonctions discriminantes sont ensuite exprimées en fonction des indicatrices des modalités des variables qualitatives d’origine. La méthode réalise d’abord l’analyse sur une population d’apprentissage, puis sur une population de validation et enfin sur une population de prévision. En fonction des données et des paramètres définis par l’utilisateur, l’analyse ADB réalise automatiquement les études de la population d’apprentissage et des éventuelles populations de validation et de prévision. De façon plus précise, la méthode peut se décomposer en trois étapes. Supposons une population de n individus. Découpons cette population en trois sous-populations de tailles n1, n2 et n3 avec n1 + n2 + n3 = n. Les trois étapes sont une étude initiale sur la population d’apprentissage de taille n1 puis une étude de validation sur la population de validation de taille n2 et enfin une étude prospective sur une population de prévision de taille n3. Des tableaux résumés et détaillés des classements sont calculés. Un rapport général de synthèse est proposé ainsi que des graphiques des cercles et plans factoriels.

Scoring

Le scoring est une technique permettant de classer des individus caractérisés par des variables descriptives qualitatives dans deux catégories préexistantes en leur affectant un score d’appartenance. La première étape de cette technique consiste à transformer les variables descriptives qualitatives d’origine en coordonnées sur les axes factoriels issus d’une Analyse des Correspondances Multiples (ACM) des variables qualitatives. La deuxième étape est une Analyse Factorielle Discriminante (AFD) de ces données, avec une possible sélection des axes factoriels significatifs de l’ACM. La fonction discriminante obtenue est ensuite exprimée en fonction des indicatrices des modalités des variables qualitatives d’origine et les coefficients de la fonction de score sont évalués. L’analyse se poursuit en calculant les scores des individus, la sensibilité, la spécificité, le niveau de qualité ROC et l’indice de Gini pour la courbe Lift. Un rapport général de synthèse est proposé ainsi que des graphiques des coefficients de la fonction de score, des courbes de répartition (avec ou sans zone d’indécision), des courbes de densité, de la courbe ROC et de la courbe de Lift. Des tableaux résumés et détaillés des classements de l’Analyse Factorielle Discriminante (AFD) et du Scoring sont calculés. Une option Simulation permet de visualiser l’évolution du score d’un individu en fonction des modifications de ses modalités. L’étude d’une population de prévision est également proposée.

Régression sur composantes principales

La méthode de Régression sur Composantes Principales (RCP) est une technique de régression utile lorsque de fortes colinéarités entre les variables explicatives sont présentes et que l’on ne désire pas utiliser les algorithmes de régression pas à pas pour éliminer les variables corrélées entre elles ou les régressions Ridge ou PLS. Cette technique utilise à la fois l’Analyse en Composantes Principales (ACP) et la Régression Multiple pour élaborer un modèle dont les coefficients sont stables. Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé contenant notamment les résultats de l’Analyse en Composantes Principales (ACP), les descriptions des différents modèles de régression et le tableau de l’analyse de la variance. Les graphiques des cercles factoriels, des plans factoriels, des régressions, des composants et des résidus sont également disponibles.

Print Friendly, PDF & Email