Logiciel Uniwin

Uniwin version 9.2.0

Analyses statistiques et graphiques pour STATGRAPHICS Centurion

UNIWIN est un module complémentaire à STATGRAPHICS Centurion. Il lui ajoute un ensemble de méthodes d’analyse de données multidimensionnelles ainsi que diverses autres procédures.

Analyse en composantes principales Analyse procrustéenne généralisée
Analyse NIPALS Analyse discriminante pas à pas
Analyse factorielle des correspondances Analyse factorielle discriminante
Analyse des correspondances multiples Analyse discriminante bayésienne
Analyse sur tableau de distances ou de dissimilarités Analyse discriminante qualitative
Analyse factorielle de données mixtes Scoring
Analyse en composantes indépendantes Régression sur composantes principales
Classification ascendante hiérarchique Régressions PLS1 et PLS2
Classification par cartes auto-organisatrices Réseaux de neurones artificiels
Ellipses de confiance et de tolérance Courbe ROC
Analyse factorielle multiple Courbe de Gini
Méthode Statis Cartes géographiques
Méthode Statis duale

Analyse en composantes principales

La méthode d’Analyse en Composantes Principales (ACP) permet d’étudier un tableau individus x variables dans le cas où toutes les variables sont quantitatives. La méthode permet d’obtenir une carte des individus en fonction de leurs proximités et une carte des variables en fonction de leurs corrélations. Il est également possible d’obtenir une représentation simultanée (Biplot). La possibilité d’analyse d’individus et de variables supplémentaires (quantitatives ou qualitatives) est offerte. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels des individus, des cercles des corrélations, du Biplot, de ceux relatifs aux individus et variables supplémentaires ainsi que des graphiques des contributions, des cosinus carrés et des distances carrées à l’origine.

Analyse factorielle des correspondances

La méthode d’Analyse Factorielle des Correspondances Simples ou Binaires (AFC) permet de représenter graphiquement un tableau de contingence créé par le ou les croisements (tris croisés) de deux ou plusieurs variables qualitatives. La méthode vise à rassembler sur un ou plusieurs graphiques (plan factoriel) la plus grande partie possible de l’information contenue dans le tableau en s’attachant non pas aux valeurs absolues mais aux correspondances entre les caractéristiques, c’est-à-dire aux valeurs relatives. La possibilité d’analyse de points lignes ou colonnes supplémentaires est offerte. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que l’ensemble des graphiques des plans factoriels lignes, colonnes, simultanés, barycentriques et de ceux relatifs aux lignes et colonnes supplémentaires. De nombreux outils d’aide à l’interprétation sont fournis, notamment contributions et cosinus carrés.

Analyse des correspondances multiples

L’Analyse des Correspondances Multiples (ACM) permet d’analyser un tableau individus x variables lorsque les variables sont qualitatives. Cette méthode effectue une analyse des correspondances sur le tableau disjonctif complet obtenu en remplaçant dans le tableau d’origine chaque variable qualitative par l’ensemble des variables indicatrices des différentes modalités de cette variable. La possibilité d’analyse d’individus ou de variables supplémentaires est offerte. La transformation du tableau des données initiales en tableau disjonctif complet est automatiquement effectuée. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que l’ensemble des graphiques des plans factoriels individus, variables, simultanés, barycentriques et de ceux relatifs aux individus et variables supplémentaires. De nombreux outils d’aide à l’interprétation sont fournis, notamment contributions, cosinus carrés, distances à l’origine, valeurs test.

Analyse sur tableau de distances ou de dissimilarités

La méthode d’Analyse sur Tableau de Distances ou de Dissimilarités (ATD) permet d’étudier un tableau de distances euclidiennes (tableau diagonal inférieur) individus x individus contenant à chaque intersection ligne-colonne la distance ou la dissimilarité entre cette ligne et cette colonne. Si le tableau n’est pas symétrique, il est symétrisé par la procédure et s’il ne définit pas une « vraie » distance, une technique dite de « la constante additive » est utilisée. La méthode permet d’obtenir une carte des individus en fonction de leurs proximités ou dissimilarités. Après affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire et la méthode à utiliser si des valeurs propres sont négatives. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels des individus. De nombreux outils d’aide à l’interprétation sont fournis: contributions, cosinus carrés, distances calculées, écarts entre les distances d’origine et celles calculées.

Classification ascendante hiérarchique

La méthode de Classification Ascendante Hiérarchique (CAH) permet de construire une typologie (ou partition) d’un ensemble d’individus en classes telles que les individus appartenant à une même classe sont proches alors que les individus appartenant à des classes différentes sont éloignés. La méthode utilisée est celle de Ward, méthode dite des voisins réciproques. C’est une méthode ascendante partant d’un nombre de classes égal au nombre des individus et regroupant à chaque itération un (ou plusieurs) individus ou classes en fonction de la diminution de l’inertie inter-classes. L’algorithme s’applique à des données quantitatives individus x variables (avec standardisation ou non), à un tableau de contingence ou à un tableau de variables qualitatives. Dans le cas d’un tableau de contingence, la classification peut se faire suivant les lignes ou les colonnes. Un tableau résumé de la classification et le tracé de l’arbre de classification (avec zoom et troncature) et de nuages codifiés sont proposés ainsi que des outils d’analyse de la partition et des noeuds.

Ellipses de confiance et de tolérance

Les Ellipses de Tolérance ou de Confiance (ELL) permettent de définir des régions autour de nuages de points décrivant les différentes catégories de variables supplémentaires dans un plan d’une analyse factorielle. Plus généralement, elles permettent de définir les régions de confiance autour des centres de gravité de groupes définis par différentes catégories. Ellipses de tolérance ou de confiance sont proposées. Le choix du niveau de risque alpha est possible et pour les ellipses de confiance, les calculs peuvent se faire sous l’hypothèse d’un échantillon de taille finie ou infinie. La variable de liaison entre les points permet de définir comment les points seront reliés pour créer des courbes. Il est possible ou non d’afficher les symboles des points lorsque le tracé est sous la forme de courbes. Des graphiques permettent de visualiser les différentes ellipses, les centres de gravité, les codes des catégories et les numéros des points.

Analyse factorielle multiple

L’Analyse Factorielle Multiple (AFM) est spécialement conçue pour étudier une population d’individus caractérisée par un certain nombre de groupes de variables. Ces groupes de variables peuvent être constitués de variables mesurées à différents instants, mais aussi de sous-tableaux issus d’un unique tableau : ces sous-tableaux correspondent alors à des regroupements de variables selon des critères. Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des cercles factoriels, des plans factoriels du compromis, de l’interstructure, de l’intrastructure, des trajectoires des individus. De nombreux outils d’aide à l’interprétation sont fournis, notamment coefficients de liaison entre les groupes, comparaison des projections du compromis et des groupes, contributions, cosinus carrés, distances à l’origine pour les individus et les groupes.

Méthode Statis

La méthode Statis (Structuration de Tableaux A Trois Indices de la Statistique) permet l’exploration simultanée de plusieurs tableaux de données. Elle s’applique à des données quantitatives qui sont des tableaux de mesures recueillis en différentes occasions sur les mêmes individus, les variables pouvant être éventuellement différentes selon les tableaux. Si le tableau croise les mêmes individus et les mêmes variables, il peut être intéressant de réaliser également une analyse par la méthode Statis duale. Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels du compromis (individus), de l’interstructure (groupes des variables) et de l’intrastructure (individus et trajectoires des individus). De nombreux outils d’aide à l’interprétation sont fournis, notamment normes et traces des groupes, coefficients RV, distances entre les groupes, décompositions de ces distances par individu, pondérations des groupes, résultats pour les groupes et le compromis (distances à l’origine, contributions, cosinus carrés) ainsi que pour les individus pour les divers groupes.

Méthode Statis duale

La méthode Statis duale (Structuration de Tableaux A Trois Indices de la Statistique) permet l’exploration simultanée de plusieurs tableaux de données. Elle s’applique à des données quantitatives qui sont des tableaux de mesures recueillis en différentes occasions sur les mêmes variables, les individus pouvant être éventuellement différents selon les tableaux. Si le tableau croise les mêmes variables et les mêmes individus, il peut être intéressant de réaliser également une analyse par la méthode Statis . Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des plans factoriels du compromis (variables), de l’interstructure (groupes des variables) et de l’intrastructure (variables et trajectoires des variables). De nombreux outils d’aide à l’interprétation sont fournis, notamment matrices des corrélations pour les groupes, inerties des groupes, normes des groupes, produits scalaires normés et distances entre les matrices des corrélations, décompositions de ces distances par variable, pondérations des matrices des corrélations, matrice des corrélations du compromis, produits scalaires et distances entre la matrice compromis et les matrices des groupes, résultats pour les groupes et le compromis (distances à l’origine, contributions, cosinus carrés) ainsi que pour les variables pour les divers groupes.

Analyse procrustéenne généralisée

L’analyse procrustéenne généralisée (GPA) est une technique mathématique permettant de comparer des formes. Elle est utilisée pour déformer un objet afin de le rendre autant que faire se peut semblable à une référence, ne laissant apparaître entre l’objet et la référence que les différences que les transformations (rotation, translation et mise à l’échelle) n’ont pu gommer. La déformation supprime les différences qui ne sont pas dues à la forme intrinsèque de l’objet. Celles qui subsistent sont donc considérées objectives, et permettent d’évaluer le degré de ressemblance entre l’objet et la référence. Cette technique a été nommée ainsi à partir de Procruste, un bandit de la mythologie grecque qui forçait ses victimes à s’allonger sur un lit et modifiait violemment leur taille pour que celle-ci corresponde à la taille du lit. L’analyse procrustéenne généralisée est utilisée dans tous les champs où l’analyse de formes peut être utile : analyse sensorielle, biologie, archéologie, médecine. Cette procédure est basée sur le package R ‘shapes’.

Analyse factorielle de données mixtes

L’Analyse Factorielle de Données Mixtes (AFDM) est une méthode spécialement conçue pour permettre l’étude simultanée de variables quantitatives et qualitatives (données dites mixtes) mesurées sur une population d’individus en tant qu’éléments actifs dans une même analyse. Cette analyse prend en compte les variables quantitatives comme une analyse en composantes principales normée (ACP) et les variables qualitatives comme une analyse des correspondances multiples (ACM). L’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé ainsi que les graphiques des cercles factoriels, des représentations simultanées des variables quantitatives et qualitatives, des plans factoriels des individus et des modalités. De nombreux outils d’aide à l’interprétation sont fournis, notamment pondérations des indicatrices des variables qualitatives, liaisons entre les variables initiales, contributions des variables à l’inertie et pour les plans factoriels les contributions et cosinus carrés.

Analyse discriminante pas à pas

L’Analyse Discriminante Pas à Pas permet de sélectionner à partir d’un ensemble de variables quantitatives et d’une variable qualitative découpant la population en plusieurs groupes (2 ou plus), le sous-ensemble des variables quantitatives les plus explicatives des groupes qui seront alors utilisées pour définir des fonctions discriminantes robustes. La méthode proposée permet de préciser les valeurs des Fishers pour l’entrée et la sortie d’une variable, les critères d’arrêt de l’algorithme (variation minimale du lambda de Wilk si plus de 2 groupes ou de la distance de Mahalanobis si 2 groupes, nombre maximal de variables à sélectionner, nombre maximal d’itérations). La méthode itérative peut être « manuelle » (affiche toutes les étapes) ou « automatique » (affiche uniquement le tableau final). L’algorithme est formé d’une succession d’étapes ascendantes (entrée d’une variable) et descendantes (sortie d’une variable). Un rapport général de synthèse est proposé: il permet de visualiser toutes les étapes de l’algorithme. Cette méthode peut être complétée par une Analyse Discriminante Bayésienne (ADB) ou une Analyse Factorielle Discriminante (AFD).

Analyse factorielle discriminante

L’Analyse Factorielle Discriminante (AFD) est une méthode géométrique permettant de construire à partir d’un ensemble de variables quantitatives et d’une variable qualitative découpant la population en plusieurs groupes (2 ou plus) des fonctions discriminantes qui les séparent au mieux dans l’échantillon d’apprentissage. En fonction des données et des paramètres définis par l’utilisateur, l’analyse AFD réalise automatiquement les études de la population d’apprentissage et des éventuelles populations de validation et de prévision. De façon plus précise, la méthode peut se décomposer en trois étapes. Supposons une population de n individus. Découpons cette population en trois sous-populations de tailles n1, n2 et n3 avec n1 + n2 + n3 = n. Les trois étapes sont une étude initiale sur la population d’apprentissage de taille n1 puis une étude de validation sur la population de validation de taille net enfin une étude prospective sur une population de prévision de taille n3. Des tableaux résumés et détaillés des classements sont calculés. Le tracé de plans factoriels et un rapport général de synthèse sont proposés.

Analyse discriminante bayésienne

L’Analyse Discriminante Bayésienne (ADB) permet de construire à partir d’un ensemble de variables quantitatives et d’une variable qualitative découpant la population en plusieurs groupes (2 ou plus), des fonctions discriminantes qui définissent une règle de décision optimale à partir de laquelle on peut affecter des individus de validation et de prévision aux différents groupes. Cette technique suppose que l’on connaisse a priori les probabilités d’appartenance aux différents groupes et que les données suivent une loi multi-normale. La méthode proposée permet de traiter les cas linéaire (égalité des matrices de variances) et quadratique (non-égalité des matrices de variances). L’entrée des probabilités a priori est proposée. Par défaut, le système utilise les probabilités issues des fréquences des groupes dans les données entrées. En fonction des données et des paramètres définis par l’utilisateur, l’analyse ADB réalise automatiquement les études de la population d’apprentissage et des éventuelles populations de validation et de prévision. De façon plus précise, la méthode peut se décomposer en trois étapes. Supposons une population de n individus. Découpons cette population en trois sous-populations de tailles n1, n2 et n3 avec n1 + n2 + n3 = n. Les trois étapes sont  une étude initiale sur la population d’apprentissage de taille n1 puis  une étude de validation sur la population de validation de taille n2 et enfin  une étude prospective sur une population de prévision de taille n3. Des tableaux résumés et détaillés des classements sont calculés. Le tracé de plans factoriels et un rapport général de synthèse sont proposés.

Analyse discriminante qualitative

L’Analyse Discriminante Qualitative (ADQ) est une généralisation de l’Analyse Factorielle Discriminante (AFD) dans le cas où les variables explicatives sont qualitatives et non plus quantitatives. La première étape de l’analyse consiste à mettre en œuvre une Analyse des Correspondances Multiples (ACM) des variables qualitatives. La deuxième étape remplace les variables qualitatives d’origine par les coordonnées sur les axes factoriels issus de l’ACM et effectue sur ces données une Analyse Factorielle Discriminante (AFD). Les fonctions discriminantes sont ensuite exprimées en fonction des indicatrices des modalités des variables qualitatives d’origine. La méthode réalise d’abord l’analyse sur une population d’apprentissage, puis sur une population de validation et enfin sur une population de prévision. En fonction des données et des paramètres définis par l’utilisateur, l’analyse ADB réalise automatiquement les études de la population d’apprentissage et des éventuelles populations de validation et de prévision. De façon plus précise, la méthode peut se décomposer en trois étapes. Supposons une population de n individus. Découpons cette population en trois sous-populations de tailles n1, n2 et n3 avec n1 + n2 + n3 = n. Les trois étapes sont une étude initiale sur la population d’apprentissage de taille n1 puis une étude de validation sur la population de validation de taille n2 et enfin une étude prospective sur une population de prévision de taille n3. Des tableaux résumés et détaillés des classements sont calculés. Un rapport général de synthèse est proposé ainsi que des graphiques des cercles et plans factoriels.

Scoring

Le scoring est une technique permettant de classer des individus caractérisés par des variables descriptives qualitatives dans deux catégories préexistantes en leur affectant un score d’appartenance. La première étape de cette technique consiste à transformer les variables descriptives qualitatives d’origine en coordonnées sur les axes factoriels issus d’une Analyse des Correspondances Multiples (ACM) des variables qualitatives. La deuxième étape est une Analyse Factorielle Discriminante (AFD) de ces données, avec une possible sélection des axes factoriels significatifs de l’ACM. La fonction discriminante obtenue est ensuite exprimée en fonction des indicatrices des modalités des variables qualitatives d’origine et les coefficients de la fonction de score sont évalués. L’analyse se poursuit en calculant les scores des individus, la sensibilité, la spécificité, le niveau de qualité ROC et l’indice de Gini pour la courbe Lift. Un rapport général de synthèse est proposé ainsi que des graphiques des coefficients de la fonction de score, des courbes de répartition (avec ou sans zone d’indécision), des courbes de densité, de la courbe ROC et de la courbe de Lift. Des tableaux résumés et détaillés des classements de l’Analyse Factorielle Discriminante (AFD) et du Scoring sont calculés. Une option Simulation permet de visualiser l’évolution du score d’un individu en fonction des modifications de ses modalités. L’étude d’une population de prévision est également proposée.

Régression sur composantes principales

La méthode de Régression sur Composantes Principales (RCP) est une technique de régression utile lorsque de fortes colinéarités entre les variables explicatives sont présentes et que l’on ne désire pas utiliser les algorithmes de régression pas à pas pour éliminer les variables corrélées entre elles ou les régressions Ridge ou PLS. Cette technique utilise à la fois l’Analyse en Composantes Principales (ACP) et la Régression Multiple pour élaborer un modèle dont les coefficients sont stables. Après l’affichage du tableau et de l’histogramme des inerties, vous pouvez choisir le nombre d’axes factoriels à extraire. Un rapport général de synthèse est proposé contenant notamment les résultats de l’Analyse en Composantes Principales (ACP), les descriptions des différents modèles de régression et le tableau de l’analyse de la variance. Les graphiques des cercles factoriels, des plans factoriels, des régressions, des composants et des résidus sont également disponibles.

Régressions PLS1 et PLS2

La méthode Régression PLS (partial least squares ou moindres carrés partiels) est conçue pour ajuster un modèle statistique reliant un ensemble de variables explicatives X à une variable à expliquer Y (PLS1) ou à plusieurs variables à expliquer Y (PLS2). La procédure est utile lorsqu’il y a de nombreux X et que le but principal est de prévoir simultanément les variables Y. Elle est recommandée dans le cas où un grand nombre de variables X est utilisé, lorsqu’il y a de fortes colinéarités entre ces variables X, lorsque le nombre de variables X est supérieur au nombre d’observations et lorsqu’il y a des données manquantes. La méthode PLS est notamment largement utilisée par les chimistes et les chimiométriciens pour l’étalonnage en spectrométrie. Un rapport général de synthèse est proposé contenant notamment les PRESS, R2, Q2, R2X, R2Y, les poids w et w*, les scores t et u, les poids des variables X et Y, les corrélations des variables avec les composantes, les valeurs observées, ajustées et résidus du modèle, les distances au modèle en X et Y, les T2 de Hotelling et les VIP. Les graphiques des R2X, R2Y, Q2, des coefficients standardisés, des cercles des corrélations, des plans factoriels, des poids des variables, des T2, des distances au modèle en X et Y, des VIP, des valeurs observées vs estimées et des résidus sont également disponibles. La procédure implémentée est basée sur le package R ‘plsdepot’.

Analyse NIPALS

L’analyse NIPALS (Nonlinear Iterative Partial Least Squares) est une méthode séquentielle d’analyse en composantes principales autorisant la présence de données manquantes dans les données. Cette méthode a été initialement présentée par Herman Wold en 1966. La procédure implémentée dans UNIWIN est basée sur le package R ‘plsdepot’.

Classification par cartes auto-organisatrices

Les cartes auto-adaptatives, cartes auto-organisatrices ou cartes topologiques forment une classe de réseau de neurones artificiels fondée sur des méthodes d’apprentissage non-supervisées. Elles sont souvent désignées par le terme anglais « self organizing maps » (SOM), ou encore cartes de Kohonen du nom du statisticien ayant développé le concept en 1984. La littérature utilise aussi les dénominations : « réseau de Kohonen », « réseau auto-adaptatif » ou « réseau auto-organisé ». Elles sont utilisées pour cartographier un espace réel, c’est-à-dire pour étudier la répartition de données dans un espace à grande dimension. En pratique, cette cartographie peut servir à réaliser des tâches de discrétisation, quantification vectorielle ou classification (source Wikipédia). Cette procédure est basée sur le package R ‘kohonen’.

Analyse en composantes indépendantes

L’Analyse en composantes indépendantes (Independent Component Analysis – ICA) est une méthode d’analyse des données qui relève des statistiques, des réseaux de neurones et du traitement du signal. Elle est notoirement et historiquement connue en tant que méthode de séparation aveugle de signaux mélangés dans des proportions inconnues et est aujourd’hui appliquée à de nombreux problèmes, notamment en chimiométrie pour l’analyse de spectres (source Wikipédia). Cette procédure du logiciel utilise les packages R ‘ica’ et ‘JADE’.

Réseaux de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l’origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s’est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type probabiliste, en particulier bayésien. Ils sont placés d’une part dans la famille des applications statistiques, qu’ils enrichissent avec un ensemble de paradigmes permettant de créer des classifications rapides (réseaux de Kohonen en particulier), et d’autre part dans la famille des méthodes de l’intelligence artificielle auxquelles ils fournissent un mécanisme perceptif indépendant des idées propres de l’implémenteur. Cette procédure est basée sur le package R ‘neuralnet’.

Courbe ROC

Cette procédure permet de tracer une courbe ROC (Receiver Operating Characteristic) et de calculer l’aire sous la courbe (AUC) ainsi que d’autres statistiques. Cette courbe est très utilisée en médecine pour étudier un événement du type présence ou absence d’une maladie, mais également pour le scoring (voir la procédure Scoring d’UNIWIN).

Courbe de Gini

Cette procédure permet de tracer une courbe de concentration de Gini et calculer l’indice de Gini. Cette courbe est très utilisée, principalement en statistique économique pour étudier les inégalités de répartition d’une grandeur positive.

Cartes géographiques

Cette procédure permet de faire des représentations cartographiques dans lesquelles les zones géographiques sont colorées en fonction des valeurs d’une variable sélectionnée. Dans cette version du logiciel, les cartes de France par régions et de France par départements ainsi qu’une carte d’Europe sont disponibles.

Print Friendly, PDF & Email