Ajouts et améliorations de la version 18.1.17

La version 18.1.17 de Statgraphics Centurion est une mise à jour majeure du logiciel d’analyse statistique et de visualisation graphique de Statgraphics Technologies. Elle lui ajoute 30 nouvelles procédures statistiques et apporte de nombreuses améliorations à 18 procédures déjà présentes dont :

  • Un nouveau format de fichier pour gérer les Big Data. La version 64 bits peut maintenant analyer des jeux de données contenant jusqu’à 100 millions de lignes.
  • Neuf nouvelles Statlets interactives pour la visualisation dynamique de données dont les graphiques en tournesols, les pyramides des âges, les diagrammes en rose des vents et les graphiques en violons.
  • Des cartes démographiques enrichies avec le support des fichiers SHP.
  • Des procédures pilotées par des boîtes de dialogue pour accéder à des librairies R et utiliser les arbres de décision et de régression (CART), la fouille de textes, le positionnement multidimensionnel, l’analyse de données censurées arbitrairement et l’ajustement saisionnier X-13ARIMA-SEATS.
  • Plus d’une douzaine de nouvelles procédures statistiques, dont l’analyse d’équivalence et les tests de non infériorité, la régression orthogonale, les cartes de contrôle d’aptitude, les intervalles de tolérances multivariées, les tests de normalit multivariée et la génération de nombres aléatoires pour les lois normales multivariées.
  • Les plans de criblage définitifs dans l’assistant pour les plans d’expériences.
  • Un nouveau programme pour l’installation de la version réseau permettant aux utilisateurs d’emprunter des jetons pour les utiliser sur des ordinateurs individuels.
  • De nombreuses extensions aux procédures d’analyse d’aptitude de procédés pour implémenter les méthodes décrites dans le nouveau livre du Dr. Neil W. Polhemus  Process Capability Analysis: Estimating Quality publié par Chapman and Hall/CRC Press en octobre 2017.

Analyse d’aptitude pour des attributs

La Statlet Analyse d’aptitude pour des attributs met en oeuvre une analyse d’aptitude pour des attributs. Les données peuvent être des proportions d’items non conformes ou des taux de non conformités par unité. L’analyse est basée sur la loi binomiale ou la loi de Poisson. La Statlet calcule des estimations des paramètres du procédé, des limites de confiance ou des bornes supérieures de confiance, des indices d’aptitude (pour la meilleure estimation ou la borne supérieure) et les DPM (défauts par million). Cette analyse peut être basée sur une approche classique ou bayésienne.

Big Data

Pour gérer de grands volumes de données, un nouveau type de fichier appelé Statgraphics Big Data file a été developpé. Ces fichiers ont pour extension .sgb plutôt que .sgd. Ils diffèrent de deux façons importantes des fichiers classiques de données de Statgraphics :

  • Ils stockent les données numériques dans un format binaire et non texte. Cela évite l’étape de conversion de chaque données en un nombre lors de sa lecture par le logiciel.
  • Les données sont stockées en colonnes et non en lignes. Cela réduit de façon importante le temps de lecture de colonnes individuelles en mémoire.

En utilisant les fichiers SGB, Statgraphics peut analyser des jeux de données contenant plusieurs millions d’enregistrements et des milliers de lignes. Les fichiers SGB ne sont disponibles que dans la version 64 bits de Statgraphics Centurion 18.

Densité bivariée

La Statlet Densité bivariée affiche la fonction de densité estimée pour deux colonnes de données numériques. Elle le fait soit sous la forme d’un graphique 2D des iso-contours, soit sous la forme d’un histogramme 3D des comptages. La distribution jointe des deux variables est supposée être une loi normale multivariée ou elle est estimée par une approche non paramétrique.

Graphique tornade / papillon

Le graphique tornade / papillon compare deux échantillons de données catégorielles. Il est constitué de deux ensembles de bâtons illustrant les distributions des fréquences dans les deux échantillons pour l’ensemble des catégories.

Cartes de contrôle d’aptitude

Cette procédure construit des cartes de contrôle de phase II pour contrôler des indices d’aptitude comme le Cpk. En supposant un procédé apte à satisfaire les exigences définies basées sur l’analyse de mesures, ces cartes assurent la conformité continue à ces exigences.

Définition de la carte de contrôle d’aptitude

Cette nouvelle Statlet aide les analystes à déterminer les tailles nécessaires d’échantillons pour construire des cartes de contrôle d’aptitude. Les cartes de contrôle d’aptitude permettent de piloter des procédés stables et aptes à produire des résultats qui comptent de faibles nombres de non conformités.

Arbres de décision et de régression

La procédure Arbres de décision et de régression implémente une technique de « machine learning » permettant de prévoir les valeurs d’une variable qualitative ou quantitative à partir des données. Elle crée des modèles de deux formes : modèles de décision (classement) et modèles de régression. Les modèles sont construits en élaborant un arbre dans lequel chaque noeud correspond à une décision binaire. A partir d’une observation particulière, il suffit de parcourir l’arbre vers le bas jusqu’à atteindre une feuille terminale. Chaque feuille de l’arbre est associée à une valeur prévue de la variable qualitative (classe) ou à une valeur de la variable qualitative.

Plans de criblage définitifs

Un nouveau type de plans d’expériences a été ajouté dans l’assistant pour les plans d’expériences. Appelés plans d’expériences définitifs, ces plans sont des plans de faibles tailles permettant d’estimer des modèles comportant à la fois des effets linéaires et des effets quadratiques, même si les interactions d’ordre deux sont partiellement confondues entre elles et avec les effets quadratiques. De plus, les plans à six facteurs ou plus sont des plans pouvant estimer des modèles complets du second ordre (incluant les interactions) pour chaque sous ensemble de trois facteurs.

Visualiseur de cartes démographiques

Cette nouvelle Statlet est conçue pour visualiser les évolutions de statistiques spatiales dans le temps. A partir de données collectées en k positions pendant p périodes, le logiciel génère un affichage dynamique montrant comment ces données se sont modifiées au cours du temps en chaque position. Les données des diverses positions sont affichées sous la forme de bulles dont les tailles sont proportionnelles aux valeurs observées des données. Les fichiers au format SHP peuvent maintenant également être utilisés pour afficher les contours géographiques

Graphique en diamants

La procédure Graphique en diamants crée un graphique pour plusieurs variables quantitatives affichant les observations des échantillons et les intervalles de confiance pour les moyennes des populations. Une procédure spécifique est également proposée pour une unique variable.

Ajustement de lois pour des données censurées arbitrairement

Cette procédure analyse des données dans lesquelles une ou plusieurs observations ne sont pas connues exactement. En particulier, les observations peuvent être censurées à droite, à gauche, par intervalle ou par une combinaison de ces trois types. Cette procédure calcule des statistiques résumées, ajuste des lois, crée des graphiques et calcule une estimation non paramétrique de la fonction de survie.

Diagramme en anneau

Le diagramme en anneau est une alternative au diagramme circulaire. Il est similaire au diagramme circulaires mais sa partie centrale n’est pas affichée.

Tests d’équivalence et de non infériorité

Quatre nouvelles procédures ont été ajoutées pour démontrer l’équivalence (bilatéral) ou la non infériorité (unilatéral). Elles sont utilisées pour comparer deux moyennes indépendantes, deux moyennes appariées ou une moyenne par rapport à une valeur cible ainsi que pour analyser les résultats d’essais croisés 2×2. A la différence des tests d’hypothèses classiques qui sont élaborés pour prouver la supériorité d’une méthode sur une autre méthode, les tests d’équivalence sont conçus pour prouver que deux méthodes ont essentiellement la même moyenne.

Carte thermique

Cette procédure affiche la distribution d’une variable quantitative par rapport à toutes les combinaisons de deux facteurs catégoriels. Si un de deux facteurs représente le temps, alors l’évolution temporelle de la variable peut être aisément visualisée dans cette carte. Un gradient de couleurs est utilisé pour illustrer les valeurs de la variable quantitative.

Graphique de Likert

La procédure Graphique de Likert analyse des données enregistrées sur une échelle de jugement de Likert. Les échelles de Likert sont couramment utilisées dans des enquêtes pour enregistrer les réponses de personnes à des énoncés. Une échelle standard à cinq niveaux peut coder les réponses de pas du tout d’accord à tout à fait d’accord. L’analyse calcule des statistiques résumées et affiche les résultats sous la forme d’un diagramme en bâtons empilés exprimés en pourcentages et centrés sur 0.

Simulation Monte-Carlo – Graphique tornade de sensibilité

Ce graphique affiche l’effet de chaque variable en entrée sur la réponse lorsque celle-ci évolue autour d’une plage donnée de sa distribution, toutes les autres variables étant maintenues aux valeurs médianes respectives. Les variables sont ordonnées de haut en bas en fonction de l’importance de l’effet sur la réponse.

Positionnement multidimensionnel

La procédure Positionnement multidimensionnel est conçue pour afficher des données multivariées dans un espace de faible dimension. A partir d’une matrice n x n de distances entre chaque paire de n observations multivariées, la procédure recherche une représentation de faible dimension de ces observations qui préserve les distances entre ces observations le mieux possible. Le résultat principal de cette procédure est une carte des points dans cet espace de faible dimension (habituellement 2 ou 3 dimensions). Les calculs sont effectués avec R en utilisant les fonctions ‘cmdscale’ et ‘isoMDS’.

Nombres aléatoires pour une loi normale multivariée

Cette procédure génère des nombres aléatoires pour une loi normale multivariée utilisant jusqu’à 12 variables. L’utilisateur doit entrer les moyennes et écarts-types des variables ainsi que la matrice des corrélations. Les échantillons aléatoires générés peuvent être enregistrés dans le classeur de données de Statgraphics.

Test de normalité multivariée

Cette procédure teste si un ensemble de variables aléatoires peut raisonnablement provenir d’une loi normale multivariée. Elle inclut le test H de Royston et des tests basés sur un graphique du khi-carré des distances quadratiques de chaque observation au centroïde de l’échantillon.

Limites de tolérances multivariées

La procédure Limites de tolérances multivariées calcule des limites statistiques de tolérances pour de données constituées de plus d’une variable. Elle affiche la région des tolérances incluant un pourcentage donné de la population avec une confiance de 100*(1-alpha)%. Elle affiche également les limites des tolérances simultanées pour chacune des variables en utilisant l’approche de Bonferroni. Les données sont supposées provenir d’un échantillon aléatoire d’une loi normale multivariée. Les limites de tolérances multivariées sont fréquemment comparées aux spécifications pour un ensemble de variables pour déterminer si la plus grande partie ou non de la population est dans les spécifications.

Régression orthogonale

Cette procédure est conçue pour construire un modèle statistique décrivant l’impact d’un unique facteur quantitatif X sur une variable à expliquer Y, lorsque à la fois X et Y sont observés avec des incertitudes. Vingt-sept modèles linéaires et non linéaires peuvent être ajutés.

Pyramide des âges

La Statlet Pyramide des âges est conçue pour comparer des distributions de comptages de populations (ou de données similaires) de deux groupes. Elle peut être utilisée pour afficher les distributions à un instant donné ou montrer les évolutions temporelles des distributions de façon dynamique.

Graphique en rubans

Cette nouvelle méthode pour afficher les surfaces de réponse a été ajoutée dans plusieurs procédures dont l’assistant pour les plans d’expériences.

Graphique en tournesols

La Statlet Graphique en tournesols est utilisée pour afficher un nuage de points X-Y quand le nombre d’observations est important. Pour éviter le problème de superposition des symboles des points, des glyphes sous la forme de tournesols sont utilisés pour afficher les nombres d’observations dans de petites régions de l’espace X-Y.

Fouille de textes

Une nouvelle boîte de dialogue permet d’utiliser l’interface entre Statgraphics et R pour mettre en oeuvre la fouille de textes en utilisant le package tm. Il est possible d’extraire de l’information de documents de type texte ou d’analyser des colonnes de type caractère présentes dans le classeur de Statgraphics.

Graphique avec ligne de base

Cette procédure affiche un graphique d’une série temporelle dans un ordre séquentiel, permet d’identifier les points qui sont au-delà de la limite inférieure ou de la limite supérieure. Il est souvent utilisé pour afficher des données mensuelles comme l’indice océanique El Niño.

Graphique tornade / papillon

La procédure Graphiques tornade / papillon crée deux graphiques similaires pour comparer deux échantillons de données de type attribut. Chaque graphique est constitué de deux ensembles de bâtons qui permettent de visualiser les distributions de chaque échantillon dans diverses catégories.

Densité trivariée

La procédure Statlet – Densité trivariée affiche la fonction de densité estimée pour 3 colonnes de données numériques. Elle le fait soit sous la forme d’un graphique de contours à 3 dimensions soit sous la forme d’un graphique maillé à 3 dimensions. La distribution jointe des 3 variables peut être supposée être une loi normale multivariée ou estimée en utilisant une approche non paramétrique.

Graphique en violon

La procédure Statlet – Graphique en violon affiche les données quantitatives d’un unique échantillon en combinant une boîte à moustaches et une estimation non paramétrique de la densité. C’est un graphique très utile pour visualiser la forme de la fonction de densité de la population dont proviennent les données de l’échantillon.

Diagramme en rose des vents

La procédure Statlet – Diagramme en rose des vents affiche des données dans un graphique circulaire permettant de visualiser la distribution des fréquences de variables telles que la vitesse du vent et sa direction. Elle peut être utilisée pour visualiser la distribution à un instant donné ou pour en afficher les évolutions temporelles de façon dynamique.

X-13ARIMA-SEATS

La procédure X-13ARIMA-SEATS effectue un ajustement saisonnier d’une série de données temporelles en utilisant la technique actuellement utilisée par le « United States Census Bureau ». Dans cette procédure, la série temporelle est décomposée en 3 composantes : une composante cyclique de tendance, une composante saisonnière et une composante irrégulière. Chaque composante, ainsi que la série des données ajustées pour la saisonnalité, peut être affichée de façon séparée ou enregistrée. Les calculs pour l’ajustement saisonnier sont effectués en utilisant le package R « seasonal ».