Mode d’emploi…Choisissez la bonne technique statistique

Fondamentaux

Commencez à réfléchir aux techniques que vous utiliserez pour votre analyse avant de collecter des données.

Que voulez-vous savoir?

L’analyse doit se rapporter aux questions de recherche, ce qui peut dicter les techniques à utiliser.

Quel type de données avez-vous ?

Le type de données dont vous disposez est également fondamental – les techniques et outils appropriés aux variables d’intervalle et de rapport ne conviennent pas aux mesures catégorielles ou ordinales. (Voir Comment collecter des données pour les notes sur les types de données)

Quelles hypothèses pouvez–vous et ne pouvez-vous pas faire?

De nombreuses techniques reposent sur le fait que la distribution d’échantillonnage de la statistique de test est une distribution normale (voir ci-dessous). C’est toujours le cas lorsque la distribution sous-jacente des données est normale, mais en pratique, les données peuvent ne pas être distribuées normalement. Par exemple, il pourrait y avoir une longue queue de réponses d’un côté ou de l’autre (données biaisées). Des techniques non paramétriques peuvent être utilisées dans de telles situations, mais celles-ci sont inévitablement moins puissantes et moins flexibles. Cependant, si la taille de l’échantillon est suffisamment grande, le Théorème Central Limite permet d’utiliser les analyses et outils standard.

Techniques pour une distribution non normale

Statistiques paramétriques ou non paramétriques ?

Les méthodes et statistiques paramétriques reposent sur un ensemble d’hypothèses sur la distribution sous-jacente pour donner des résultats valides. En général, ils exigent que les variables aient une distribution normale.

Les techniques non paramétriques doivent être utilisées pour les données catégorielles et ordinales, mais pour les données de rapport d’intervalle &, elles sont généralement moins puissantes et moins flexibles et ne doivent être utilisées que lorsque le test standard paramétrique n’est pas approprié, par exemple lorsque la taille de l’échantillon est petite (inférieure à 30 observations).

Théorème de la limite centrale

À mesure que la taille de l’échantillon augmente, la forme de la distribution d’échantillonnage de la statistique de test tend à devenir normale, même si la distribution de la variable testée n’est pas normale.

En pratique, cela peut être appliqué aux statistiques de test calculées à partir de plus de 30 observations.

 Image: la fonction de distribution normale

Combien pouvez-vous espérer retirer de vos données?

Plus la taille de l’échantillon est petite, moins vous pouvez extraire de vos données. L’erreur-type est inversement liée à la taille de l’échantillon, de sorte que plus votre échantillon est grand, plus l’erreur-type est petite et plus vous aurez de chances d’identifier des résultats statistiquement significatifs dans votre analyse.

Techniques de base

En général, toute technique pouvant être utilisée sur des données catégorielles peut également être utilisée sur des données ordinales. Toute technique pouvant être utilisée sur des données ordinales peut également être utilisée sur des données de rapport ou d’intervalle. L’inverse n’est pas le cas.

Description de vos données

La première étape de toute analyse devrait être de décrire vos données, et donc la population à partir de laquelle elles sont tirées. Les statistiques appropriées pour cette activité se répartissent en trois grands groupes et dépendent du type de données dont vous disposez.

Que veux-tu faire ? Avec quel type de données ? Techniques appropriées
Regardez la distribution Catégorique/Ordinale Tracez le pourcentage
dans chaque catégorie
(graphique en colonnes ou en barres)
Rapport / intervalle Histogramme
Fréquence cumulative
diagramme
Décrire la tendance centrale Catégorique n/a
Mode ordinal Médian
Rapport / Intervalle Moyenne
Médiane
Décrire la propagation Catégorique n/a
Ordinal Gamme
Gamme inter-quartiles
Rapport/ Intervalle Plage
Plage inter-quartiles
Variance
Variation standard

Voir Présentation graphique pour les descriptions des principales techniques graphiques.

Moyenne – la moyenne arithmétique, calculée en additionnant toutes les valeurs et en divisant par le nombre de valeurs de la somme.

Médiane – le point médian de la distribution, où la moitié des valeurs sont supérieures et l’autre moitié inférieures.Mode

– la valeur la plus fréquente.Plage

– la différence entre la valeur la plus élevée et la plus basse.

Intervalle entre quartiles – la différence entre le quartile supérieur (la valeur où 25 % des observations sont supérieures et 75 % inférieures) et le quartile inférieur (la valeur où 75 % des observations sont supérieures et 25 % inférieures). Ceci est particulièrement utile lorsqu’il y a un petit nombre d’observations extrêmes beaucoup plus élevées, ou plus basses, que la majorité.

Variance – une mesure de la propagation, calculée comme la moyenne des différences au carré des observations par rapport à leur moyenne.

Écart type – la racine carrée de la variance.

Différences entre les groupes et les variables

Test du Chi carré – utilisé pour comparer les distributions de deux ensembles ou plus de données catégorielles ou ordinales.

tests t – utilisés pour comparer les moyennes de deux ensembles de données.

Test de Wilcoxon U – équivalent non paramétrique du test t. En fonction de l’ordre de classement des données, il peut également être utilisé pour comparer les médianes.

ANOVA – analyse de la variance, pour comparer les moyennes de plus de deux groupes de données.

Que veux-tu faire ? Avec quel type de données ? Techniques appropriées
Comparer deux groupes Catégorique Test du Chi carré
Ordinal Test du Chi carré
Test de Wicoxon U
Rapport/intervalle test t pour
échantillons indépendants
Comparer plus de deux groupes Catégorique / Ordinal Test du Chi carré
Rapport / Intervalle ANOVA
Comparer deux variables
sur la même sujets
Catégorie / Ordinal Test du Chi carré
Rapport/ intervalle test t pour
échantillons dépendants

Relations entre variables

Le coefficient de corrélation mesure le degré d’association linéaire entre deux variables, avec une valeur comprise entre +1 et -1. Les valeurs positives indiquent que les deux variables augmentent et diminuent ensemble; les valeurs négatives que l’une augmente à mesure que l’autre diminue. Un coefficient de corrélation nul n’indique aucune relation linéaire entre les deux variables. La corrélation de rang de Spearman est l’équivalent non paramétrique de la corrélation de Pearson.

Quel type de données ? Techniques appropriées
Catégorie Test du Chi carré
Ordinal Test du Chi carré
Rang de Spearman
corrélation (Tau)
Rapport/intervalle Pearson
corrélation (Rho)

Notez que les analyses de corrélation ne détecteront que les relations linéaires entre deux variables. La figure ci-dessous illustre deux petits ensembles de données où il existe clairement des relations entre les deux variables. Cependant, la corrélation pour le deuxième ensemble de données, où la relation n’est pas linéaire, est de 0,0. Une simple analyse de corrélation de ces données ne suggérerait aucune relation entre les mesures, alors que ce n’est manifestement pas le cas. Cela illustre l’importance d’entreprendre une série d’analyses descriptives de base avant de se lancer dans des analyses des différences et des relations entre les variables.

 Image: deux petits ensembles de données où il existe clairement des relations entre les deux variables

Validité du test

Niveaux de signification

La signification statistique d’un test est une mesure de probabilité – la probabilité que vous auriez obtenu ce résultat particulier du test sur cet échantillon si l’hypothèse nulle (qu’il n’y a aucun effet dû aux paramètres testés) que vous testez était vraie. L’exemple ci-dessous vérifie si les scores d’un examen changent après que les candidats ont reçu une formation. L’hypothèse suggère qu’ils devraient, donc l’hyopothèse nulle est qu’ils ne le feront pas.

En général, tout niveau de probabilité supérieur à 5% (p > 0,05) n’est pas considéré comme statistiquement significatif, et pour les grandes enquêtes, 1% (p > 0,01) est souvent considéré comme un niveau plus approprié.

Notez que la signification statistique ne signifie pas que les résultats que vous avez obtenus ont réellement une valeur dans le contexte de votre recherche. Si vous avez un échantillon suffisamment grand, une très petite différence entre les groupes peut être identifiée comme statistiquement significative, mais une si petite différence peut ne pas être pertinente dans la pratique. D’autre part, une différence apparemment importante peut ne pas être statistiquement significative dans un petit échantillon, en raison de la variation au sein des groupes comparés.

Degrés de liberté

Certaines statistiques de test (par exemple, le chi carré) nécessitent que le nombre de degrés de liberté soit connu, afin de tester la signification statistique par rapport à la table de probabilité correcte. En bref, les degrés de liberté sont le nombre de valeurs qui peuvent être attribuées arbitrairement dans l’échantillon.

Par exemple:

Dans un échantillon de taille n divisé en k classes, il y a k-1 degrés de liberté (les premiers groupes k-1 pourraient être de n’importe quelle taille jusqu’à n, tandis que le dernier est fixé par le total du premier k-1 et la valeur de n. En termes numériques, si un échantillon de 500 individus est prélevé au Royaume-Uni et qu’on observe que 300 sont d’Angleterre, 100 d’Écosse et 50 du Pays de Galles, il faut alors être 50 de l’Irlande du Nord. Compte tenu des chiffres des trois premiers groupes, il n’y a pas de flexibilité dans la taille du groupe final. La division de l’échantillon en quatre groupes donne trois degrés de liberté.

Dans un tableau de contingence bidirectionnel avec p lignes et q colonnes, il y a (p-1) * (q-1) degrés de liberté (compte tenu des valeurs des premières lignes et colonnes, la dernière ligne et colonne sont contraintes par les totaux du tableau)

Tests à une queue ou à deux queue

Si, comme c’est généralement le cas, ce qui importe est simplement que les statistiques pour les populations soient différentes, alors il convient de utilisez les valeurs critiques pour un test à deux queues.

Si, cependant, vous souhaitez seulement savoir si la statistique pour la population A a une valeur plus grande que celle pour la population B, un test à une queue serait approprié. La valeur critique pour un test à une queue est généralement inférieure à celle d’un test à deux queues et ne doit être utilisée que si votre hypothèse de recherche est que la population A a une valeur supérieure à la population B, et peu importe leur différence si la population A a une valeur inférieure à celle de la population B.

Par exemple

Scénario 1

Hypothèse nulle – il n’y a pas de différence dans les scores moyens à l’examen avant et après l’entraînement (c’est–à-dire que l’entraînement n’a aucun effet sur le score de l’examen)
Alternative – il y a une différence dans les scores moyens avant et après l’entraînement (c’est–à-dire que l’entraînement a un effet non spécifié)
Utiliser un test à deux queues

Scénario 2

Hypothèse nulle – L’entraînement n’augmente pas le score moyen
Alternative – Le score moyen augmente après l’entraînement
Utilisez un test à une queue, s’il y a une augmentation observée du score moyen.
(S’il y a une baisse observée des scores, il n’est pas nécessaire de tester, car vous ne pouvez pas rejeter l’hypothèse nulle.)

Scénario 3

Hypothèse nulle – L’entraînement ne provoque pas une baisse des scores moyens
Alternative – Le score moyen tombe après l’entraînement
Utilisez un test à une queue, s’il y a une baisse observée du score moyen.
(S’il y a une augmentation observée des scores, il n’est pas nécessaire de tester, car vous ne pouvez pas rejeter l’hypothèse nulle.)

t-Test: Deux échantillons appariés pour les moyens
Avant Après
Moyenne
Écart

46,547

46,830

Observations
Degrés de liberté (df)
t Stat
P(T < = t) une queue
t Une queue critique
P(T<= t) deux-queue
t Queue critique à deux

Si les résultats du test ci-dessus étaient obtenus, dans le scénario 1, en utilisant un test à deux queue, vous pourriez conclure qu’il n’y avait pas de différence statistiquement significative entre les scores (p = 0,08) et, par conséquent, que l’entraînement n’avait aucun effet. De même, dans le scénario 3, vous conclurez qu’il n’y a aucune preuve suggérant que la formation entraîne une baisse des notes moyennes, car elles ont en fait augmenté. Cependant, dans le scénario 2, en utilisant un test à une queue, vous conclurez qu’il y a eu une augmentation des scores moyens, statistiquement significative au niveau de 5 % (p = 0,04).

Un dernier avertissement !

Les paquets statistiques feront ce que vous leur dites, dans l’ensemble. Ils ne savent pas si les données que vous avez fournies sont de bonne qualité ou (à quelques exceptions près) si elles sont d’un type approprié pour l’analyse que vous avez entreprise.

Déchets dedans = Déchets dehors!

Techniques avancées

Ces outils et techniques ont des applications spécialisées et seront généralement intégrés à la méthodologie de recherche à un stade précoce, avant la collecte de données. Si vous envisagez d’utiliser l’un de ces éléments, vous pouvez consulter un texte spécialisé ou un statisticien expérimenté avant de commencer.

Dans chaque cas, nous donnons quelques exemples d’articles en émeraude qui utilisent la technique.

Analyse factorielle

Pour réduire le nombre de variables pour une analyse ultérieure en créant des combinaisons des variables d’origine mesurées qui tiennent compte autant que possible de la variance d’origine, mais permettent une interprétation plus facile des résultats. Couramment utilisé pour créer un petit ensemble d’évaluations de dimension à partir d’un grand nombre d’énoncés d’opinion évalués individuellement sur des échelles de Likert. Vous devez avoir plus d’observations (sujets) que de variables à analyser.

Par exemple

Une variable d’échelle de Likert: « J’aime manger de la glace au chocolat pour le petit déjeuner »

Tout à fait d’accord

Fortement en désaccord

A factor analysis of Page and Wong’s servant leadership instrument
Rob Dennis and Bruce E. Winston
Leadership & Organization Development Journal, vol. 24 no. 8

Comprendre les facteurs d’adoption de l’analyse comparative : Nouvelles preuves en provenance de Malaisie
Yean Pin Lee, Suhaiza Zailani et Keng Lin Soh
Analyse comparative: Une Revue internationale, vol. 13 no. 5

Analyse en grappes

Pour classer les sujets en groupes ayant des caractéristiques similaires, en fonction des valeurs des variables mesurées. Vous devez avoir plus d’observations que de variables incluses dans l’analyse.

Évitement des produits biologiques: Raisons du rejet et identification des acheteurs potentiels dans une enquête nationale
C. Fotopoulos et A. Krystallis
British Food Journal, vol. 104 no. 3/4/5

Détection de détresse financière par analyse statistique multivariée
S. Gamesalingam et Kuldeep Kumar
Finance managériale, vol. 27 no. 4

Analyse discriminante

Pour identifier les variables qui discriminent le mieux entre les groupes de sujets connus. Les résultats peuvent être utilisés pour attribuer de nouveaux sujets aux groupes connus en fonction de leurs valeurs des variables discriminantes

Détection de détresse financière via une analyse statistique multivariée
S. Gamesalingam et Kuldeep Kumar
Managerial Finance, vol. 27 no. 4

Comprendre les facteurs d’adoption de l’analyse comparative: New evidence from Malaysia
Yean Pin Lee, Suhaiza Zailani et Keng Lin Soh
Benchmarking: An International Journal, vol. 13 no 5

Méthodologie

Une analyse discriminante a été utilisée pour déterminer s’il existe des différences statistiquement significatives entre le profil de score moyen sur un ensemble de variables pour deux groupes définis a priori et a ainsi permis de les classer. En outre, cela pourrait aider à déterminer laquelle des variables indépendantes tient le plus compte des différences dans les profils de score moyens des deux groupes. Dans cette étude, l’analyse discriminante a été le principal instrument de classification de l’adoptant et du non-adoptant. Il a également été utilisé pour déterminer laquelle des variables indépendantes contribuerait à l’adoption de l’analyse comparative.

Régression

Pour modéliser le comportement d’une variable dépendante en fonction des valeurs d’un ensemble d’autres variables indépendantes. La variable dépendante doit être de type intervalle ou ratio; les variables indépendantes peuvent être de n’importe quel type, mais des méthodes spéciales doivent être utilisées pour inclure des variables indépendantes catégorielles ou ordinales dans l’analyse.

Développements de la commercialisation du lait en Angleterre et au Pays de Galles au cours des années 1990
Jeremy Franks
British Food Journal, vol. 103 no. 9

La formation sous le feu des critiques: La relation entre les obstacles à la formation et le développement des PME en Palestine
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2

Analyse des séries chronologiques

Pour étudier les modèles et les tendances d’une variable mesurée régulièrement sur une période de temps. Peut également être utilisé pour identifier et ajuster les variations saisonnières, par exemple dans les statistiques financières.

Une analyse des tendances et des comportements cycliques des prix de l’immobilier sur les marchés asiatiques
Ming-Chi Chen, Yuichiro Kawaguchi et Kanak Patel
Journal of Property Investment & Finance, vol. 22 no.1

Présentation graphique

La présentation des données sous forme graphique peut accroître l’accessibilité de vos résultats à un public non technique et mettre en évidence des effets et des résultats qui nécessiteraient autrement de longues explications ou des tableaux complexes. Il est donc important d’utiliser des techniques graphiques appropriées. Cette section donne des exemples de certaines des présentations graphiques les plus couramment utilisées et indique quand elles peuvent être utilisées. Tous, à l’exception de l’histogramme, ont été produits à l’aide de Microsoft Excel®.

Graphiques à colonnes ou à barres

Il existe quatre variantes principales, et que vous affichiez les données en barres horizontales ou en colonnes verticales est en grande partie une question de préférence personnelle.

Histogramme

Pour illustrer une distribution de fréquence dans des données catégorielles ou ordinales, ou des données de rapport/intervalle groupées. Généralement affiché sous forme de graphique en colonnes.

 Image: Histogramme

Colonne/barre groupée

Pour comparer des données de rapport/intervalle catégorielles, ordinales ou groupées entre les catégories. Les données utilisées sur la figure 4 sont les mêmes que celles des figures 5 et 6.

 Image: Colonne/barre groupée

Colonne/barre empilée

Pour illustrer la contribution réelle au total pour les données de rapport/intervalle catégorielles, ordinales ou groupées par catégories. Les données utilisées sur la Figure 5 sont les mêmes que celles des Figures 4 et 6.

 Image: Colonne/barre empilée

Pourcentage colonne/barre empilée

Pour comparer la contribution en pourcentage au total pour les données de rapport/intervalle catégorielles, ordinales ou groupées entre les catégories. Les données utilisées sur la figure 6 sont les mêmes que celles des Figures 4 et 5.

 Image: Colonne / barre empilées en pourcentage

Graphiques linéaires

Pour montrer les tendances des données ordinales ou de rapport / intervalle. Les points d’un graphique ne doivent être joints à une ligne que si les données sur l’axe des abscisses sont au moins ordinales. Une application particulière consiste à tracer une distribution de fréquence pour les données intervalle/rapport (figure 8).

 Image: Graphiques linéaires

Graphiques circulaires

Pour montrer la contribution en pourcentage à l’ensemble des données de rapport/intervalle catégorielles, ordinales ou groupées.

 Image: Graphique circulaire

Graphiques de dispersion

Pour illustrer la relation entre deux variables, de tout type (bien que plus utile lorsque les deux variables sont de type ratio / intervalle). Également utile pour identifier toute observation inhabituelle dans les données.

 Image: Graphique de dispersion

Diagramme à moustaches et à cases

Un graphique spécialisé illustrant la tendance centrale et la propagation d’un grand ensemble de données, y compris les valeurs aberrantes.

 Image: Box and whisker plot

Ressources

Connecting Mathematics
Brèves explications de termes et d’idées mathématiques

Glossaire des statistiques
compilé par Valerie J. Easton et John H. McColl de l’Université de Glasgow

Manuel électronique Statsoft

100 Tests statistiques par Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)

Oxford Dictionary of Statistics par Graham Upton et Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.