- Fondamentaux
- Que voulez-vous savoir?
- Quel type de données avez-vous ?
- Quelles hypothèses pouvez–vous et ne pouvez-vous pas faire?
- Techniques pour une distribution non normale
- Statistiques paramétriques ou non paramétriques ?
- Théorème de la limite centrale
- Combien pouvez-vous espérer retirer de vos données?
- Techniques de base
- Description de vos données
- Différences entre les groupes et les variables
- Relations entre variables
- Validité du test
- Niveaux de signification
- Degrés de liberté
- Par exemple:
- Tests à une queue ou à deux queue
- Par exemple
- Un dernier avertissement !
- Techniques avancées
- Analyse factorielle
- Par exemple
- Analyse en grappes
- Analyse discriminante
- Régression
- Analyse des séries chronologiques
- Présentation graphique
- Graphiques à colonnes ou à barres
- Histogramme
- Colonne/barre groupée
- Colonne/barre empilée
- Pourcentage colonne/barre empilée
- Graphiques linéaires
- Graphiques circulaires
- Graphiques de dispersion
- Diagramme à moustaches et à cases
- Ressources
Fondamentaux
Commencez à réfléchir aux techniques que vous utiliserez pour votre analyse avant de collecter des données.
Que voulez-vous savoir?
L’analyse doit se rapporter aux questions de recherche, ce qui peut dicter les techniques à utiliser.
Quel type de données avez-vous ?
Le type de données dont vous disposez est également fondamental – les techniques et outils appropriés aux variables d’intervalle et de rapport ne conviennent pas aux mesures catégorielles ou ordinales. (Voir Comment collecter des données pour les notes sur les types de données)
Quelles hypothèses pouvez–vous et ne pouvez-vous pas faire?
De nombreuses techniques reposent sur le fait que la distribution d’échantillonnage de la statistique de test est une distribution normale (voir ci-dessous). C’est toujours le cas lorsque la distribution sous-jacente des données est normale, mais en pratique, les données peuvent ne pas être distribuées normalement. Par exemple, il pourrait y avoir une longue queue de réponses d’un côté ou de l’autre (données biaisées). Des techniques non paramétriques peuvent être utilisées dans de telles situations, mais celles-ci sont inévitablement moins puissantes et moins flexibles. Cependant, si la taille de l’échantillon est suffisamment grande, le Théorème Central Limite permet d’utiliser les analyses et outils standard.
Techniques pour une distribution non normale
Statistiques paramétriques ou non paramétriques ?
Les méthodes et statistiques paramétriques reposent sur un ensemble d’hypothèses sur la distribution sous-jacente pour donner des résultats valides. En général, ils exigent que les variables aient une distribution normale.
Les techniques non paramétriques doivent être utilisées pour les données catégorielles et ordinales, mais pour les données de rapport d’intervalle &, elles sont généralement moins puissantes et moins flexibles et ne doivent être utilisées que lorsque le test standard paramétrique n’est pas approprié, par exemple lorsque la taille de l’échantillon est petite (inférieure à 30 observations).
Théorème de la limite centrale
À mesure que la taille de l’échantillon augmente, la forme de la distribution d’échantillonnage de la statistique de test tend à devenir normale, même si la distribution de la variable testée n’est pas normale.
En pratique, cela peut être appliqué aux statistiques de test calculées à partir de plus de 30 observations.
Combien pouvez-vous espérer retirer de vos données?
Plus la taille de l’échantillon est petite, moins vous pouvez extraire de vos données. L’erreur-type est inversement liée à la taille de l’échantillon, de sorte que plus votre échantillon est grand, plus l’erreur-type est petite et plus vous aurez de chances d’identifier des résultats statistiquement significatifs dans votre analyse.
Techniques de base
En général, toute technique pouvant être utilisée sur des données catégorielles peut également être utilisée sur des données ordinales. Toute technique pouvant être utilisée sur des données ordinales peut également être utilisée sur des données de rapport ou d’intervalle. L’inverse n’est pas le cas.
Description de vos données
La première étape de toute analyse devrait être de décrire vos données, et donc la population à partir de laquelle elles sont tirées. Les statistiques appropriées pour cette activité se répartissent en trois grands groupes et dépendent du type de données dont vous disposez.
Que veux-tu faire ? | Avec quel type de données ? | Techniques appropriées |
---|---|---|
Regardez la distribution | Catégorique/Ordinale | Tracez le pourcentage dans chaque catégorie (graphique en colonnes ou en barres) |
Rapport / intervalle | Histogramme Fréquence cumulative diagramme |
|
Décrire la tendance centrale | Catégorique | n/a |
Mode ordinal | Médian | |
Rapport / Intervalle | Moyenne Médiane |
|
Décrire la propagation | Catégorique | n/a |
Ordinal | Gamme Gamme inter-quartiles |
|
Rapport/ Intervalle | Plage Plage inter-quartiles Variance Variation standard |
Voir Présentation graphique pour les descriptions des principales techniques graphiques.
Moyenne – la moyenne arithmétique, calculée en additionnant toutes les valeurs et en divisant par le nombre de valeurs de la somme.
Médiane – le point médian de la distribution, où la moitié des valeurs sont supérieures et l’autre moitié inférieures.Mode
– la valeur la plus fréquente.Plage
– la différence entre la valeur la plus élevée et la plus basse.
Intervalle entre quartiles – la différence entre le quartile supérieur (la valeur où 25 % des observations sont supérieures et 75 % inférieures) et le quartile inférieur (la valeur où 75 % des observations sont supérieures et 25 % inférieures). Ceci est particulièrement utile lorsqu’il y a un petit nombre d’observations extrêmes beaucoup plus élevées, ou plus basses, que la majorité.
Variance – une mesure de la propagation, calculée comme la moyenne des différences au carré des observations par rapport à leur moyenne.
Écart type – la racine carrée de la variance.
Différences entre les groupes et les variables
Test du Chi carré – utilisé pour comparer les distributions de deux ensembles ou plus de données catégorielles ou ordinales.
tests t – utilisés pour comparer les moyennes de deux ensembles de données.
Test de Wilcoxon U – équivalent non paramétrique du test t. En fonction de l’ordre de classement des données, il peut également être utilisé pour comparer les médianes.
ANOVA – analyse de la variance, pour comparer les moyennes de plus de deux groupes de données.
Que veux-tu faire ? | Avec quel type de données ? | Techniques appropriées |
---|---|---|
Comparer deux groupes | Catégorique | Test du Chi carré |
Ordinal | Test du Chi carré Test de Wicoxon U |
|
Rapport/intervalle | test t pour échantillons indépendants |
|
Comparer plus de deux groupes | Catégorique / Ordinal | Test du Chi carré |
Rapport / Intervalle | ANOVA | |
Comparer deux variables sur la même sujets |
Catégorie / Ordinal | Test du Chi carré |
Rapport/ intervalle | test t pour échantillons dépendants |
Relations entre variables
Le coefficient de corrélation mesure le degré d’association linéaire entre deux variables, avec une valeur comprise entre +1 et -1. Les valeurs positives indiquent que les deux variables augmentent et diminuent ensemble; les valeurs négatives que l’une augmente à mesure que l’autre diminue. Un coefficient de corrélation nul n’indique aucune relation linéaire entre les deux variables. La corrélation de rang de Spearman est l’équivalent non paramétrique de la corrélation de Pearson.
Quel type de données ? | Techniques appropriées |
---|---|
Catégorie | Test du Chi carré |
Ordinal | Test du Chi carré Rang de Spearman corrélation (Tau) |
Rapport/intervalle | Pearson corrélation (Rho) |
Notez que les analyses de corrélation ne détecteront que les relations linéaires entre deux variables. La figure ci-dessous illustre deux petits ensembles de données où il existe clairement des relations entre les deux variables. Cependant, la corrélation pour le deuxième ensemble de données, où la relation n’est pas linéaire, est de 0,0. Une simple analyse de corrélation de ces données ne suggérerait aucune relation entre les mesures, alors que ce n’est manifestement pas le cas. Cela illustre l’importance d’entreprendre une série d’analyses descriptives de base avant de se lancer dans des analyses des différences et des relations entre les variables.
Validité du test
Niveaux de signification
La signification statistique d’un test est une mesure de probabilité – la probabilité que vous auriez obtenu ce résultat particulier du test sur cet échantillon si l’hypothèse nulle (qu’il n’y a aucun effet dû aux paramètres testés) que vous testez était vraie. L’exemple ci-dessous vérifie si les scores d’un examen changent après que les candidats ont reçu une formation. L’hypothèse suggère qu’ils devraient, donc l’hyopothèse nulle est qu’ils ne le feront pas.
En général, tout niveau de probabilité supérieur à 5% (p > 0,05) n’est pas considéré comme statistiquement significatif, et pour les grandes enquêtes, 1% (p > 0,01) est souvent considéré comme un niveau plus approprié.
Notez que la signification statistique ne signifie pas que les résultats que vous avez obtenus ont réellement une valeur dans le contexte de votre recherche. Si vous avez un échantillon suffisamment grand, une très petite différence entre les groupes peut être identifiée comme statistiquement significative, mais une si petite différence peut ne pas être pertinente dans la pratique. D’autre part, une différence apparemment importante peut ne pas être statistiquement significative dans un petit échantillon, en raison de la variation au sein des groupes comparés.
Degrés de liberté
Certaines statistiques de test (par exemple, le chi carré) nécessitent que le nombre de degrés de liberté soit connu, afin de tester la signification statistique par rapport à la table de probabilité correcte. En bref, les degrés de liberté sont le nombre de valeurs qui peuvent être attribuées arbitrairement dans l’échantillon.
Par exemple:
Dans un échantillon de taille n divisé en k classes, il y a k-1 degrés de liberté (les premiers groupes k-1 pourraient être de n’importe quelle taille jusqu’à n, tandis que le dernier est fixé par le total du premier k-1 et la valeur de n. En termes numériques, si un échantillon de 500 individus est prélevé au Royaume-Uni et qu’on observe que 300 sont d’Angleterre, 100 d’Écosse et 50 du Pays de Galles, il faut alors être 50 de l’Irlande du Nord. Compte tenu des chiffres des trois premiers groupes, il n’y a pas de flexibilité dans la taille du groupe final. La division de l’échantillon en quatre groupes donne trois degrés de liberté.
Dans un tableau de contingence bidirectionnel avec p lignes et q colonnes, il y a (p-1) * (q-1) degrés de liberté (compte tenu des valeurs des premières lignes et colonnes, la dernière ligne et colonne sont contraintes par les totaux du tableau)
Tests à une queue ou à deux queue
Si, comme c’est généralement le cas, ce qui importe est simplement que les statistiques pour les populations soient différentes, alors il convient de utilisez les valeurs critiques pour un test à deux queues.
Si, cependant, vous souhaitez seulement savoir si la statistique pour la population A a une valeur plus grande que celle pour la population B, un test à une queue serait approprié. La valeur critique pour un test à une queue est généralement inférieure à celle d’un test à deux queues et ne doit être utilisée que si votre hypothèse de recherche est que la population A a une valeur supérieure à la population B, et peu importe leur différence si la population A a une valeur inférieure à celle de la population B.
Par exemple
Scénario 1
Hypothèse nulle – il n’y a pas de différence dans les scores moyens à l’examen avant et après l’entraînement (c’est–à-dire que l’entraînement n’a aucun effet sur le score de l’examen)
Alternative – il y a une différence dans les scores moyens avant et après l’entraînement (c’est–à-dire que l’entraînement a un effet non spécifié)
Utiliser un test à deux queues
Scénario 2
Hypothèse nulle – L’entraînement n’augmente pas le score moyen
Alternative – Le score moyen augmente après l’entraînement
Utilisez un test à une queue, s’il y a une augmentation observée du score moyen.
(S’il y a une baisse observée des scores, il n’est pas nécessaire de tester, car vous ne pouvez pas rejeter l’hypothèse nulle.)
Scénario 3
Hypothèse nulle – L’entraînement ne provoque pas une baisse des scores moyens
Alternative – Le score moyen tombe après l’entraînement
Utilisez un test à une queue, s’il y a une baisse observée du score moyen.
(S’il y a une augmentation observée des scores, il n’est pas nécessaire de tester, car vous ne pouvez pas rejeter l’hypothèse nulle.)
Avant | Après | |
Moyenne | ||
Écart |
46,547 |
46,830 |
Observations | ||
Degrés de liberté (df) | ||
t Stat | ||
P(T < = t) une queue | ||
t Une queue critique | ||
P(T<= t) deux-queue | ||
t Queue critique à deux |
Si les résultats du test ci-dessus étaient obtenus, dans le scénario 1, en utilisant un test à deux queue, vous pourriez conclure qu’il n’y avait pas de différence statistiquement significative entre les scores (p = 0,08) et, par conséquent, que l’entraînement n’avait aucun effet. De même, dans le scénario 3, vous conclurez qu’il n’y a aucune preuve suggérant que la formation entraîne une baisse des notes moyennes, car elles ont en fait augmenté. Cependant, dans le scénario 2, en utilisant un test à une queue, vous conclurez qu’il y a eu une augmentation des scores moyens, statistiquement significative au niveau de 5 % (p = 0,04).
Un dernier avertissement !
Les paquets statistiques feront ce que vous leur dites, dans l’ensemble. Ils ne savent pas si les données que vous avez fournies sont de bonne qualité ou (à quelques exceptions près) si elles sont d’un type approprié pour l’analyse que vous avez entreprise.
Déchets dedans = Déchets dehors!
Techniques avancées
Ces outils et techniques ont des applications spécialisées et seront généralement intégrés à la méthodologie de recherche à un stade précoce, avant la collecte de données. Si vous envisagez d’utiliser l’un de ces éléments, vous pouvez consulter un texte spécialisé ou un statisticien expérimenté avant de commencer.
Dans chaque cas, nous donnons quelques exemples d’articles en émeraude qui utilisent la technique.
Analyse factorielle
Pour réduire le nombre de variables pour une analyse ultérieure en créant des combinaisons des variables d’origine mesurées qui tiennent compte autant que possible de la variance d’origine, mais permettent une interprétation plus facile des résultats. Couramment utilisé pour créer un petit ensemble d’évaluations de dimension à partir d’un grand nombre d’énoncés d’opinion évalués individuellement sur des échelles de Likert. Vous devez avoir plus d’observations (sujets) que de variables à analyser.
Par exemple
Une variable d’échelle de Likert: « J’aime manger de la glace au chocolat pour le petit déjeuner »
Tout à fait d’accord |
Fortement en désaccord |
A factor analysis of Page and Wong’s servant leadership instrument
Rob Dennis and Bruce E. Winston
Leadership & Organization Development Journal, vol. 24 no. 8
Comprendre les facteurs d’adoption de l’analyse comparative : Nouvelles preuves en provenance de Malaisie
Yean Pin Lee, Suhaiza Zailani et Keng Lin Soh
Analyse comparative: Une Revue internationale, vol. 13 no. 5
Analyse en grappes
Pour classer les sujets en groupes ayant des caractéristiques similaires, en fonction des valeurs des variables mesurées. Vous devez avoir plus d’observations que de variables incluses dans l’analyse.
Évitement des produits biologiques: Raisons du rejet et identification des acheteurs potentiels dans une enquête nationale
C. Fotopoulos et A. Krystallis
British Food Journal, vol. 104 no. 3/4/5
Détection de détresse financière par analyse statistique multivariée
S. Gamesalingam et Kuldeep Kumar
Finance managériale, vol. 27 no. 4
Analyse discriminante
Pour identifier les variables qui discriminent le mieux entre les groupes de sujets connus. Les résultats peuvent être utilisés pour attribuer de nouveaux sujets aux groupes connus en fonction de leurs valeurs des variables discriminantes
Détection de détresse financière via une analyse statistique multivariée
S. Gamesalingam et Kuldeep Kumar
Managerial Finance, vol. 27 no. 4
Comprendre les facteurs d’adoption de l’analyse comparative: New evidence from Malaysia
Yean Pin Lee, Suhaiza Zailani et Keng Lin Soh
Benchmarking: An International Journal, vol. 13 no 5
Méthodologie
Une analyse discriminante a été utilisée pour déterminer s’il existe des différences statistiquement significatives entre le profil de score moyen sur un ensemble de variables pour deux groupes définis a priori et a ainsi permis de les classer. En outre, cela pourrait aider à déterminer laquelle des variables indépendantes tient le plus compte des différences dans les profils de score moyens des deux groupes. Dans cette étude, l’analyse discriminante a été le principal instrument de classification de l’adoptant et du non-adoptant. Il a également été utilisé pour déterminer laquelle des variables indépendantes contribuerait à l’adoption de l’analyse comparative.
Régression
Pour modéliser le comportement d’une variable dépendante en fonction des valeurs d’un ensemble d’autres variables indépendantes. La variable dépendante doit être de type intervalle ou ratio; les variables indépendantes peuvent être de n’importe quel type, mais des méthodes spéciales doivent être utilisées pour inclure des variables indépendantes catégorielles ou ordinales dans l’analyse.
Développements de la commercialisation du lait en Angleterre et au Pays de Galles au cours des années 1990
Jeremy Franks
British Food Journal, vol. 103 no. 9
La formation sous le feu des critiques: La relation entre les obstacles à la formation et le développement des PME en Palestine
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2
Analyse des séries chronologiques
Pour étudier les modèles et les tendances d’une variable mesurée régulièrement sur une période de temps. Peut également être utilisé pour identifier et ajuster les variations saisonnières, par exemple dans les statistiques financières.
Une analyse des tendances et des comportements cycliques des prix de l’immobilier sur les marchés asiatiques
Ming-Chi Chen, Yuichiro Kawaguchi et Kanak Patel
Journal of Property Investment & Finance, vol. 22 no.1
Présentation graphique
La présentation des données sous forme graphique peut accroître l’accessibilité de vos résultats à un public non technique et mettre en évidence des effets et des résultats qui nécessiteraient autrement de longues explications ou des tableaux complexes. Il est donc important d’utiliser des techniques graphiques appropriées. Cette section donne des exemples de certaines des présentations graphiques les plus couramment utilisées et indique quand elles peuvent être utilisées. Tous, à l’exception de l’histogramme, ont été produits à l’aide de Microsoft Excel®.
Graphiques à colonnes ou à barres
Il existe quatre variantes principales, et que vous affichiez les données en barres horizontales ou en colonnes verticales est en grande partie une question de préférence personnelle.
Histogramme
Pour illustrer une distribution de fréquence dans des données catégorielles ou ordinales, ou des données de rapport/intervalle groupées. Généralement affiché sous forme de graphique en colonnes.
Colonne/barre groupée
Pour comparer des données de rapport/intervalle catégorielles, ordinales ou groupées entre les catégories. Les données utilisées sur la figure 4 sont les mêmes que celles des figures 5 et 6.
Colonne/barre empilée
Pour illustrer la contribution réelle au total pour les données de rapport/intervalle catégorielles, ordinales ou groupées par catégories. Les données utilisées sur la Figure 5 sont les mêmes que celles des Figures 4 et 6.
Pourcentage colonne/barre empilée
Pour comparer la contribution en pourcentage au total pour les données de rapport/intervalle catégorielles, ordinales ou groupées entre les catégories. Les données utilisées sur la figure 6 sont les mêmes que celles des Figures 4 et 5.
Graphiques linéaires
Pour montrer les tendances des données ordinales ou de rapport / intervalle. Les points d’un graphique ne doivent être joints à une ligne que si les données sur l’axe des abscisses sont au moins ordinales. Une application particulière consiste à tracer une distribution de fréquence pour les données intervalle/rapport (figure 8).
Graphiques circulaires
Pour montrer la contribution en pourcentage à l’ensemble des données de rapport/intervalle catégorielles, ordinales ou groupées.
Graphiques de dispersion
Pour illustrer la relation entre deux variables, de tout type (bien que plus utile lorsque les deux variables sont de type ratio / intervalle). Également utile pour identifier toute observation inhabituelle dans les données.
Diagramme à moustaches et à cases
Un graphique spécialisé illustrant la tendance centrale et la propagation d’un grand ensemble de données, y compris les valeurs aberrantes.
Ressources
Connecting Mathematics
Brèves explications de termes et d’idées mathématiques
Glossaire des statistiques
compilé par Valerie J. Easton et John H. McColl de l’Université de Glasgow
Manuel électronique Statsoft
100 Tests statistiques par Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)
Oxford Dictionary of Statistics par Graham Upton et Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)