- Fondamenti
- Cosa vuoi sapere?
- Che tipo di dati hai?
- Quali ipotesi puoi – e non puoi-fare?
- Tecniche per una distribuzione non normale
- Statistiche parametriche o non parametriche?
- Teorema del limite centrale
- Quanto puoi aspettarti di uscire dai tuoi dati?
- Tecniche di base
- Descrivere i tuoi dati
- Differenze tra gruppi e variabili
- le Relazioni tra le variabili
- Test di validità
- livelli di Significatività
- Gradi di libertà
- Per esempio:
- Una coda o due code test
- Ad esempio
- Un ultimo avvertimento!
- Tecniche avanzate
- Analisi fattoriale
- Ad esempio
- Cluster analysis
- Analisi discriminante
- Regressione
- Analisi delle serie temporali
- Presentazione grafica
- Colonne o grafici a barre
- Istogramma
- Colonna/barra in cluster
- Colonna/barra impilata
- Colonna/barra impilati in percentuale
- Grafici a linee
- Grafici a torta
- Grafici a dispersione
- Grafico a scatola e baffi
- Resources
Fondamenti
Inizia a pensare alle tecniche che utilizzerai per la tua analisi prima di raccogliere qualsiasi dato.
Cosa vuoi sapere?
L’analisi deve riguardare le domande di ricerca, e questo può dettare le tecniche da utilizzare.
Che tipo di dati hai?
Anche il tipo di dati che hai è fondamentale: le tecniche e gli strumenti appropriati per le variabili di intervallo e rapporto non sono adatti per misure categoriali o ordinali. (Vedi Come raccogliere dati per le note sui tipi di dati)
Quali ipotesi puoi – e non puoi-fare?
Molte tecniche si basano sulla distribuzione di campionamento della statistica di prova come una distribuzione normale (vedi sotto). Questo è sempre il caso quando la distribuzione sottostante dei dati è normale, ma in pratica, i dati potrebbero non essere distribuiti normalmente. Ad esempio, potrebbe esserci una lunga coda di risposte da una parte o dall’altra (dati distorti). Le tecniche non parametriche sono disponibili per l’uso in tali situazioni, ma queste sono inevitabilmente meno potenti e meno flessibili. Tuttavia, se la dimensione del campione è sufficientemente grande, il Teorema del limite centrale consente l’uso delle analisi e degli strumenti standard.
Tecniche per una distribuzione non normale
Statistiche parametriche o non parametriche?
I metodi parametrici e le statistiche si basano su una serie di ipotesi sulla distribuzione sottostante per fornire risultati validi. In generale, richiedono che le variabili abbiano una distribuzione normale.
Le tecniche non parametriche devono essere utilizzate per i dati categoriali e ordinali, ma per i dati di rapporto & intervallo sono generalmente meno potenti e meno flessibili e dovrebbero essere utilizzate solo quando il test standard, parametrico, non è appropriato, ad esempio quando la dimensione del campione è piccola (sotto 30 osservazioni).
Teorema del limite centrale
All’aumentare della dimensione del campione, la forma della distribuzione di campionamento della statistica di prova tende a diventare Normale, anche se la distribuzione della variabile che viene testata non è Normale.
In pratica, questo può essere applicato alle statistiche di test calcolate da più di 30 osservazioni.
Quanto puoi aspettarti di uscire dai tuoi dati?
Minore è la dimensione del campione, meno è possibile ottenere dai dati. L’errore standard è inversamente correlato alla dimensione del campione, quindi più grande è il campione, minore è l’errore standard e maggiore è la possibilità di identificare risultati statisticamente significativi nell’analisi.
Tecniche di base
In generale, qualsiasi tecnica che può essere utilizzata su dati categorici può essere utilizzata anche su dati ordinali. Qualsiasi tecnica che può essere utilizzata su dati ordinali può essere utilizzata anche su dati di rapporto o intervallo. Il contrario non è il caso.
Descrivere i tuoi dati
La prima fase di qualsiasi analisi dovrebbe essere quella di descrivere i tuoi dati, e quindi la popolazione da cui sono tratti. Le statistiche appropriate per questa attività rientrano in tre grandi gruppi e dipendono dal tipo di dati che hai.
Cosa vuoi fare? | Con che tipo di dati? | tecniche Appropriate |
---|---|---|
Guardate la distribuzione | Categorica / Ordinale | Trama la percentuale in ogni categoria (colonna o un grafico a barre) |
Rapporto / Intervallo | Istogramma frequenza cumulata diagramma |
|
Descrivere il tendenza centrale |
Categorico | n/a |
Ordinale | Mediana Modalità |
|
Rapporto / Intervallo | Media Mediana |
|
Descrivere la diffusione | Categorico | n/a |
Ordinale | Gamma Inter-quartile range |
|
Rapporto / Intervallo | Gamma Inter-quartile range Varianza variazione Standard |
Vedere la rappresentazione Grafica per una descrizione delle principali tecniche grafiche.
Media-la media aritmetica, calcolata sommando tutti i valori e dividendo per il numero di valori nella somma.
Mediana-il punto medio della distribuzione, dove metà dei valori sono più alti e metà inferiori.
Modalità-il valore più frequente.
Intervallo: la differenza tra il valore più alto e quello più basso.
Intervallo inter-quartile-la differenza tra il quartile superiore (il valore in cui il 25% delle osservazioni è superiore e il 75% inferiore) e il quartile inferiore (il valore in cui il 75% delle osservazioni è superiore e il 25% inferiore). Ciò è particolarmente utile quando ci sono un piccolo numero di osservazioni estreme molto più alte, o inferiori, rispetto alla maggioranza.
Varianza-una misura dello spread, calcolata come media delle differenze quadrate delle osservazioni dalla loro media.
Deviazione standard-la radice quadrata della varianza.
Differenze tra gruppi e variabili
Test Chi-quadrato-utilizzato per confrontare le distribuzioni di due o più insiemi di dati categorici o ordinali.
t-test-utilizzato per confrontare i mezzi di due set di dati.
Test Wilcoxon U-equivalente non parametrico del test T. In base all’ordine di rango dei dati, può anche essere utilizzato per confrontare le mediane.
ANOVA-analisi della varianza, per confrontare i mezzi di più di due gruppi di dati.
Cosa vuoi fare? | Con che tipo di dati? | tecniche Appropriate |
---|---|---|
Confrontare due gruppi | Categorico | Chi-squared test |
Ordinale | Chi-squared test Wicoxon test U |
|
Rapporto / Intervallo | t-test per campioni indipendenti |
|
Confrontare più di due gruppi | Categorica / Ordinale | Chi-squared test |
Rapporto / Intervallo | ANOVA | |
Confrontare due variabili sulla stessa soggetti |
Categorica / Ordinale | Chi-squared test |
Rapporto / Intervallo | t-test per dipendente campioni |
le Relazioni tra le variabili
Il coefficiente di correlazione misura il grado di associazione lineare tra due variabili, con un valore compreso tra +1 e -1. Valori positivi indicano che le due variabili aumentano e diminuiscono insieme; valori negativi che uno aumenta mentre l’altro diminuisce. Un coefficiente di correlazione pari a zero indica nessuna relazione lineare tra le due variabili. La correlazione di rango di Spearman è l’equivalente non parametrico della correlazione di Pearson.
Che tipo di dati? | tecniche Appropriate |
---|---|
Categorico | Chi-squared test |
Ordinale | Chi-squared test Spearman rank correlazione (Tau) |
Rapporto / Intervallo | Pearson correlazione (Rho) |
si noti che l’analisi di correlazione rileva solo relazioni lineari tra due variabili. La figura seguente illustra due piccoli set di dati in cui vi sono chiaramente relazioni tra le due variabili. Tuttavia, la correlazione per il secondo set di dati, in cui la relazione non è lineare, è 0.0. Una semplice analisi di correlazione di questi dati suggerirebbe alcuna relazione tra le misure, quando chiaramente non è così. Ciò dimostra l’importanza di intraprendere una serie di analisi descrittive di base prima di intraprendere analisi delle differenze e delle relazioni tra le variabili.
Test di validità
livelli di Significatività
La significatività statistica di un test è una misura di probabilità, la probabilità che si sarebbero ottenuti quel particolare risultato del test sul campione se l’ipotesi nulla (che non c’è nessun effetto per i parametri in fase di test) è il test era vero. L’esempio seguente verifica se i punteggi in un esame cambiano dopo che i candidati hanno ricevuto una formazione. L’ipotesi suggerisce che dovrebbero, quindi, null hyopothesis è che essi non.
In generale, a qualsiasi livello di probabilità superiore al 5 per cento (p>0.05), non è considerato statisticamente significativo, e per le grandi indagini di 1 per cento (p>0.01) è spesso considerato come un livello più appropriato.
Nota che la significatività statistica non significa che i risultati ottenuti abbiano effettivamente valore nel contesto della tua ricerca. Se si dispone di un campione abbastanza grande, una differenza molto piccola tra i gruppi può essere identificata come statisticamente significativa, ma una differenza così piccola può essere irrilevante nella pratica. D’altra parte, una differenza apparentemente grande potrebbe non essere statisticamente significativa in un piccolo campione, a causa della variazione all’interno dei gruppi confrontati.
Gradi di libertà
Alcune statistiche di test (ad esempio il chi-quadrato) richiedono che il numero di gradi di libertà sia noto, al fine di verificare la significatività statistica rispetto alla tabella di probabilità corretta. In breve, i gradi di libertà sono il numero di valori che possono essere assegnati arbitrariamente all’interno del campione.
Per esempio:
In un campione di dimensione n, diviso in k classi, ci sono k-1 gradi di libertà (i primi k-1 gruppi possono essere di qualsiasi dimensione fino a n, mentre l’ultimo è fissato per il totale dei primi k-1 e il valore di n. In termini numerici, se un campione di 500 individui è preso dal regno UNITO, e si è osservato che le 300 sono da Inghilterra, 100 dalla Scozia e 50 dal Galles, allora ci deve essere di 50 dall’Irlanda del Nord. Dati i numeri dei primi tre gruppi, non c’è flessibilità nella dimensione del gruppo finale. Dividere il campione in quattro gruppi dà tre gradi di libertà.
In un tabella di contingenza con p righe e q colonne, sono presenti (p-1)*(q-1) gradi di libertà (dati i valori delle prime righe e colonne, l’ultima riga e di colonna sono vincolate dai totali nella tabella)
Una coda o due code test
Se, come è generalmente il caso, ciò che conta è semplicemente che le statistiche per le popolazioni sono diverse, quindi è opportuno utilizzare i valori critici per un test a due code.
Se, tuttavia, sei interessato solo a scoprire se la statistica per la popolazione A ha un valore maggiore di quello per la popolazione B, allora un test a coda unica sarebbe appropriato. Il valore critico per un test a una coda è generalmente inferiore a quello per un test a due code e dovrebbe essere utilizzato solo se l’ipotesi di ricerca è che la popolazione A abbia un valore maggiore della popolazione B e non importa quanto siano diversi se la popolazione A ha un valore inferiore a quello per la popolazione B.
Ad esempio
Scenario 1
ipotesi – non c’è nessuna differenza media di punteggi dell’esame prima e dopo l’allenamento (cioè la formazione non ha alcun effetto sul punteggio per l’esame)
Alternativa – c’è una differenza nei punteggi medi prima e dopo l’allenamento (cioè la formazione ha un non specificato effetto)
Utilizzare un due-coda test
Scenario 2
ipotesi – Formazione non aumentare il punteggio medio
Alternativa – Media punteggio aumenta dopo l’allenamento
Utilizzare una coda di prova, se c’è un aumento osservato in media di punteggio.
(Se c’è un calo osservato nei punteggi, non è necessario testare, poiché non è possibile rifiutare l’ipotesi nulla.)
Scenario 3
Ipotesi nulla – L’allenamento non causa la caduta dei punteggi medi
Alternativa – Il punteggio medio cade dopo l’allenamento
Utilizzare un test a una coda, se si osserva un calo del punteggio medio.
(Se si osserva un aumento dei punteggi, non è necessario testare, poiché non è possibile rifiutare l’ipotesi nulla.)
Prima di | Dopo | |
Media | ||
Varianza |
46,547 |
46,830 |
Osservazioni | ||
Gradi di libertà (df) | ||
t Stat | ||
P(T<=t) una coda | ||
t Critico una coda | ||
P(T<=t) due code | ||
t Critico due code |
Se la prova di cui sopra sono stati ottenuti risultati, poi in base allo scenario 1, con due coda di prova, si potrebbe concludere che non vi era alcuna differenza statisticamente significativa tra i punteggi (p=0.08), e, di conseguenza, che la formazione ha avuto alcun effetto. Allo stesso modo, nello scenario 3, si potrebbe concludere che non vi è alcuna prova che suggerisca che l’allenamento causi una diminuzione dei punteggi medi, poiché in realtà sono aumentati. Tuttavia, nello scenario 2, utilizzando un test a una coda, si potrebbe concludere che vi è stato un aumento dei punteggi medi, statisticamente significativo al livello del 5 per cento (p=0,04).
Un ultimo avvertimento!
I pacchetti statistici faranno ciò che dirai loro, nel complesso. Non sanno se i dati che hai fornito sono di buona qualità o (con pochissime eccezioni) se sono di tipo appropriato per l’analisi che hai intrapreso.
Spazzatura in = Spazzatura fuori!
Tecniche avanzate
Questi strumenti e tecniche hanno applicazioni specialistiche e saranno generalmente progettati nella metodologia di ricerca in una fase iniziale, prima che vengano raccolti dati. Se state pensando di utilizzare uno di questi, si consiglia di consultare un testo specialista o uno statistico esperto prima di iniziare.
In ogni caso, diamo alcuni esempi di articoli Smeraldo che utilizzano la tecnica.
Analisi fattoriale
Per ridurre il numero di variabili per l’analisi successiva creando combinazioni delle variabili originali misurate che rappresentano la maggior parte della varianza originale possibile, ma consentono una più facile interpretazione dei risultati. Comunemente usato per creare un piccolo insieme di valutazioni di dimensione da un gran numero di dichiarazioni di opinione valutate individualmente su scale Likert. Devi avere più osservazioni (soggetti) di quanto tu abbia variabili da analizzare.
Ad esempio
Una variabile di scala Likert: “Mi piace mangiare il gelato al cioccolato per la prima colazione”
pienamente d’accordo |
Fortemente in disaccordo |
Un fattore di analisi della Pagina e Wong leadership strumento
Rob Dennis e Bruce E. Winston
Leadership & Organizzazione Sviluppo Journal , vol. 24 no. 8
Comprendere i fattori per l’adozione del benchmarking: nuove prove dalla Malesia
Yean Pin Lee, Suhaiza Zailani e Keng Lin Soh
Benchmarking: Una rivista internazionale, vol. 13 n. 5
Cluster analysis
Per classificare i soggetti in gruppi con caratteristiche simili, in base ai valori delle variabili misurate. È necessario disporre di più osservazioni rispetto alle variabili incluse nell’analisi.
Evitamento dei prodotti biologici: motivi del rifiuto e identificazione dei potenziali acquirenti in un’indagine nazionale
C. Fotopoulos e A. Krystallis
British Food Journal, vol. 104 n. 3/4/5
Rilevazione di sofferenze finanziarie mediante analisi statistica multivariata
S. Gamesalingam e Kuldeep Kumar
Finanza manageriale, vol. 27 no. 4
Analisi discriminante
Per identificare le variabili che meglio discriminano tra gruppi di soggetti noti. I risultati possono essere utilizzati per allocare nuovi soggetti ai gruppi noti in base ai loro valori delle variabili discriminanti
Rilevamento del disagio finanziario tramite analisi statistica multivariata
S. Gamesalingam e Kuldeep Kumar
Managerial Finance, vol. 27 no. 4
Comprendere i fattori per l’adozione del benchmarking: Nuove prove dalla Malesia
Yean Pin Lee, Suhaiza Zailani e Keng Lin Soh
Benchmarking: An International Journal, vol. 13 no.5
Metodologia
L’analisi discriminante è stata utilizzata per determinare se esistono differenze statisticamente significative tra il profilo del punteggio medio su un insieme di variabili per due gruppi definiti a priori e quindi ha permesso loro di essere classificati. Inoltre, potrebbe aiutare a determinare quale delle variabili indipendenti rappresentano di più per le differenze nei profili di punteggio medio dei due gruppi. In questo studio, l’analisi discriminante è stato lo strumento principale per classificare l’adottante e il non adottante di benchmarking. È stato inoltre utilizzato per determinare quale delle variabili indipendenti avrebbe contribuito all’adozione del benchmarking.
Regressione
Per modellare il comportamento di una variabile dipendente in base ai valori di un insieme di altre variabili indipendenti. La variabile dipendente deve essere intervallo o rapporto nel tipo; le variabili indipendenti possono essere di qualsiasi tipo, ma devono essere utilizzati metodi speciali quando si includono variabili indipendenti categoriche o ordinali nell’analisi.
Sviluppi nella commercializzazione del latte in Inghilterra e Galles durante gli anni ‘ 90
Jeremy Franks
British Food Journal, vol. 103 no. 9
Training under fire: The relationship between obstacles facing training and SMEs ‘ development in Palestine
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2
Analisi delle serie temporali
Per indagare i modelli e le tendenze in una variabile misurata regolarmente per un periodo di tempo. Può anche essere utilizzato per identificare e regolare per variazioni stagionali, ad esempio nelle statistiche finanziarie.
Un’analisi delle tendenze e dei comportamenti ciclici dei prezzi delle case nei mercati asiatici
Ming-Chi Chen, Yuichiro Kawaguchi e Kanak Patel
Journal of Property Investment & Finance, vol. 22 no. 1
Presentazione grafica
La presentazione dei dati in forma grafica può aumentare l’accessibilità dei risultati a un pubblico non tecnico e evidenziare effetti e risultati che altrimenti richiederebbero lunghe spiegazioni o tabelle complesse. È quindi importante utilizzare tecniche grafiche appropriate. Questa sezione fornisce esempi di alcune delle presentazioni grafiche più comunemente utilizzate e indica quando possono essere utilizzate. Tutti, tranne l’istogramma, sono stati prodotti utilizzando Microsoft Excel®.
Colonne o grafici a barre
Ci sono quattro varianti principali, e se si visualizzano i dati in barre orizzontali o colonne verticali è in gran parte una questione di preferenze personali.
Istogramma
Per illustrare una distribuzione di frequenza in dati categorici o ordinali, o dati raggruppati rapporto/intervallo. Di solito visualizzato come grafico a colonne.
Colonna/barra in cluster
Per confrontare i dati categoriali, ordinali o raggruppati di rapporto/intervallo tra le categorie. I dati utilizzati in fig 4 sono gli stessi di quelli in fig 5 e 6.
Colonna/barra impilata
Per illustrare il contributo effettivo al totale per i dati categoriali, ordinali o raggruppati di rapporto/intervallo per categorie. I dati utilizzati in Fig 5 sono gli stessi di quelli in Fig 4 e 6.
Colonna/barra impilati in percentuale
Per confrontare il contributo percentuale al totale per i dati categoriali, ordinali o raggruppati di rapporto/intervallo tra le categorie. I dati utilizzati nella fig 6 sono gli stessi delle fig 4 e 5.
Grafici a linee
Per mostrare le tendenze nei dati ordinali o rapporto/intervallo. I punti su un grafico dovrebbero essere uniti con una linea solo se i dati sull’asse x sono almeno ordinali. Una particolare applicazione è quella di tracciare una distribuzione di frequenza per i dati intervallo/rapporto (fig 8).
Grafici a torta
Per mostrare il contributo percentuale all’insieme dei dati categoriali, ordinali o raggruppati rapporto/intervallo.
Grafici a dispersione
Per illustrare la relazione tra due variabili, di qualsiasi tipo (anche se più utile dove entrambe le variabili sono rapporto/intervallo di tipo). Utile anche nell’identificazione di eventuali osservazioni insolite nei dati.
Grafico a scatola e baffi
Un grafico specializzato che illustra la tendenza centrale e la diffusione di un ampio set di dati, compresi eventuali valori anomali.
Resources
Connecting Mathematics
Brief explanations of mathematical terms and ideas
Statistics Glossary
compiled by Valerie J. Easton and John H. McColl of Glasgow University
Statsoft electronic textbook
100 Test statistici di Gopal K. Nel 2006, la Oxford University Press(Oxford University Press, 2006, ISBN 0198614314) ha pubblicato il suo primo album in studio,””, pubblicato nel 2006.