cum să…Alegeți tehnica statistică potrivită

Fundamente

începeți să vă gândiți la tehnicile pe care le veți folosi pentru analiză înainte de a colecta date.

ce vrei să știi?

analiza trebuie să se refere la întrebările de cercetare, iar acest lucru poate dicta tehnicile pe care ar trebui să le utilizați.

ce tip de date aveți?

tipul de date pe care îl aveți este, de asemenea, fundamental – tehnicile și instrumentele adecvate variabilelor de interval și raport nu sunt potrivite pentru măsuri categorice sau ordinale. (A se vedea cum se colectează date pentru note privind tipurile de date)

ce ipoteze pot – și nu pot – să faceți?

multe tehnici se bazează pe distribuția eșantionării statisticii testului fiind o distribuție normală (a se vedea mai jos). Acesta este întotdeauna cazul atunci când distribuția subiacentă a datelor este normală, dar, în practică, este posibil ca datele să nu fie distribuite în mod normal. De exemplu, ar putea exista o coadă lungă de răspunsuri la o parte sau la alta (date înclinate). Tehnicile non-parametrice sunt disponibile pentru a fi utilizate în astfel de situații, dar acestea sunt inevitabil mai puțin puternice și mai puțin flexibile. Cu toate acestea, dacă dimensiunea eșantionului este suficient de mare, teorema limitei centrale permite utilizarea analizelor și instrumentelor standard.

tehnici pentru o distribuție non-normală

statistici parametrice sau non-parametrice?

metodele parametrice și statisticile se bazează pe un set de ipoteze cu privire la distribuția subiacentă pentru a da rezultate valide. În general, ele necesită ca variabilele să aibă o distribuție normală.

tehnicile neparametrice trebuie utilizate pentru datele categorice și ordinale, dar pentru datele raportului interval & acestea sunt, în general, mai puțin puternice și mai puțin flexibile și ar trebui utilizate numai atunci când testul standard, parametric, nu este adecvat-de exemplu, atunci când dimensiunea eșantionului este mică (sub 30 de observații).

teorema limitei centrale

pe măsură ce mărimea eșantionului crește, forma distribuției eșantionării statisticii testului tinde să devină normală, chiar dacă distribuția variabilei testate nu este normală.

în practică, acest lucru poate fi aplicat statisticilor de testare calculate din mai mult de 30 de observații.

imagine: funcția normală de distribuție

cât de mult vă puteți aștepta să ieșiți din datele dvs.?

cu cât dimensiunea eșantionului este mai mică, cu atât mai puțin puteți ieși din datele dvs. Eroarea Standard este invers legată de dimensiunea eșantionului, deci cu cât eșantionul dvs. este mai mare, cu atât eroarea standard este mai mică și cu atât veți avea șanse mai mari de a identifica rezultate semnificative statistic în analiza dvs.

tehnici de bază

în general, orice tehnică care poate fi utilizată pe date categorice poate fi utilizată și pe date ordinale. Orice tehnică care poate fi utilizată pe date ordinale poate fi utilizată și pe date de raport sau interval. Reversul nu este cazul.

descrierea datelor dvs.

prima etapă a oricărei analize ar trebui să fie descrierea datelor dvs. și, prin urmare, populația din care sunt extrase. Statisticile adecvate pentru această activitate se încadrează în trei grupuri largi și depind de tipul de date pe care le aveți.

ce vrei să faci? cu ce tip de date? tehnici adecvate
Uită-te la distribuția categorică/ordinală trasați procentul
în fiecare categorie
(coloană sau diagramă de bare)
raport / Interval histograma
frecvența cumulativă
diagrama
descrieți
tendința centrală
categorică n / a
Ordinal mediană
mod
raport / Interval medie
mediană
descrieți răspândirea categorică n / a
Ordinal interval
interval inter-quartile
raport / Interval interval
interval inter-quartile
variație
variație Standard

a se vedea prezentarea grafică pentru descrieri ale principalelor tehnici grafice.

medie – media aritmetică, calculată prin însumarea tuturor valorilor și împărțirea la numărul de Valori din sumă.

Median – punctul mediu al distribuției, unde jumătate din valori sunt mai mari și jumătate mai mici.

Mod – valoarea cea mai frecventă.

interval – diferența dintre cea mai mare și cea mai mică valoare.

intervalul inter-quartilei – diferența dintre quartila superioară (valoarea în care 25% din observații sunt mai mari și 75% mai mici) și quartila inferioară (valoarea în care 75% din observații sunt mai mari și 25% mai mici). Acest lucru este deosebit de util atunci când există un număr mic de observații extreme mult mai mari sau mai mici decât majoritatea.

varianța – o măsură a răspândirii, calculată ca medie a diferențelor pătrate ale observațiilor față de media lor.

deviația Standard – rădăcina pătrată a varianței.

diferențe între grupuri și variabile

testul Chi-pătrat – utilizat pentru a compara distribuțiile a două sau mai multe seturi de date categorice sau ordinale.

t-teste – utilizate pentru a compara mijloacele a două seturi de date.

testul Wilcoxon U – echivalent neparametric al testului T. Pe baza ordinii de rang a datelor, poate fi folosit și pentru a compara mediile.

ANOVA – analiza varianței, pentru a compara mijloacele a mai mult de două grupuri de date.

ce vrei să faci? cu ce tip de date? tehnici adecvate
comparați două grupuri categoric testul Chi-pătrat
Ordinal testul Chi-pătrat
testul Wicoxon U
raport / Interval test t pentru
probe independente
comparați mai mult de două grupuri categoric / Ordinal testul Chi-pătrat
raport / Interval ANOVA
comparați două variabile
peste aceeași subiecți
categoric / Ordinal testul Chi-pătrat
raport / Interval test t pentru probe dependente

relațiile dintre variabile

coeficientul de corelație măsoară gradul de asociere liniară între două variabile, cu o valoare cuprinsă între +1 și -1. Valorile pozitive indică faptul că cele două variabile cresc și scad împreună; valori negative pe care una le crește pe măsură ce cealaltă scade. Un coeficient de corelație zero nu indică nicio relație liniară între cele două variabile. Corelația rangului Spearman este echivalentul non-parametric al corelației Pearson.

ce tip de date? tehnici adecvate
categoric testul Chi-pătrat
Ordinal testul Chi-pătrat
Spearman rank
corelație (Tau)
raport / Interval Pearson
corelație (Rho)

rețineți că analizele de corelație vor detecta doar relații liniare între două variabile. Figura de mai jos ilustrează două seturi mici de date în care există în mod clar relații între cele două variabile. Cu toate acestea, corelația pentru al doilea set de date, unde relația nu este liniară, este de 0,0. O simplă analiză de corelare a acestor date nu ar sugera nicio relație între măsuri, atunci când acest lucru nu este în mod clar cazul. Aceasta ilustrează importanța efectuării unei serii de analize descriptive de bază înainte de a începe analize ale diferențelor și relațiilor dintre variabile.

 imagine: două seturi mici de date în care există în mod clar relații între cele două variabile

validitatea testării

niveluri de semnificație

semnificația statistică a unui test este o măsură a probabilității – probabilitatea că ați fi obținut acel rezultat special al testului pe acel eșantion dacă ipoteza nulă (că nu există niciun efect din cauza parametrilor testați) pe care îl testați a fost adevărată. Exemplul de mai jos testează dacă scorurile la un examen se schimbă după ce candidații au primit instruire. Ipoteza sugerează că ar trebui, deci hyopoteza nulă este că nu vor.

în general, orice nivel de probabilitate peste 5% (p>0,05) nu este considerat a fi semnificativ statistic, iar pentru sondajele mari 1% (p>0,01) este adesea luat ca un nivel mai adecvat.

rețineți că semnificația statistică nu înseamnă că rezultatele pe care le-ați obținut au de fapt valoare în contextul cercetării dvs. Dacă aveți un eșantion suficient de mare, o diferență foarte mică între grupuri poate fi identificată ca fiind semnificativă statistic, dar o diferență atât de mică poate fi irelevantă în practică. Pe de altă parte, o diferență aparent mare poate să nu fie semnificativă statistic într-un eșantion mic, datorită variației în cadrul grupurilor comparate.

grade de libertate

unele statistici de testare (de exemplu, chi-pătrat) necesită ca numărul de grade de libertate să fie cunoscut, pentru a testa semnificația statistică în raport cu tabelul de probabilitate corect. Pe scurt, gradele de libertate reprezintă numărul de valori care pot fi atribuite arbitrar în cadrul eșantionului.

de exemplu:

într-un eșantion de mărime n împărțit în clase k, există grade de libertate k-1 (primele grupuri k-1 ar putea fi de orice dimensiune până la n, în timp ce ultima este fixată de totalul primului k-1 și valoarea lui n. în termeni numerici, dacă un eșantion de 500 de indivizi este luat din Marea Britanie și se observă că 300 sunt din Anglia, 100 din Scoția și 50 din țara Galilor, atunci trebuie să existe o fii 50 din Irlanda de Nord. Având în vedere numerele din primele trei grupuri, nu există flexibilitate în dimensiunea grupului final. Împărțirea eșantionului în patru grupe oferă trei grade de libertate.

într-un tabel de urgență bidirecțional cu rânduri p și coloane q, există (p-1)*(q-1) grade de libertate (având în vedere valorile primelor rânduri și coloane, ultimul rând și coloană sunt constrânse de totalurile din tabel)

teste cu o coadă sau două cozi

dacă, așa cum se întâmplă în general, ceea ce contează este pur și simplu că statisticile pentru populații sunt diferite, atunci este adecvat să se utilizeze valorile critice pentru un test cu două cozi.

dacă, totuși, sunteți interesat doar să aflați dacă Statistica pentru populația a are o valoare mai mare decât cea pentru populația B, atunci ar fi adecvat un test cu o singură coadă. Valoarea critică pentru un test cu o singură coadă este în general mai mică decât pentru un test cu două cozi și ar trebui utilizată numai dacă ipoteza dvs. de cercetare este că populația a are o valoare mai mare decât populația B și nu contează cât de diferite sunt dacă populația A are o valoare mai mică decât cea pentru populația B.

de exemplu

Scenariul 1

ipoteza nulă – nu există nicio diferență în scorurile medii la examen înainte și după antrenament (adică antrenamentul nu are niciun efect asupra scorului la examen)
alternativă – există o diferență în scorurile medii înainte și după antrenament (adică antrenamentul are un efect nespecificat)
folosiți un test cu două cozi

scenariul 2

ipoteza nulă-antrenamentul nu crește scorul mediu
alternativ – Scorul mediu crește după antrenament
utilizați un test cu o singură coadă, dacă se observă o creștere a scorului mediu.
(dacă există o scădere observată a scorurilor, nu este nevoie să testați, deoarece nu puteți respinge ipoteza nulă.)

scenariul 3

ipoteza nulă – antrenamentul nu determină scăderea scorurilor medii
alternativ – scăderea scorului mediu după antrenament
utilizați un test cu o singură coadă, dacă se observă o scădere a scorului mediu.
(dacă există o creștere observată a scorurilor, nu este nevoie să testați, deoarece nu puteți respinge ipoteza nulă.)

t-Test: Pereche două probe pentru mijloace
înainte de după
medie
varianță

46,547

46,830

observații
grade de libertate (df)
t Stat
P (T< = t) o coadă
t critică o coadă
P(T < = t) cu două cozi
t critică cu două cozi

dacă s-au obținut rezultatele testului de mai sus, atunci în scenariul 1, Folosind un test cu două cozi, s-ar putea concluziona că nu a existat o diferență semnificativă statistic între scoruri (p=0,08) și, în consecință, că antrenamentul nu a avut niciun efect. În mod similar, în scenariul 3, ați concluziona că nu există dovezi care să sugereze că formarea determină scăderea scorurilor medii, deoarece acestea au crescut de fapt. Cu toate acestea, în scenariul 2, folosind un test cu o singură coadă, ați concluziona că a existat o creștere a scorurilor medii, semnificative statistic la nivelul de 5% (p=0,04).

un ultim avertisment!

pachetele statistice vor face ceea ce le spuneți, în ansamblu. Ei nu știu dacă datele pe care le-ați furnizat sunt de bună calitate sau (cu foarte puține excepții) dacă sunt de tip adecvat pentru analiza pe care ați întreprins-o.

gunoi în = gunoi afară!

tehnici avansate

aceste instrumente și tehnici au aplicații specializate și, în general, vor fi proiectate în metodologia de cercetare într-un stadiu incipient, înainte de colectarea oricăror date. Dacă vă gândiți să utilizați oricare dintre acestea, vă recomandăm să consultați un text de specialitate sau un statistician cu experiență înainte de a începe.

în fiecare caz, dăm câteva exemple de articole de smarald care folosesc tehnica.

analiza factorilor

pentru a reduce numărul de variabile pentru analiza ulterioară prin crearea de combinații ale variabilelor originale măsurate care reprezintă cât mai mult din varianța inițială posibil, dar permit o interpretare mai ușoară a rezultatelor. Utilizat în mod obișnuit pentru a crea un set mic de evaluări de dimensiuni dintr-un număr mare de declarații de opinie evaluate individual pe scale Likert. Trebuie să aveți mai multe observații (subiecte) decât aveți variabile de analizat.

de exemplu

o variabilă la scară Likert: „Îmi place să mănânc înghețată de ciocolată la micul dejun”

puternic de acord

nu sunt de acord

o analiză a factorilor instrumentului de conducere al lui Page și Wong
Rob Dennis și Bruce E. Winston
Leadership & Organization Development Journal , vol. 24 no. 8

factori de înțelegere pentru adoptarea benchmarking: noi dovezi din Malaezia
Yean Pin Lee, Suhaiza Zailani și Keng Lin Soh
Benchmarking: Un jurnal internațional, vol. 13 nr. 5

analiză Cluster

pentru clasificarea subiecților în grupe cu caracteristici similare, în funcție de valorile variabilelor măsurate. Trebuie să aveți mai multe observații decât aveți variabile incluse în analiză.

evitarea produselor ecologice: motivele respingerii și identificarea potențialilor cumpărători într-un sondaj la nivel național
C. Fotopoulos și A. Krystallis
British Food Journal, vol. 104 nr. 3/4/5

detectarea dificultăților financiare prin analiza statistică multivariată
S. Gamesalingam și Kuldeep Kumar
Finanțe manageriale, vol. 27 nr. 4

analiză discriminantă

pentru identificarea acelor variabile care diferențiază cel mai bine între grupurile cunoscute de subiecți. Rezultatele pot fi utilizate pentru a aloca noi subiecți grupurilor cunoscute pe baza valorilor variabilelor discriminatorii

detectarea stresului financiar prin analiza statistică multivariată
S. Gamesalingam și Kuldeep Kumar
Managerial Finance, vol. 27 nr. 4

factorii de înțelegere pentru adoptarea benchmarking: Noi dovezi din Malaezia
Yean Pin Lee, Suhaiza Zailani și Keng Lin Soh
Benchmarking: an International Journal , vol. 13 nr. 5

metodologia

analiza discriminantă a fost utilizată pentru a determina dacă există diferențe semnificative statistic între profilul scorului mediu pe un set de variabile pentru două grupuri a priori definite și astfel a permis clasificarea acestora. În plus, ar putea ajuta la determinarea care dintre variabilele independente reprezintă cel mai mult diferențele dintre profilurile medii de scor ale celor două grupuri. În acest studiu, analiza discriminantă a fost principalul instrument de clasificare a adoptatorului de benchmarking și a non-adoptatorului. De asemenea, a fost utilizată pentru a determina care dintre variabilele independente ar contribui la adoptarea analizei comparative.

regresie

pentru a modela modul în care o variabilă dependentă se comportă în funcție de valorile unui set de alte variabile independente. Variabila dependentă trebuie să fie interval sau raport în tip; variabilele independente pot fi de orice tip, dar trebuie utilizate metode speciale atunci când se includ variabile independente categorice sau ordinale în analiză.

evoluții în comercializarea laptelui în Anglia și țara Galilor în anii 1990
Jeremy Franks
British Food Journal, vol. 103 nr. 9

Training under fire: relația dintre obstacolele cu care se confruntă formarea și dezvoltarea IMM-urilor în Palestina
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2

analiza seriilor de timp

pentru a investiga tiparele și tendințele unei variabile măsurate regulat pe o perioadă de timp. Poate fi, de asemenea, utilizat pentru a identifica și ajusta variațiile sezoniere, de exemplu în statisticile financiare.

o analiză a tendințelor și comportamentelor ciclice ale prețurilor locuințelor pe piețele asiatice
Ming-Chi Chen, Yuichiro Kawaguchi și Kanak Patel
Journal of Property Investment & Finance, vol. 22 nr. 1

prezentare grafică

prezentarea datelor în formă grafică poate crește accesibilitatea rezultatelor dvs. la un public non-tehnic și poate evidenția efecte și rezultate care altfel ar necesita explicații îndelungate sau tabele complexe. Prin urmare, este important să se utilizeze tehnici grafice adecvate. Această secțiune oferă exemple de unele dintre cele mai frecvent utilizate prezentări grafice, și indică atunci când acestea pot fi utilizate. Toate, cu excepția histogramei,au fost produse folosind Microsoft Excel.

diagrame de coloane sau bare

există patru variante principale și dacă afișați datele în bare orizontale sau coloane verticale este în mare parte o chestiune de preferință personală.

histogramă

pentru a ilustra o distribuție de frecvență în date categorice sau ordinale sau date de raport/interval grupate. De obicei, afișat ca un grafic coloană.

 imagine: Histogramă

coloană/bară grupată

pentru a compara datele categorice, ordinale sau grupate în raport/interval pe categorii. Datele utilizate în fig 4 sunt aceleași cu cele din Fig 5 și 6.

imagine: coloană/bară grupată

coloană/bară stivuită

pentru a ilustra contribuția efectivă la total pentru datele categorice, ordinale sau grupate pe categorii. Datele utilizate în Fig 5 sunt aceleași cu cele din Fig 4 și 6.

 imagine: Coloană/bară stivuită

coloană/bară stivuită procentuală

pentru a compara contribuția procentuală la total pentru datele categorice, ordinale sau grupate în raport/interval pe categorii. Datele utilizate în fig 6 sunt aceleași cu cele din Fig 4 și 5.

imagine: procentaj stivuit coloană/bară

grafice liniare

pentru a arăta tendințele datelor ordinale sau ale raportului/intervalului. Punctele de pe un grafic ar trebui să fie unite cu o linie numai dacă datele de pe axa x sunt cel puțin ordinale. O aplicație specială este trasarea unei distribuții de frecvență pentru datele interval / raport (fig.8).

imagine: grafice liniare

diagrame circulare

pentru a arăta contribuția procentuală la întregul raport/interval de date categorice, ordinale sau grupate.

Image: Pie chart

Scatter grafice

pentru a ilustra relația dintre două variabile, de orice tip (deși cele mai utile în cazul în care ambele variabile sunt Raport/interval în tip). De asemenea, util în identificarea oricăror observații neobișnuite în date.

 imagine: Scatter graph

cutie și mustăți plot

un grafic de specialitate care ilustrează tendința centrală și răspândirea unui set mare de date, inclusiv orice valori aberante.

imagine: cutie și mustăți plot

resurse

conectarea matematică
scurte explicații de termeni și idei matematice

statistici glosar
compilate de Valerie J. Easton și John H. McColl de la Universitatea din Glasgow

statsoft manual electronic

100 de teste statistice realizate de Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)

Oxford Dictionary of Statistics de Graham Upton și Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)

Lasă un răspuns

Adresa ta de email nu va fi publicată.