- Fundamente
- ce vrei să știi?
- ce tip de date aveți?
- ce ipoteze pot – și nu pot – să faceți?
- tehnici pentru o distribuție non-normală
- statistici parametrice sau non-parametrice?
- teorema limitei centrale
- cât de mult vă puteți aștepta să ieșiți din datele dvs.?
- tehnici de bază
- descrierea datelor dvs.
- diferențe între grupuri și variabile
- relațiile dintre variabile
- validitatea testării
- niveluri de semnificație
- grade de libertate
- de exemplu:
- teste cu o coadă sau două cozi
- de exemplu
- un ultim avertisment!
- tehnici avansate
- analiza factorilor
- de exemplu
- analiză Cluster
- analiză discriminantă
- regresie
- analiza seriilor de timp
- prezentare grafică
- diagrame de coloane sau bare
- histogramă
- coloană/bară grupată
- coloană/bară stivuită
- coloană/bară stivuită procentuală
- grafice liniare
- diagrame circulare
- Scatter grafice
- cutie și mustăți plot
- resurse
Fundamente
începeți să vă gândiți la tehnicile pe care le veți folosi pentru analiză înainte de a colecta date.
ce vrei să știi?
analiza trebuie să se refere la întrebările de cercetare, iar acest lucru poate dicta tehnicile pe care ar trebui să le utilizați.
ce tip de date aveți?
tipul de date pe care îl aveți este, de asemenea, fundamental – tehnicile și instrumentele adecvate variabilelor de interval și raport nu sunt potrivite pentru măsuri categorice sau ordinale. (A se vedea cum se colectează date pentru note privind tipurile de date)
ce ipoteze pot – și nu pot – să faceți?
multe tehnici se bazează pe distribuția eșantionării statisticii testului fiind o distribuție normală (a se vedea mai jos). Acesta este întotdeauna cazul atunci când distribuția subiacentă a datelor este normală, dar, în practică, este posibil ca datele să nu fie distribuite în mod normal. De exemplu, ar putea exista o coadă lungă de răspunsuri la o parte sau la alta (date înclinate). Tehnicile non-parametrice sunt disponibile pentru a fi utilizate în astfel de situații, dar acestea sunt inevitabil mai puțin puternice și mai puțin flexibile. Cu toate acestea, dacă dimensiunea eșantionului este suficient de mare, teorema limitei centrale permite utilizarea analizelor și instrumentelor standard.
tehnici pentru o distribuție non-normală
statistici parametrice sau non-parametrice?
metodele parametrice și statisticile se bazează pe un set de ipoteze cu privire la distribuția subiacentă pentru a da rezultate valide. În general, ele necesită ca variabilele să aibă o distribuție normală.
tehnicile neparametrice trebuie utilizate pentru datele categorice și ordinale, dar pentru datele raportului interval & acestea sunt, în general, mai puțin puternice și mai puțin flexibile și ar trebui utilizate numai atunci când testul standard, parametric, nu este adecvat-de exemplu, atunci când dimensiunea eșantionului este mică (sub 30 de observații).
teorema limitei centrale
pe măsură ce mărimea eșantionului crește, forma distribuției eșantionării statisticii testului tinde să devină normală, chiar dacă distribuția variabilei testate nu este normală.
în practică, acest lucru poate fi aplicat statisticilor de testare calculate din mai mult de 30 de observații.
cât de mult vă puteți aștepta să ieșiți din datele dvs.?
cu cât dimensiunea eșantionului este mai mică, cu atât mai puțin puteți ieși din datele dvs. Eroarea Standard este invers legată de dimensiunea eșantionului, deci cu cât eșantionul dvs. este mai mare, cu atât eroarea standard este mai mică și cu atât veți avea șanse mai mari de a identifica rezultate semnificative statistic în analiza dvs.
tehnici de bază
în general, orice tehnică care poate fi utilizată pe date categorice poate fi utilizată și pe date ordinale. Orice tehnică care poate fi utilizată pe date ordinale poate fi utilizată și pe date de raport sau interval. Reversul nu este cazul.
descrierea datelor dvs.
prima etapă a oricărei analize ar trebui să fie descrierea datelor dvs. și, prin urmare, populația din care sunt extrase. Statisticile adecvate pentru această activitate se încadrează în trei grupuri largi și depind de tipul de date pe care le aveți.
ce vrei să faci? | cu ce tip de date? | tehnici adecvate |
---|---|---|
Uită-te la distribuția | categorică/ordinală | trasați procentul în fiecare categorie (coloană sau diagramă de bare) |
raport / Interval | histograma frecvența cumulativă diagrama |
|
descrieți tendința centrală |
categorică | n / a |
Ordinal | mediană mod |
|
raport / Interval | medie mediană |
|
descrieți răspândirea | categorică | n / a |
Ordinal | interval interval inter-quartile |
|
raport / Interval | interval interval inter-quartile variație variație Standard |
a se vedea prezentarea grafică pentru descrieri ale principalelor tehnici grafice.
medie – media aritmetică, calculată prin însumarea tuturor valorilor și împărțirea la numărul de Valori din sumă.
Median – punctul mediu al distribuției, unde jumătate din valori sunt mai mari și jumătate mai mici.
Mod – valoarea cea mai frecventă.
interval – diferența dintre cea mai mare și cea mai mică valoare.
intervalul inter-quartilei – diferența dintre quartila superioară (valoarea în care 25% din observații sunt mai mari și 75% mai mici) și quartila inferioară (valoarea în care 75% din observații sunt mai mari și 25% mai mici). Acest lucru este deosebit de util atunci când există un număr mic de observații extreme mult mai mari sau mai mici decât majoritatea.
varianța – o măsură a răspândirii, calculată ca medie a diferențelor pătrate ale observațiilor față de media lor.
deviația Standard – rădăcina pătrată a varianței.
diferențe între grupuri și variabile
testul Chi-pătrat – utilizat pentru a compara distribuțiile a două sau mai multe seturi de date categorice sau ordinale.
t-teste – utilizate pentru a compara mijloacele a două seturi de date.
testul Wilcoxon U – echivalent neparametric al testului T. Pe baza ordinii de rang a datelor, poate fi folosit și pentru a compara mediile.
ANOVA – analiza varianței, pentru a compara mijloacele a mai mult de două grupuri de date.
ce vrei să faci? | cu ce tip de date? | tehnici adecvate |
---|---|---|
comparați două grupuri | categoric | testul Chi-pătrat |
Ordinal | testul Chi-pătrat testul Wicoxon U |
|
raport / Interval | test t pentru probe independente |
|
comparați mai mult de două grupuri | categoric / Ordinal | testul Chi-pătrat |
raport / Interval | ANOVA | |
comparați două variabile peste aceeași subiecți |
categoric / Ordinal | testul Chi-pătrat |
raport / Interval | test t pentru probe dependente |
relațiile dintre variabile
coeficientul de corelație măsoară gradul de asociere liniară între două variabile, cu o valoare cuprinsă între +1 și -1. Valorile pozitive indică faptul că cele două variabile cresc și scad împreună; valori negative pe care una le crește pe măsură ce cealaltă scade. Un coeficient de corelație zero nu indică nicio relație liniară între cele două variabile. Corelația rangului Spearman este echivalentul non-parametric al corelației Pearson.
ce tip de date? | tehnici adecvate |
---|---|
categoric | testul Chi-pătrat |
Ordinal | testul Chi-pătrat Spearman rank corelație (Tau) |
raport / Interval | Pearson corelație (Rho) |
rețineți că analizele de corelație vor detecta doar relații liniare între două variabile. Figura de mai jos ilustrează două seturi mici de date în care există în mod clar relații între cele două variabile. Cu toate acestea, corelația pentru al doilea set de date, unde relația nu este liniară, este de 0,0. O simplă analiză de corelare a acestor date nu ar sugera nicio relație între măsuri, atunci când acest lucru nu este în mod clar cazul. Aceasta ilustrează importanța efectuării unei serii de analize descriptive de bază înainte de a începe analize ale diferențelor și relațiilor dintre variabile.
validitatea testării
niveluri de semnificație
semnificația statistică a unui test este o măsură a probabilității – probabilitatea că ați fi obținut acel rezultat special al testului pe acel eșantion dacă ipoteza nulă (că nu există niciun efect din cauza parametrilor testați) pe care îl testați a fost adevărată. Exemplul de mai jos testează dacă scorurile la un examen se schimbă după ce candidații au primit instruire. Ipoteza sugerează că ar trebui, deci hyopoteza nulă este că nu vor.
în general, orice nivel de probabilitate peste 5% (p>0,05) nu este considerat a fi semnificativ statistic, iar pentru sondajele mari 1% (p>0,01) este adesea luat ca un nivel mai adecvat.
rețineți că semnificația statistică nu înseamnă că rezultatele pe care le-ați obținut au de fapt valoare în contextul cercetării dvs. Dacă aveți un eșantion suficient de mare, o diferență foarte mică între grupuri poate fi identificată ca fiind semnificativă statistic, dar o diferență atât de mică poate fi irelevantă în practică. Pe de altă parte, o diferență aparent mare poate să nu fie semnificativă statistic într-un eșantion mic, datorită variației în cadrul grupurilor comparate.
grade de libertate
unele statistici de testare (de exemplu, chi-pătrat) necesită ca numărul de grade de libertate să fie cunoscut, pentru a testa semnificația statistică în raport cu tabelul de probabilitate corect. Pe scurt, gradele de libertate reprezintă numărul de valori care pot fi atribuite arbitrar în cadrul eșantionului.
de exemplu:
într-un eșantion de mărime n împărțit în clase k, există grade de libertate k-1 (primele grupuri k-1 ar putea fi de orice dimensiune până la n, în timp ce ultima este fixată de totalul primului k-1 și valoarea lui n. în termeni numerici, dacă un eșantion de 500 de indivizi este luat din Marea Britanie și se observă că 300 sunt din Anglia, 100 din Scoția și 50 din țara Galilor, atunci trebuie să existe o fii 50 din Irlanda de Nord. Având în vedere numerele din primele trei grupuri, nu există flexibilitate în dimensiunea grupului final. Împărțirea eșantionului în patru grupe oferă trei grade de libertate.
într-un tabel de urgență bidirecțional cu rânduri p și coloane q, există (p-1)*(q-1) grade de libertate (având în vedere valorile primelor rânduri și coloane, ultimul rând și coloană sunt constrânse de totalurile din tabel)
teste cu o coadă sau două cozi
dacă, așa cum se întâmplă în general, ceea ce contează este pur și simplu că statisticile pentru populații sunt diferite, atunci este adecvat să se utilizeze valorile critice pentru un test cu două cozi.
dacă, totuși, sunteți interesat doar să aflați dacă Statistica pentru populația a are o valoare mai mare decât cea pentru populația B, atunci ar fi adecvat un test cu o singură coadă. Valoarea critică pentru un test cu o singură coadă este în general mai mică decât pentru un test cu două cozi și ar trebui utilizată numai dacă ipoteza dvs. de cercetare este că populația a are o valoare mai mare decât populația B și nu contează cât de diferite sunt dacă populația A are o valoare mai mică decât cea pentru populația B.
de exemplu
Scenariul 1
ipoteza nulă – nu există nicio diferență în scorurile medii la examen înainte și după antrenament (adică antrenamentul nu are niciun efect asupra scorului la examen)
alternativă – există o diferență în scorurile medii înainte și după antrenament (adică antrenamentul are un efect nespecificat)
folosiți un test cu două cozi
scenariul 2
ipoteza nulă-antrenamentul nu crește scorul mediu
alternativ – Scorul mediu crește după antrenament
utilizați un test cu o singură coadă, dacă se observă o creștere a scorului mediu.
(dacă există o scădere observată a scorurilor, nu este nevoie să testați, deoarece nu puteți respinge ipoteza nulă.)
scenariul 3
ipoteza nulă – antrenamentul nu determină scăderea scorurilor medii
alternativ – scăderea scorului mediu după antrenament
utilizați un test cu o singură coadă, dacă se observă o scădere a scorului mediu.
(dacă există o creștere observată a scorurilor, nu este nevoie să testați, deoarece nu puteți respinge ipoteza nulă.)
înainte de | după | |
medie | ||
varianță |
46,547 |
46,830 |
observații | ||
grade de libertate (df) | ||
t Stat | ||
P (T< = t) o coadă | ||
t critică o coadă | ||
P(T < = t) cu două cozi | ||
t critică cu două cozi |
dacă s-au obținut rezultatele testului de mai sus, atunci în scenariul 1, Folosind un test cu două cozi, s-ar putea concluziona că nu a existat o diferență semnificativă statistic între scoruri (p=0,08) și, în consecință, că antrenamentul nu a avut niciun efect. În mod similar, în scenariul 3, ați concluziona că nu există dovezi care să sugereze că formarea determină scăderea scorurilor medii, deoarece acestea au crescut de fapt. Cu toate acestea, în scenariul 2, folosind un test cu o singură coadă, ați concluziona că a existat o creștere a scorurilor medii, semnificative statistic la nivelul de 5% (p=0,04).
un ultim avertisment!
pachetele statistice vor face ceea ce le spuneți, în ansamblu. Ei nu știu dacă datele pe care le-ați furnizat sunt de bună calitate sau (cu foarte puține excepții) dacă sunt de tip adecvat pentru analiza pe care ați întreprins-o.
gunoi în = gunoi afară!
tehnici avansate
aceste instrumente și tehnici au aplicații specializate și, în general, vor fi proiectate în metodologia de cercetare într-un stadiu incipient, înainte de colectarea oricăror date. Dacă vă gândiți să utilizați oricare dintre acestea, vă recomandăm să consultați un text de specialitate sau un statistician cu experiență înainte de a începe.
în fiecare caz, dăm câteva exemple de articole de smarald care folosesc tehnica.
analiza factorilor
pentru a reduce numărul de variabile pentru analiza ulterioară prin crearea de combinații ale variabilelor originale măsurate care reprezintă cât mai mult din varianța inițială posibil, dar permit o interpretare mai ușoară a rezultatelor. Utilizat în mod obișnuit pentru a crea un set mic de evaluări de dimensiuni dintr-un număr mare de declarații de opinie evaluate individual pe scale Likert. Trebuie să aveți mai multe observații (subiecte) decât aveți variabile de analizat.
de exemplu
o variabilă la scară Likert: „Îmi place să mănânc înghețată de ciocolată la micul dejun”
puternic de acord |
nu sunt de acord |
o analiză a factorilor instrumentului de conducere al lui Page și Wong
Rob Dennis și Bruce E. Winston
Leadership & Organization Development Journal , vol. 24 no. 8
factori de înțelegere pentru adoptarea benchmarking: noi dovezi din Malaezia
Yean Pin Lee, Suhaiza Zailani și Keng Lin Soh
Benchmarking: Un jurnal internațional, vol. 13 nr. 5
analiză Cluster
pentru clasificarea subiecților în grupe cu caracteristici similare, în funcție de valorile variabilelor măsurate. Trebuie să aveți mai multe observații decât aveți variabile incluse în analiză.
evitarea produselor ecologice: motivele respingerii și identificarea potențialilor cumpărători într-un sondaj la nivel național
C. Fotopoulos și A. Krystallis
British Food Journal, vol. 104 nr. 3/4/5
detectarea dificultăților financiare prin analiza statistică multivariată
S. Gamesalingam și Kuldeep Kumar
Finanțe manageriale, vol. 27 nr. 4
analiză discriminantă
pentru identificarea acelor variabile care diferențiază cel mai bine între grupurile cunoscute de subiecți. Rezultatele pot fi utilizate pentru a aloca noi subiecți grupurilor cunoscute pe baza valorilor variabilelor discriminatorii
detectarea stresului financiar prin analiza statistică multivariată
S. Gamesalingam și Kuldeep Kumar
Managerial Finance, vol. 27 nr. 4
factorii de înțelegere pentru adoptarea benchmarking: Noi dovezi din Malaezia
Yean Pin Lee, Suhaiza Zailani și Keng Lin Soh
Benchmarking: an International Journal , vol. 13 nr. 5
metodologia
analiza discriminantă a fost utilizată pentru a determina dacă există diferențe semnificative statistic între profilul scorului mediu pe un set de variabile pentru două grupuri a priori definite și astfel a permis clasificarea acestora. În plus, ar putea ajuta la determinarea care dintre variabilele independente reprezintă cel mai mult diferențele dintre profilurile medii de scor ale celor două grupuri. În acest studiu, analiza discriminantă a fost principalul instrument de clasificare a adoptatorului de benchmarking și a non-adoptatorului. De asemenea, a fost utilizată pentru a determina care dintre variabilele independente ar contribui la adoptarea analizei comparative.
regresie
pentru a modela modul în care o variabilă dependentă se comportă în funcție de valorile unui set de alte variabile independente. Variabila dependentă trebuie să fie interval sau raport în tip; variabilele independente pot fi de orice tip, dar trebuie utilizate metode speciale atunci când se includ variabile independente categorice sau ordinale în analiză.
evoluții în comercializarea laptelui în Anglia și țara Galilor în anii 1990
Jeremy Franks
British Food Journal, vol. 103 nr. 9
Training under fire: relația dintre obstacolele cu care se confruntă formarea și dezvoltarea IMM-urilor în Palestina
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2
analiza seriilor de timp
pentru a investiga tiparele și tendințele unei variabile măsurate regulat pe o perioadă de timp. Poate fi, de asemenea, utilizat pentru a identifica și ajusta variațiile sezoniere, de exemplu în statisticile financiare.
o analiză a tendințelor și comportamentelor ciclice ale prețurilor locuințelor pe piețele asiatice
Ming-Chi Chen, Yuichiro Kawaguchi și Kanak Patel
Journal of Property Investment & Finance, vol. 22 nr. 1
prezentare grafică
prezentarea datelor în formă grafică poate crește accesibilitatea rezultatelor dvs. la un public non-tehnic și poate evidenția efecte și rezultate care altfel ar necesita explicații îndelungate sau tabele complexe. Prin urmare, este important să se utilizeze tehnici grafice adecvate. Această secțiune oferă exemple de unele dintre cele mai frecvent utilizate prezentări grafice, și indică atunci când acestea pot fi utilizate. Toate, cu excepția histogramei,au fost produse folosind Microsoft Excel.
diagrame de coloane sau bare
există patru variante principale și dacă afișați datele în bare orizontale sau coloane verticale este în mare parte o chestiune de preferință personală.
histogramă
pentru a ilustra o distribuție de frecvență în date categorice sau ordinale sau date de raport/interval grupate. De obicei, afișat ca un grafic coloană.
coloană/bară grupată
pentru a compara datele categorice, ordinale sau grupate în raport/interval pe categorii. Datele utilizate în fig 4 sunt aceleași cu cele din Fig 5 și 6.
coloană/bară stivuită
pentru a ilustra contribuția efectivă la total pentru datele categorice, ordinale sau grupate pe categorii. Datele utilizate în Fig 5 sunt aceleași cu cele din Fig 4 și 6.
coloană/bară stivuită procentuală
pentru a compara contribuția procentuală la total pentru datele categorice, ordinale sau grupate în raport/interval pe categorii. Datele utilizate în fig 6 sunt aceleași cu cele din Fig 4 și 5.
grafice liniare
pentru a arăta tendințele datelor ordinale sau ale raportului/intervalului. Punctele de pe un grafic ar trebui să fie unite cu o linie numai dacă datele de pe axa x sunt cel puțin ordinale. O aplicație specială este trasarea unei distribuții de frecvență pentru datele interval / raport (fig.8).
diagrame circulare
pentru a arăta contribuția procentuală la întregul raport/interval de date categorice, ordinale sau grupate.
Scatter grafice
pentru a ilustra relația dintre două variabile, de orice tip (deși cele mai utile în cazul în care ambele variabile sunt Raport/interval în tip). De asemenea, util în identificarea oricăror observații neobișnuite în date.
cutie și mustăți plot
un grafic de specialitate care ilustrează tendința centrală și răspândirea unui set mare de date, inclusiv orice valori aberante.
resurse
conectarea matematică
scurte explicații de termeni și idei matematice
statistici glosar
compilate de Valerie J. Easton și John H. McColl de la Universitatea din Glasgow
statsoft manual electronic
100 de teste statistice realizate de Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)
Oxford Dictionary of Statistics de Graham Upton și Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)