Slik…Velg riktig statistisk teknikk

Grunnleggende

begynn å tenke på teknikkene du vil bruke til analysen din før du samler inn data.

Hva vil du vite?

analysen må forholde seg til forskningsspørsmålene, og dette kan diktere hvilke teknikker du bør bruke.

Hvilken type data har du?

datatypen du har er også grunnleggende-teknikkene og verktøyene som passer til intervall-og forholdsvariabler, er ikke egnet for kategoriske eller ordinære tiltak. (Se hvordan samle inn data for notater om datatyper)

hvilke forutsetninger kan – og ikke-du gjøre?

Mange teknikker er avhengige av at prøvetakingsfordelingen av teststatistikken er En Normalfordeling (se nedenfor). Dette er alltid tilfelle når den underliggende distribusjonen av dataene Er Normal, men i praksis kan dataene Ikke Distribueres Normalt. For eksempel kan det være en lang hale av svar på den ene siden eller den andre(skjev data). Ikke-parametriske teknikker er tilgjengelige for bruk i slike situasjoner, men disse er uunngåelig mindre kraftige og mindre fleksible. Men hvis utvalgsstørrelsen er tilstrekkelig stor, Tillater Sentralgrenseteoremet bruk av standardanalysene og verktøyene.

Teknikker for en ikke-Normal fordeling

Parametrisk eller ikke-parametrisk statistikk?

Parametriske metoder og statistikk er avhengige av et sett av forutsetninger om den underliggende fordelingen for å gi gyldige resultater. Generelt krever de at variablene har En Normalfordeling.

Ikke-parametriske teknikker må brukes til kategoriske og ordinære data, men for intervall & forholdsdata er de generelt mindre kraftige og mindre fleksible, og bør bare brukes der standard, parametrisk test ikke er hensiktsmessig-for eksempel når prøvestørrelsen er liten (under 30 observasjoner).

Sentralgrenseteoremet

etter hvert som prøvestørrelsen øker, har formen på prøvetakingsfordelingen av teststatistikken en Tendens Til Å Bli Normal, selv om fordelingen av variabelen som testes ikke Er Normal.

i praksis kan dette brukes til teststatistikk beregnet ut fra mer enn 30 observasjoner.

 Bilde: Normalfordelingsfunksjonen

hvor mye kan du forvente å få ut av dataene dine?

jo mindre prøvestørrelsen er, desto mindre kan du få ut av dataene dine. Standardfeil er omvendt relatert til utvalgsstørrelse, så jo større prøven din er, desto mindre er standardfeilen, og jo større sjanse har du for å identifisere statistisk signifikante resultater i analysen.

Grunnleggende teknikker

generelt kan enhver teknikk som kan brukes på kategoriske data også brukes på ordinære data. Enhver teknikk som kan brukes på ordinære data kan også brukes på forholdet eller intervall data. Det motsatte er ikke tilfelle.

Beskrive dataene dine

det første trinnet i enhver analyse bør være å beskrive dataene dine, og dermed befolkningen som den er trukket fra. Statistikken som passer for denne aktiviteten, faller inn i tre brede grupper, og avhenger av hvilken type data du har.

Hva vil du gjøre? med hvilken type data? Passende teknikker
Se på fordelingen Kategorisk / Ordinær Plott prosentandelen
i hver kategori
(kolonne eller stolpediagram)
Ratio/Intervall Histogram
Kumulativ frekvens
diagram
Beskriv den sentrale tendensen Kategorisk n / a
Ordinær Median
Modus
Ratio / Intervall Gjennomsnitt
Median
Beskriv spredningen Kategorisk i / t
Ordenstall Område
interkvartilområde
Forhold / Intervall Område
interkvartilområde
Varians
Standardvariasjon

Se Grafisk presentasjon for beskrivelser av de viktigste grafiske teknikker.

Gjennomsnitt-det aritmetiske gjennomsnittet, beregnet ved å summere alle verdiene og dividere med antall verdier i summen.

Median – midtpunktet i fordelingen, hvor halvparten av verdiene er høyere og halv lavere.

Modus-den hyppigst forekommende verdien.

Område-forskjellen mellom høyeste og laveste verdi.

interkvartilområde-forskjellen mellom øvre kvartil (verdien der 25 prosent av observasjonene er høyere og 75 prosent lavere) og nedre kvartil (verdien der 75 prosent av observasjonene er høyere og 25 prosent lavere). Dette er spesielt nyttig der det er et lite antall ekstreme observasjoner mye høyere eller lavere enn flertallet.

Varians-et mål for spredning, beregnet som gjennomsnittet av de kvadrerte forskjellene i observasjonene fra deres gjennomsnitt.

Standardavvik-kvadratroten av variansen.

Forskjeller mellom grupper og variabler

Chi-squared test – brukes til å sammenligne distribusjoner av to eller flere sett med kategoriske eller ordinære data.

t-tester – brukes til å sammenligne middelene til to sett med data.

Wilcoxon U test-ikke-parametrisk ekvivalent av t-testen. Basert på rang rekkefølge av dataene, kan det også brukes til å sammenligne medianer.

ANOVA-analyse av varians, for å sammenligne middelene til mer enn to grupper av data.

Hva vil du gjøre? med hvilken type data? Passende teknikker
Sammenligne to grupper Kategorisk Kjikvadrert test
Ordinær Kjikvadrert test
wicoxon u test
Ratio/Intervall t-test for
uavhengige prøver
Sammenlign mer enn to grupper Kategorisk / Ordinær Kjikvadrert test
Forhold / Intervall ANOVA
Sammenlign to variabler
over det samme emner
Kategorisk / Ordinær Kjikvadrert test
Ratio/Intervall t-test for
avhengige prøver

Relasjoner mellom variabler

korrelasjonskoeffisienten måler graden av lineær sammenheng mellom to variabler, med en verdi i området +1 til -1. Positive verdier indikerer at de to variablene øker og reduseres sammen; negative verdier som den ene øker som den andre avtar. En korrelasjonskoeffisient på null indikerer ingen lineær sammenheng mellom de to variablene. Spearman rank-korrelasjonen er Den ikke-parametriske ekvivalenten Til Pearson-korrelasjonen.

Hva slags data? Passende teknikker
Kategorisk Chi-kvadrert test
Ordinær Chi-kvadrert test
Spearman rang
korrelasjon (Tau)
Forhold/Intervall Pearson
korrelasjon (Rho)

merk at korrelasjonsanalyser bare vil oppdage lineære forhold mellom to variabler. Figuren nedenfor illustrerer to små datasett hvor det er klart forhold mellom de to variablene. Korrelasjonen for det andre datasettet, hvor forholdet ikke er lineært, er imidlertid 0,0. En enkel korrelasjonsanalyse av disse dataene vil ikke foreslå noe forhold mellom tiltakene, når det tydeligvis ikke er tilfelle. Dette illustrerer viktigheten av å gjennomføre en rekke grunnleggende beskrivende analyser før du tar fatt på analyser av forskjeller og sammenhenger mellom variabler.

 Bilde: to små datasett der det er klart sammenhenger mellom de to variablene

testgyldighet

Signifikansnivåer

den statistiske signifikansen av en test er et mål på sannsynlighet – sannsynligheten for at du ville ha oppnådd det bestemte resultatet av testen på den prøven hvis nullhypotesen (at det ikke er noen effekt på grunn av parametrene som testes) du tester, var sant. Eksemplet nedenfor tester om score i en eksamen endres etter at kandidatene har fått opplæring. Hypotesen antyder at de burde, så nullhyopotesen er at de ikke vil.

generelt er et hvilket som helst nivå av sannsynlighet over 5 prosent (p>0,05) ikke ansett å være statistisk signifikant, og for store undersøkelser er 1 prosent (p>0,01) ofte tatt som et mer passende nivå.

merk at statistisk signifikans ikke betyr at resultatene du har oppnådd faktisk har verdi i sammenheng med din forskning. Hvis du har en stor nok prøve, kan en svært liten forskjell mellom grupper identifiseres som statistisk signifikant, men en så liten forskjell kan være irrelevant i praksis. På den annen side kan en tilsynelatende stor forskjell ikke være statistisk signifikant i et lite utvalg, på grunn av variasjonen i gruppene som sammenlignes.

Frihetsgrader

noen teststatistikker (f.eks. kjikvadrert) krever at antall frihetsgrader skal være kjent, for å teste for statistisk signifikans mot riktig sannsynlighetstabell. Kort sagt, frihetsgrader er antall verdier som kan tildeles vilkårlig i prøven.

for eksempel:

i en prøve av størrelse n delt inn i k-klasser, er det k-1 frihetsgrader (de første k-1-gruppene kan være av hvilken som helst størrelse opp til n, mens den siste er fastsatt av summen av den første k-1 og verdien av n. i numeriske termer, hvis en prøve på 500 personer er tatt FRA STORBRITANNIA, og det er observert at 300 er Fra England, 100 Fra Skottland og 50 Fra Wales, så må det være 50 fra nord-irland. Gitt tallene fra de tre første gruppene, er det ingen fleksibilitet i størrelsen på den endelige gruppen. Å dele prøven i fire grupper gir tre grader av frihet.

i en toveis beredskapstabell med p-rader og q-kolonner, er det (p-1)*(q-1) frihetsgrader (gitt verdiene til de første radene og kolonnene, den siste raden og kolonnen er begrenset av totalene i tabellen)

En-hale eller to-hale tester

Hvis, som det er vanlig, det som betyr noe, er ganske enkelt at statistikken for populasjonene er forskjellig, så er det bare å er hensiktsmessig å bruke de kritiske verdiene for en to-tailed test.

hvis du imidlertid bare er interessert i å finne ut om statistikken For populasjon A har en større verdi enn for populasjon B, vil en en-tailed test være hensiktsmessig. Den kritiske verdien for en en-tailed test er generelt lavere enn for en to-tailed test, og bør bare brukes hvis forskningshypotesen din er at populasjon A har en større verdi Enn populasjon B, og det spiller ingen rolle hvor forskjellige de er hvis populasjon A har en verdi som er mindre enn for populasjon B.

For eksempel

Scenario 1

Nullhypotesen – det er ingen forskjell i gjennomsnittlig eksamensresultat før og etter trening (dvs.trening har ingen effekt på eksamensresultatet)
Alternativ – det er forskjell i gjennomsnittlig score før og etter trening (dvs. trening har en uspesifisert effekt)
Bruk en to-tail test

scenario 2

nullhypotesen – trening øker ikke middelverdien
Alternativ – Middelverdien Øker Etter Trening
bruk en enhaletest hvis det er observert økning i middelverdien.
(hvis det er et observert fall i score, er det ikke nødvendig å teste, da du ikke kan avvise nullhypotesen.)

Scenario 3

Nullhypotesen – Trening fører ikke til at gjennomsnittlig score faller
Alternativ – Gjennomsnittlig score faller etter trening
Bruk en enhaletest hvis det er observert fall i gjennomsnittlig score.
(hvis det er en observert økning i score, er det ikke nødvendig å teste, da du ikke kan avvise nullhypotesen.)

t-Test: Paired To Prøve For Midler
Før Etter
Gjennomsnittlig
Varians

46,547

46,830

Observasjoner
Frihetsgrader (df))
t Stat
P (T< =t) en-hale
T Kritisk one-tail
P(T < =t) to-hale
T Kritisk to-hale

Hvis de ovennevnte testresultatene ble oppnådd, kan du under scenario 1, ved hjelp av en to-tail test, konkludere med at det ikke var statistisk signifikant forskjell mellom resultatene (p=0,08), og som en konsekvens at treningen ikke hadde noen effekt. På samme måte, under scenario 3, vil du konkludere med at det ikke er noe som tyder på at trening fører til at gjennomsnittlig score faller, da de faktisk har steget. Men under scenario 2, ved hjelp av en en-tail test, ville du konkludere med at det var en økning i gjennomsnittlig score, statistisk signifikant på 5 prosent nivå (p=0,04).

en siste advarsel!

Statistiske pakker vil gjøre det du forteller dem, i det hele tatt. De vet ikke om dataene du har oppgitt er av god kvalitet, eller (med noen få unntak) om de er av en passende type for analysen du har foretatt.

Søppel inn = Søppel ut!

Avanserte teknikker

disse verktøyene og teknikkene har spesialiserte applikasjoner,og vil generelt bli utformet i forskningsmetodikken på et tidlig stadium, før data samles inn. Hvis du vurderer å bruke noen av disse, kan det være lurt å konsultere en spesialist tekst eller en erfaren statistiker før du begynner.

i hvert tilfelle gir vi noen eksempler På Smaragdartikler som bruker teknikken.

Faktoranalyse

for å redusere antall variabler for senere analyse ved å lage kombinasjoner av de opprinnelige variablene målt som står for så mye av den opprinnelige variansen som mulig, men tillater enklere tolkning av resultatene. Vanligvis brukes til å lage et lite sett med dimensjonsvurderinger fra et stort antall menings uttalelser individuelt vurdert På Likert skalaer. Du må ha flere observasjoner (fag) enn du har variabler som skal analyseres.

for eksempel

En Variabel Likert-skala: «Jeg liker å spise sjokoladeis til frokost»

Helt enig

sterkt uenig

en faktoranalyse av Page og Wongs servant leadership instrument
Rob Dennis Og Bruce E. Winston
Leadership &Organization Development Journal, vol. 24 nr. 8

Forstå faktorer for benchmarking adopsjon: Nye bevis Fra Malaysia
Yean Pin Lee, Suhaiza Zailani Og Keng Lin Soh
Benchmarking: Et Internasjonalt Tidsskrift, vol. 13 nr. 5

Klyngeanalyse

for å klassifisere fag i grupper med lignende egenskaper, i henhold til verdiene av de målte variablene. Du må ha flere observasjoner enn du har variabler inkludert i analysen.

Organisk produktunngåelse: Årsaker til avvisning og potensielle kjøpernes identifikasjon i en landsomfattende undersøkelse
C. Fotopoulos Og A. Krystallis
British Food Journal, vol. 104 nr. 3/4/5

Påvisning av økonomisk nød via multivariat statistisk analyse
S. Gamesalingam Og Kuldeep Kumar
Ledelsesfinansiering, vol. 27 nr. 4

Diskriminantanalyse

for å identifisere de variablene som best diskriminerer mellom kjente grupper av forsøkspersoner. Resultatene kan brukes til å tildele nye fag til de kjente gruppene basert på deres verdier av de diskriminerende variablene

Påvisning av økonomisk nød via multivariat statistisk analyse
S. Gamesalingam og Kuldeep Kumar
Managerial Finance, vol. 27 nr. 4

Forstå faktorer for benchmarking adopsjon: Nye bevis Fra Malaysia
Yean Pin Lee, Suhaiza Zailani Og Keng Lin Soh
Benchmarking: An International Journal , vol. 13 nr. 5

Metodikk

Diskriminantanalyse ble brukt for å avgjøre om det foreligger statistisk signifikante forskjeller mellom den gjennomsnittlige skåringsprofilen på et sett med variabler for to a priori definerte grupper og dermed gjorde det mulig å klassifisere dem. Dessuten kan det bidra til å avgjøre hvilken av de uavhengige variablene som står mest for forskjellene i gjennomsnittsprofilene til de to gruppene. I denne studien var diskriminantanalyse hovedinstrumentet for å klassifisere benchmarking adopter og ikke-adopter. Det ble også benyttet for å bestemme hvilke av de uavhengige variablene som ville bidra til benchmarking adopsjon.

Regresjon

for å modellere hvordan en, avhengig, variabel oppfører seg avhengig av verdiene til et sett med andre, uavhengige variabler. Den avhengige variabelen må være intervall eller forhold i type; de uavhengige variablene kan være av hvilken som helst type, men spesielle metoder må brukes når kategoriske eller ordinære uavhengige variabler skal inkluderes i analysen.

Utviklingen i melk markedsføring I England og Wales i løpet av 1990-tallet
Jeremy Franks
British Food Journal, vol. 103 nr. 9

Trening under ild: forholdet mellom hindringer som møter trening Og Smb’ s utvikling I Palestina
Mohammed Al Madhoun
Journal Of European Industrial Training, vol. 30 nr.2

tidsserieanalyse

for å undersøke mønstre og trender i en variabel målt regelmessig over en tidsperiode. Kan også brukes til å identifisere og justere for sesongvariasjoner, for eksempel i finansstatistikk.

en analyse Av trender Og sykliske atferd av boligprisene I De Asiatiske markedene
Ming-Chi Chen, Yuichiro Kawaguchi Og Kanak Patel
Journal Of Property Investment & Finans, vol. 22 no. 1

Grafisk presentasjon

Presentasjon av data i grafisk form kan øke tilgjengeligheten av resultatene dine til et ikke-teknisk publikum, og markere effekter og resultater som ellers ville kreve lang forklaring eller komplekse tabeller. Det er derfor viktig at passende grafiske teknikker brukes. Denne delen gir eksempler pa noen av de mest brukte grafiske presentasjonene, og angir nar de kan brukes. Alle, unntatt histogrammet, er produsert Ved Bruk Av Microsoft Excel®

Kolonne-eller stolpediagrammer

det er fire hovedvarianter,og om du viser dataene i vannrette streker eller loddrette kolonner, er det i stor grad et spørsmål om personlig preferanse.

Histogram

for å illustrere en frekvensfordeling i kategoriske eller ordinære data, eller gruppert ratio/intervall data. Vanligvis vises som en kolonne graf.

 Bilde: Histogram

Gruppert kolonne/stolpe

for å sammenligne kategoriske, ordinære eller grupperte ratio/intervall data på tvers av kategorier. Dataene som brukes i fig 4 er de samme Som I Fig 5 og 6.

 Bilde: Gruppert kolonne / stolpe

stablet kolonne/stolpe

for å illustrere det faktiske bidraget til totalen for kategoriske, ordinære eller grupperte ratio/intervalldata etter kategorier. Dataene som brukes I Fig 5 er de samme Som I Fig 4 og 6.

 Bilde: Stablet kolonne/stolpe

Prosent stablet kolonne/stolpe

for å sammenligne prosentvis bidrag til totalen for kategoriske, ordinære eller grupperte ratio/intervall data på tvers av kategorier. Dataene som brukes i fig 6 er de samme som I Fig 4 og 5.

 Bilde: prosent stablet kolonne / stolpe

Linjediagrammer

for å vise trender i ordinal-eller ratio/intervalldata. Poeng på en graf bør bare slås sammen med en linje hvis dataene på x-aksen er minst ordinære. En spesiell applikasjon er å plotte en frekvensfordeling for intervall/forholdsdata (figur 8).

 Bilde: Linjediagrammer

Sektordiagrammer

for å vise prosentvis bidrag til hele kategoriske, ordinære eller grupperte ratio/intervall data.

 Bilde: Sektordiagram

Punktgrafer

for å illustrere forholdet mellom to variabler, av hvilken som helst type (selv om de er mest nyttige der begge variablene er forhold/intervall i type). Også nyttig i identifisering av eventuelle uvanlige observasjoner i dataene.

 Bilde: Punktdiagram

boks-og whiskerplott

en spesialgraf som illustrerer den sentrale tendensen og spredningen til et stort datasett, inkludert eventuelle uteliggere.

Bilde: Box og whisker plot

Ressurser

Koble Matematikk
Korte forklaringer av matematiske termer og ideer

Statistikk Ordliste
utarbeidet Av Valerie J. Easton Og John H. McColl Av Glasgow University

Statsoft elektronisk lærebok

100 statistiske tester av gopal K. Kanji
(Sage, 1993, ISBN 141292376X)

Oxford Dictionary Of Statistics av Graham Upton Og Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.