- Grunnleggende
- Hva vil du vite?
- Hvilken type data har du?
- hvilke forutsetninger kan – og ikke-du gjøre?
- Teknikker for en ikke-Normal fordeling
- Parametrisk eller ikke-parametrisk statistikk?
- Sentralgrenseteoremet
- hvor mye kan du forvente å få ut av dataene dine?
- Grunnleggende teknikker
- Beskrive dataene dine
- Forskjeller mellom grupper og variabler
- Relasjoner mellom variabler
- testgyldighet
- Signifikansnivåer
- Frihetsgrader
- for eksempel:
- En-hale eller to-hale tester
- For eksempel
- en siste advarsel!
- Avanserte teknikker
- Faktoranalyse
- for eksempel
- Klyngeanalyse
- Diskriminantanalyse
- Regresjon
- tidsserieanalyse
- Grafisk presentasjon
- Kolonne-eller stolpediagrammer
- Histogram
- Gruppert kolonne/stolpe
- stablet kolonne/stolpe
- Prosent stablet kolonne/stolpe
- Linjediagrammer
- Sektordiagrammer
- Punktgrafer
- boks-og whiskerplott
- Ressurser
Grunnleggende
begynn å tenke på teknikkene du vil bruke til analysen din før du samler inn data.
Hva vil du vite?
analysen må forholde seg til forskningsspørsmålene, og dette kan diktere hvilke teknikker du bør bruke.
Hvilken type data har du?
datatypen du har er også grunnleggende-teknikkene og verktøyene som passer til intervall-og forholdsvariabler, er ikke egnet for kategoriske eller ordinære tiltak. (Se hvordan samle inn data for notater om datatyper)
hvilke forutsetninger kan – og ikke-du gjøre?
Mange teknikker er avhengige av at prøvetakingsfordelingen av teststatistikken er En Normalfordeling (se nedenfor). Dette er alltid tilfelle når den underliggende distribusjonen av dataene Er Normal, men i praksis kan dataene Ikke Distribueres Normalt. For eksempel kan det være en lang hale av svar på den ene siden eller den andre(skjev data). Ikke-parametriske teknikker er tilgjengelige for bruk i slike situasjoner, men disse er uunngåelig mindre kraftige og mindre fleksible. Men hvis utvalgsstørrelsen er tilstrekkelig stor, Tillater Sentralgrenseteoremet bruk av standardanalysene og verktøyene.
Teknikker for en ikke-Normal fordeling
Parametrisk eller ikke-parametrisk statistikk?
Parametriske metoder og statistikk er avhengige av et sett av forutsetninger om den underliggende fordelingen for å gi gyldige resultater. Generelt krever de at variablene har En Normalfordeling.
Ikke-parametriske teknikker må brukes til kategoriske og ordinære data, men for intervall & forholdsdata er de generelt mindre kraftige og mindre fleksible, og bør bare brukes der standard, parametrisk test ikke er hensiktsmessig-for eksempel når prøvestørrelsen er liten (under 30 observasjoner).
Sentralgrenseteoremet
etter hvert som prøvestørrelsen øker, har formen på prøvetakingsfordelingen av teststatistikken en Tendens Til Å Bli Normal, selv om fordelingen av variabelen som testes ikke Er Normal.
i praksis kan dette brukes til teststatistikk beregnet ut fra mer enn 30 observasjoner.
hvor mye kan du forvente å få ut av dataene dine?
jo mindre prøvestørrelsen er, desto mindre kan du få ut av dataene dine. Standardfeil er omvendt relatert til utvalgsstørrelse, så jo større prøven din er, desto mindre er standardfeilen, og jo større sjanse har du for å identifisere statistisk signifikante resultater i analysen.
Grunnleggende teknikker
generelt kan enhver teknikk som kan brukes på kategoriske data også brukes på ordinære data. Enhver teknikk som kan brukes på ordinære data kan også brukes på forholdet eller intervall data. Det motsatte er ikke tilfelle.
Beskrive dataene dine
det første trinnet i enhver analyse bør være å beskrive dataene dine, og dermed befolkningen som den er trukket fra. Statistikken som passer for denne aktiviteten, faller inn i tre brede grupper, og avhenger av hvilken type data du har.
Hva vil du gjøre? | med hvilken type data? | Passende teknikker |
---|---|---|
Se på fordelingen | Kategorisk / Ordinær | Plott prosentandelen i hver kategori (kolonne eller stolpediagram) |
Ratio/Intervall | Histogram Kumulativ frekvens diagram |
|
Beskriv den sentrale tendensen | Kategorisk | n / a |
Ordinær | Median Modus |
|
Ratio / Intervall | Gjennomsnitt Median |
|
Beskriv spredningen | Kategorisk | i / t |
Ordenstall | Område interkvartilområde |
|
Forhold / Intervall | Område interkvartilområde Varians Standardvariasjon |
Se Grafisk presentasjon for beskrivelser av de viktigste grafiske teknikker.
Gjennomsnitt-det aritmetiske gjennomsnittet, beregnet ved å summere alle verdiene og dividere med antall verdier i summen.
Median – midtpunktet i fordelingen, hvor halvparten av verdiene er høyere og halv lavere.
Modus-den hyppigst forekommende verdien.
Område-forskjellen mellom høyeste og laveste verdi.
interkvartilområde-forskjellen mellom øvre kvartil (verdien der 25 prosent av observasjonene er høyere og 75 prosent lavere) og nedre kvartil (verdien der 75 prosent av observasjonene er høyere og 25 prosent lavere). Dette er spesielt nyttig der det er et lite antall ekstreme observasjoner mye høyere eller lavere enn flertallet.
Varians-et mål for spredning, beregnet som gjennomsnittet av de kvadrerte forskjellene i observasjonene fra deres gjennomsnitt.
Standardavvik-kvadratroten av variansen.
Forskjeller mellom grupper og variabler
Chi-squared test – brukes til å sammenligne distribusjoner av to eller flere sett med kategoriske eller ordinære data.
t-tester – brukes til å sammenligne middelene til to sett med data.
Wilcoxon U test-ikke-parametrisk ekvivalent av t-testen. Basert på rang rekkefølge av dataene, kan det også brukes til å sammenligne medianer.
ANOVA-analyse av varians, for å sammenligne middelene til mer enn to grupper av data.
Hva vil du gjøre? | med hvilken type data? | Passende teknikker |
---|---|---|
Sammenligne to grupper | Kategorisk | Kjikvadrert test |
Ordinær | Kjikvadrert test wicoxon u test |
|
Ratio/Intervall | t-test for uavhengige prøver |
|
Sammenlign mer enn to grupper | Kategorisk / Ordinær | Kjikvadrert test |
Forhold / Intervall | ANOVA | |
Sammenlign to variabler over det samme emner |
Kategorisk / Ordinær | Kjikvadrert test |
Ratio/Intervall | t-test for avhengige prøver |
Relasjoner mellom variabler
korrelasjonskoeffisienten måler graden av lineær sammenheng mellom to variabler, med en verdi i området +1 til -1. Positive verdier indikerer at de to variablene øker og reduseres sammen; negative verdier som den ene øker som den andre avtar. En korrelasjonskoeffisient på null indikerer ingen lineær sammenheng mellom de to variablene. Spearman rank-korrelasjonen er Den ikke-parametriske ekvivalenten Til Pearson-korrelasjonen.
Hva slags data? | Passende teknikker |
---|---|
Kategorisk | Chi-kvadrert test |
Ordinær | Chi-kvadrert test Spearman rang korrelasjon (Tau) |
Forhold/Intervall | Pearson korrelasjon (Rho) |
merk at korrelasjonsanalyser bare vil oppdage lineære forhold mellom to variabler. Figuren nedenfor illustrerer to små datasett hvor det er klart forhold mellom de to variablene. Korrelasjonen for det andre datasettet, hvor forholdet ikke er lineært, er imidlertid 0,0. En enkel korrelasjonsanalyse av disse dataene vil ikke foreslå noe forhold mellom tiltakene, når det tydeligvis ikke er tilfelle. Dette illustrerer viktigheten av å gjennomføre en rekke grunnleggende beskrivende analyser før du tar fatt på analyser av forskjeller og sammenhenger mellom variabler.
testgyldighet
Signifikansnivåer
den statistiske signifikansen av en test er et mål på sannsynlighet – sannsynligheten for at du ville ha oppnådd det bestemte resultatet av testen på den prøven hvis nullhypotesen (at det ikke er noen effekt på grunn av parametrene som testes) du tester, var sant. Eksemplet nedenfor tester om score i en eksamen endres etter at kandidatene har fått opplæring. Hypotesen antyder at de burde, så nullhyopotesen er at de ikke vil.
generelt er et hvilket som helst nivå av sannsynlighet over 5 prosent (p>0,05) ikke ansett å være statistisk signifikant, og for store undersøkelser er 1 prosent (p>0,01) ofte tatt som et mer passende nivå.
merk at statistisk signifikans ikke betyr at resultatene du har oppnådd faktisk har verdi i sammenheng med din forskning. Hvis du har en stor nok prøve, kan en svært liten forskjell mellom grupper identifiseres som statistisk signifikant, men en så liten forskjell kan være irrelevant i praksis. På den annen side kan en tilsynelatende stor forskjell ikke være statistisk signifikant i et lite utvalg, på grunn av variasjonen i gruppene som sammenlignes.
Frihetsgrader
noen teststatistikker (f.eks. kjikvadrert) krever at antall frihetsgrader skal være kjent, for å teste for statistisk signifikans mot riktig sannsynlighetstabell. Kort sagt, frihetsgrader er antall verdier som kan tildeles vilkårlig i prøven.
for eksempel:
i en prøve av størrelse n delt inn i k-klasser, er det k-1 frihetsgrader (de første k-1-gruppene kan være av hvilken som helst størrelse opp til n, mens den siste er fastsatt av summen av den første k-1 og verdien av n. i numeriske termer, hvis en prøve på 500 personer er tatt FRA STORBRITANNIA, og det er observert at 300 er Fra England, 100 Fra Skottland og 50 Fra Wales, så må det være 50 fra nord-irland. Gitt tallene fra de tre første gruppene, er det ingen fleksibilitet i størrelsen på den endelige gruppen. Å dele prøven i fire grupper gir tre grader av frihet.
i en toveis beredskapstabell med p-rader og q-kolonner, er det (p-1)*(q-1) frihetsgrader (gitt verdiene til de første radene og kolonnene, den siste raden og kolonnen er begrenset av totalene i tabellen)
En-hale eller to-hale tester
Hvis, som det er vanlig, det som betyr noe, er ganske enkelt at statistikken for populasjonene er forskjellig, så er det bare å er hensiktsmessig å bruke de kritiske verdiene for en to-tailed test.
hvis du imidlertid bare er interessert i å finne ut om statistikken For populasjon A har en større verdi enn for populasjon B, vil en en-tailed test være hensiktsmessig. Den kritiske verdien for en en-tailed test er generelt lavere enn for en to-tailed test, og bør bare brukes hvis forskningshypotesen din er at populasjon A har en større verdi Enn populasjon B, og det spiller ingen rolle hvor forskjellige de er hvis populasjon A har en verdi som er mindre enn for populasjon B.
For eksempel
Scenario 1
Nullhypotesen – det er ingen forskjell i gjennomsnittlig eksamensresultat før og etter trening (dvs.trening har ingen effekt på eksamensresultatet)
Alternativ – det er forskjell i gjennomsnittlig score før og etter trening (dvs. trening har en uspesifisert effekt)
Bruk en to-tail test
scenario 2
nullhypotesen – trening øker ikke middelverdien
Alternativ – Middelverdien Øker Etter Trening
bruk en enhaletest hvis det er observert økning i middelverdien.
(hvis det er et observert fall i score, er det ikke nødvendig å teste, da du ikke kan avvise nullhypotesen.)
Scenario 3
Nullhypotesen – Trening fører ikke til at gjennomsnittlig score faller
Alternativ – Gjennomsnittlig score faller etter trening
Bruk en enhaletest hvis det er observert fall i gjennomsnittlig score.
(hvis det er en observert økning i score, er det ikke nødvendig å teste, da du ikke kan avvise nullhypotesen.)
Før | Etter | |
Gjennomsnittlig | ||
Varians |
46,547 |
46,830 |
Observasjoner | ||
Frihetsgrader (df)) | ||
t Stat | ||
P (T< =t) en-hale | ||
T Kritisk one-tail | ||
P(T < =t) to-hale | ||
T Kritisk to-hale |
Hvis de ovennevnte testresultatene ble oppnådd, kan du under scenario 1, ved hjelp av en to-tail test, konkludere med at det ikke var statistisk signifikant forskjell mellom resultatene (p=0,08), og som en konsekvens at treningen ikke hadde noen effekt. På samme måte, under scenario 3, vil du konkludere med at det ikke er noe som tyder på at trening fører til at gjennomsnittlig score faller, da de faktisk har steget. Men under scenario 2, ved hjelp av en en-tail test, ville du konkludere med at det var en økning i gjennomsnittlig score, statistisk signifikant på 5 prosent nivå (p=0,04).
en siste advarsel!
Statistiske pakker vil gjøre det du forteller dem, i det hele tatt. De vet ikke om dataene du har oppgitt er av god kvalitet, eller (med noen få unntak) om de er av en passende type for analysen du har foretatt.
Søppel inn = Søppel ut!
Avanserte teknikker
disse verktøyene og teknikkene har spesialiserte applikasjoner,og vil generelt bli utformet i forskningsmetodikken på et tidlig stadium, før data samles inn. Hvis du vurderer å bruke noen av disse, kan det være lurt å konsultere en spesialist tekst eller en erfaren statistiker før du begynner.
i hvert tilfelle gir vi noen eksempler På Smaragdartikler som bruker teknikken.
Faktoranalyse
for å redusere antall variabler for senere analyse ved å lage kombinasjoner av de opprinnelige variablene målt som står for så mye av den opprinnelige variansen som mulig, men tillater enklere tolkning av resultatene. Vanligvis brukes til å lage et lite sett med dimensjonsvurderinger fra et stort antall menings uttalelser individuelt vurdert På Likert skalaer. Du må ha flere observasjoner (fag) enn du har variabler som skal analyseres.
for eksempel
En Variabel Likert-skala: «Jeg liker å spise sjokoladeis til frokost»
Helt enig |
sterkt uenig |
en faktoranalyse av Page og Wongs servant leadership instrument
Rob Dennis Og Bruce E. Winston
Leadership &Organization Development Journal, vol. 24 nr. 8
Forstå faktorer for benchmarking adopsjon: Nye bevis Fra Malaysia
Yean Pin Lee, Suhaiza Zailani Og Keng Lin Soh
Benchmarking: Et Internasjonalt Tidsskrift, vol. 13 nr. 5
Klyngeanalyse
for å klassifisere fag i grupper med lignende egenskaper, i henhold til verdiene av de målte variablene. Du må ha flere observasjoner enn du har variabler inkludert i analysen.
Organisk produktunngåelse: Årsaker til avvisning og potensielle kjøpernes identifikasjon i en landsomfattende undersøkelse
C. Fotopoulos Og A. Krystallis
British Food Journal, vol. 104 nr. 3/4/5
Påvisning av økonomisk nød via multivariat statistisk analyse
S. Gamesalingam Og Kuldeep Kumar
Ledelsesfinansiering, vol. 27 nr. 4
Diskriminantanalyse
for å identifisere de variablene som best diskriminerer mellom kjente grupper av forsøkspersoner. Resultatene kan brukes til å tildele nye fag til de kjente gruppene basert på deres verdier av de diskriminerende variablene
Påvisning av økonomisk nød via multivariat statistisk analyse
S. Gamesalingam og Kuldeep Kumar
Managerial Finance, vol. 27 nr. 4
Forstå faktorer for benchmarking adopsjon: Nye bevis Fra Malaysia
Yean Pin Lee, Suhaiza Zailani Og Keng Lin Soh
Benchmarking: An International Journal , vol. 13 nr. 5
Metodikk
Diskriminantanalyse ble brukt for å avgjøre om det foreligger statistisk signifikante forskjeller mellom den gjennomsnittlige skåringsprofilen på et sett med variabler for to a priori definerte grupper og dermed gjorde det mulig å klassifisere dem. Dessuten kan det bidra til å avgjøre hvilken av de uavhengige variablene som står mest for forskjellene i gjennomsnittsprofilene til de to gruppene. I denne studien var diskriminantanalyse hovedinstrumentet for å klassifisere benchmarking adopter og ikke-adopter. Det ble også benyttet for å bestemme hvilke av de uavhengige variablene som ville bidra til benchmarking adopsjon.
Regresjon
for å modellere hvordan en, avhengig, variabel oppfører seg avhengig av verdiene til et sett med andre, uavhengige variabler. Den avhengige variabelen må være intervall eller forhold i type; de uavhengige variablene kan være av hvilken som helst type, men spesielle metoder må brukes når kategoriske eller ordinære uavhengige variabler skal inkluderes i analysen.
Utviklingen i melk markedsføring I England og Wales i løpet av 1990-tallet
Jeremy Franks
British Food Journal, vol. 103 nr. 9
Trening under ild: forholdet mellom hindringer som møter trening Og Smb’ s utvikling I Palestina
Mohammed Al Madhoun
Journal Of European Industrial Training, vol. 30 nr.2
tidsserieanalyse
for å undersøke mønstre og trender i en variabel målt regelmessig over en tidsperiode. Kan også brukes til å identifisere og justere for sesongvariasjoner, for eksempel i finansstatistikk.
en analyse Av trender Og sykliske atferd av boligprisene I De Asiatiske markedene
Ming-Chi Chen, Yuichiro Kawaguchi Og Kanak Patel
Journal Of Property Investment & Finans, vol. 22 no. 1
Grafisk presentasjon
Presentasjon av data i grafisk form kan øke tilgjengeligheten av resultatene dine til et ikke-teknisk publikum, og markere effekter og resultater som ellers ville kreve lang forklaring eller komplekse tabeller. Det er derfor viktig at passende grafiske teknikker brukes. Denne delen gir eksempler pa noen av de mest brukte grafiske presentasjonene, og angir nar de kan brukes. Alle, unntatt histogrammet, er produsert Ved Bruk Av Microsoft Excel®
Kolonne-eller stolpediagrammer
det er fire hovedvarianter,og om du viser dataene i vannrette streker eller loddrette kolonner, er det i stor grad et spørsmål om personlig preferanse.
Histogram
for å illustrere en frekvensfordeling i kategoriske eller ordinære data, eller gruppert ratio/intervall data. Vanligvis vises som en kolonne graf.
Gruppert kolonne/stolpe
for å sammenligne kategoriske, ordinære eller grupperte ratio/intervall data på tvers av kategorier. Dataene som brukes i fig 4 er de samme Som I Fig 5 og 6.
stablet kolonne/stolpe
for å illustrere det faktiske bidraget til totalen for kategoriske, ordinære eller grupperte ratio/intervalldata etter kategorier. Dataene som brukes I Fig 5 er de samme Som I Fig 4 og 6.
Prosent stablet kolonne/stolpe
for å sammenligne prosentvis bidrag til totalen for kategoriske, ordinære eller grupperte ratio/intervall data på tvers av kategorier. Dataene som brukes i fig 6 er de samme som I Fig 4 og 5.
Linjediagrammer
for å vise trender i ordinal-eller ratio/intervalldata. Poeng på en graf bør bare slås sammen med en linje hvis dataene på x-aksen er minst ordinære. En spesiell applikasjon er å plotte en frekvensfordeling for intervall/forholdsdata (figur 8).
Sektordiagrammer
for å vise prosentvis bidrag til hele kategoriske, ordinære eller grupperte ratio/intervall data.
Punktgrafer
for å illustrere forholdet mellom to variabler, av hvilken som helst type (selv om de er mest nyttige der begge variablene er forhold/intervall i type). Også nyttig i identifisering av eventuelle uvanlige observasjoner i dataene.
boks-og whiskerplott
en spesialgraf som illustrerer den sentrale tendensen og spredningen til et stort datasett, inkludert eventuelle uteliggere.
Ressurser
Koble Matematikk
Korte forklaringer av matematiske termer og ideer
Statistikk Ordliste
utarbeidet Av Valerie J. Easton Og John H. McColl Av Glasgow University
Statsoft elektronisk lærebok
100 statistiske tester av gopal K. Kanji
(Sage, 1993, ISBN 141292376X)
Oxford Dictionary Of Statistics av Graham Upton Og Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)