miten…Valitse oikea tilastollinen tekniikka

perusteet

Aloita miettimään analyysissasi käytettäviä tekniikoita ennen kuin keräät tietoja.

mitä haluat tietää?

analyysin on liityttävä tutkimuskysymyksiin, ja tämä voi määrätä käyttämäsi tekniikat.

millaisia tietoja sinulla on?

tiedon tyyppi on myös perustavaa laatua – aika-ja suhdemuuttujiin soveltuvat tekniikat ja välineet eivät sovellu kategorisiin tai ordinaalisiin mittoihin. (Katso kuinka kerätä tietoja tietotyyppien muistiinpanoihin)

mitä oletuksia voi – ja mitä ei voi-tehdä?

monet tekniikat perustuvat siihen, että testin tilastollinen otosjakauma on Normaalijakauma (KS.jäljempänä). Näin on aina silloin, kun aineiston pohjajakauma on normaali, mutta käytännössä aineisto ei välttämättä jakaudu normaalisti. Esimerkiksi, siellä voi olla pitkä häntä vastauksia jommallekummalle puolelle tai toiselle (vääristynyt data). Ei-parametrisia tekniikoita voidaan käyttää tällaisissa tilanteissa, mutta ne ovat väistämättä vähemmän tehokkaita ja vähemmän joustavia. Jos otoskoko on kuitenkin riittävän suuri, keskeinen raja-arvolause mahdollistaa standardianalyysien ja-työkalujen käytön.

Ei-normaalijakauman tekniikat

parametriset vai ei-parametriset tilastot?

parametriset menetelmät ja tilastot perustuvat oletuksiin taustalla olevasta jakaumasta, jotta saadaan päteviä tuloksia. Yleensä ne edellyttävät, että muuttujilla on Normaalijakauma.

kategoriatiedoissa ja ordinaalitiedoissa on käytettävä ei – parametrisia tekniikoita, mutta väli & suhdetiedoissa ne ovat yleensä heikompia ja joustavampia, ja niitä tulee käyttää vain, jos standardiparametritesti ei ole asianmukainen-esimerkiksi kun otoskoko on pieni (alle 30 havaintoa).

keskeinen raja-arvolause

otoskoon kasvaessa testin tilastollisen otosjakauman muoto pyrkii muuttumaan normaaliksi, vaikka testattavan muuttujan jakauma ei olisikaan normaali.

käytännössä tätä voidaan soveltaa yli 30 havainnon perusteella laskettuihin testitilastoihin.

 Kuva: Normaalijakauma

kuinka paljon voit odottaa saavasi tietoja?

mitä pienempi otoskoko, sitä vähemmän tiedoista saa irti. Keskivirhe on kääntäen verrannollinen otoksen kokoon, joten mitä suurempi otos, sitä pienempi keskivirhe ja sitä suurempi mahdollisuus sinulla on tunnistaa tilastollisesti merkittäviä tuloksia analyysissasi.

perustekniikat

yleensä mitä tahansa kategoriatietoihin soveltuvaa tekniikkaa voidaan käyttää myös ordinaalitietoihin. Mitä tahansa menetelmää, jota voidaan käyttää ordinaalitietoihin, voidaan käyttää myös suhde-tai intervallitietoihin. Asia ei ole päinvastoin.

kuvaa tietosi

analyysin ensimmäinen vaihe on kuvata tietosi ja siten väestö, josta ne on poimittu. Tähän toimintaan soveltuvat tilastot jakautuvat kolmeen laajaan ryhmään, ja ne riippuvat siitä, millaisia tietoja sinulla on.

mitä haluat tehdä? millä tiedoilla? soveltuva tekniikka
tarkastellaan jakaumaa kategorinen / Ordinaalinen piirretään prosenttiosuus
kussakin kategoriassa
(sarake – tai pylväskaavio)
suhde / intervalli Histogrammi
kumulatiivinen frekvenssi
kaavio
keskustaajama kategorinen
järjestysnumero mediaani
tila
suhde / väli keskiarvo
mediaani
kuvaa levinneisyysaluetta kategorinen ei
ordinaali alue
kvartiilien välinen alue
suhde / intervalli vaihteluväli
kvartiilien välinen vaihteluväli
varianssi
Vakiovaihtelu

Katso graafisen esityksen kuvaukset tärkeimmistä graafisista tekniikoista.

keskiarvo-aritmeettinen keskiarvo, joka lasketaan laskemalla yhteen kaikki arvot ja jakamalla summassa olevien arvojen lukumäärällä.

mediaani-jakauman keskipiste, jossa puolet arvoista on korkeampia ja puolet pienempiä.

tila – useimmin esiintyvä arvo.

vaihteluväli – suurimman ja pienimmän arvon erotus.

kvartiilien välinen alue-ylemmän kvartiilin (arvo, jossa 25 prosenttia havainnoista on suurempia ja 75 prosenttia pienempiä) ja alemman kvartiilin (arvo, jossa 75 prosenttia havainnoista on suurempia ja 25 prosenttia pienempiä) välinen ero. Tämä on erityisen hyödyllistä silloin, kun äärihavaintoja on pieni määrä paljon enemmän tai vähemmän kuin valtaväestö.

varianssi – hajonnan mitta, joka lasketaan havaintojen neliöllisten erojen keskiarvon keskiarvona.

keskihajonta-varianssin neliöjuuri.

ryhmien ja muuttujien väliset erot

Chi-potenssitesti – käytetään kahden tai useamman kategoriallisen tai ordinaalisen aineiston jakaumien vertailuun.

t-testit – käytetään vertailemaan kahden tietosarjan keinoja.

Wilcoxonin U-testi-t-testin ei-parametrinen ekvivalentti. Aineiston arvojärjestyksen perusteella sitä voidaan käyttää myös mediaanien vertailuun.

ANOVA-varianssin analyysi, jossa verrataan useamman kuin kahden tietoryhmän keskiarvoja.

mitä haluat tehdä? millä tiedoilla? soveltuva tekniikka
vertaa kahta ryhmää kategorinen Khiin potenssitesti
ordinaali Khiin neliötesti
Wicoxonin U-testi
suhde / väli t-testi
riippumattomille näytteille
vertaa useampaa kuin kahta ryhmää kategorinen / Ordinaalinen khi-potenssitesti
suhde / intervalli ANOVA
vertaa kahta muuttujaa
samaan koehenkilöt
kategorinen / järjestysnumero Khiin potenssitesti
suhde / väli t-testi
riippuvaisille näytteille

muuttujien väliset suhteet

korrelaatiokerroin mittaa kahden muuttujan välisen lineaarisen assosiaation astetta, jonka arvo on välillä + 1-1. Positiiviset arvot osoittavat, että kaksi muuttujaa kasvavat ja vähenevät yhdessä; negatiiviset arvot, jotka toinen kasvaa toisen pienentyessä. Nollakorrelaatiokerroin osoittaa, että näiden kahden muuttujan välillä ei ole lineaarista suhdetta. Spearman rank-korrelaatio on Pearsonin korrelaation ei-parametrinen ekvivalentti.

millaisia tietoja? soveltuva tekniikka
Luokka Khiin neliötesti
ordinaali Chi-squared test
Spearman sijoitus
korrelaatio (Tau)
suhde / intervalli Pearson
korrelaatio (Rho)

huomaa, että korrelaatioanalyysit havaitsevat vain kahden muuttujan väliset lineaariset suhteet. Oheinen kuva kuvaa kahta pientä tietokokonaisuutta, joissa näiden kahden muuttujan välillä on selvä yhteys. Toisen tietojoukon, jossa suhde ei ole lineaarinen, korrelaatio on kuitenkin 0,0. Näiden tietojen yksinkertainen korrelaatioanalyysi viittaisi siihen, että toimenpiteiden välillä ei olisi yhteyttä, vaikka näin ei selvästikään ole. Tämä osoittaa, miten tärkeää on tehdä joukko kuvailevia perusanalyysejä ennen kuin ryhdytään analysoimaan muuttujien välisiä eroja ja suhteita.

 Kuva: kaksi pientä tietokokonaisuutta, joissa kahden muuttujan välillä on selvästi suhteita

testauksen validiteetti

Merkitsevyystasot

testin tilastollinen merkitsevyys on todennäköisyyden mitta – todennäköisyys, että olisit saanut kyseisen testituloksen kyseisellä näytteellä, jos testaamasi nollahypoteesi (että testattavilla parametreilla ei ole vaikutusta) olisi pitänyt paikkansa. Alla olevassa esimerkissä testataan, muuttuvatko tentin pisteet sen jälkeen, kun kokelaat ovat saaneet koulutuksen. Hypoteesin mukaan pitäisi, joten nollahyopoteesi on, että eivät.

yleisesti mitään 5 prosentin todennäköisyystasoa (p>0, 05) ei pidetä tilastollisesti merkitsevänä, ja suurissa tutkimuksissa 1 prosenttia (p>0, 01) pidetään usein sopivampana tasona.

huomaa, että tilastollinen merkitsevyys ei tarkoita sitä, että saavuttamillasi tuloksilla olisi todellista arvoa tutkimuksesi yhteydessä. Jos otos on riittävän suuri, hyvin pieni ero ryhmien välillä voidaan todeta tilastollisesti merkitseväksi, mutta näin pieni ero voi olla käytännössä merkityksetön. Toisaalta ilmeisen suuri ero ei välttämättä ole tilastollisesti merkittävä pienessä otoksessa vertailtavien ryhmien sisäisen vaihtelun vuoksi.

vapausasteet

jotkin koetilastot (esim.chi-potenssiin) edellyttävät vapausasteiden lukumäärän tuntemista, jotta voidaan testata tilastollista merkitsevyyttä oikeaa todennäköisyystaulukkoa vastaan. Lyhyesti sanottuna vapausasteet ovat niiden arvojen lukumäärä, jotka voidaan määrittää mielivaltaisesti otoksen sisällä.

esimerkiksi:

otoksessa, jonka koko n on jaettu k-luokkiin, on k-1 vapausasteita (ensimmäiset K-1-ryhmät voivat olla minkä kokoisia tahansa n: ään asti, kun taas viimeinen vahvistetaan ensimmäisen K-1: n kokonaismäärällä ja n: n arvolla. numeerisesti, jos 500 yksilön otos on otettu Yhdistyneestä kuningaskunnasta, ja havaitaan, että 300 on Englannista, 100 Skotlannista ja 50 Walesista, silloin on oltava 50-vuotias Pohjois-Irlannista. Kun otetaan huomioon kolmen ensimmäisen ryhmän numerot, lopullisen ryhmän koossa ei ole joustavuutta. Jakamalla näyte neljään ryhmään saadaan kolme vapausastetta.

kaksisuuntaisessa ennustetaulukossa, jossa on P-rivit ja q-sarakkeet, on (P-1)*(q-1) vapausasteita (kun otetaan huomioon ensimmäisten rivien ja sarakkeiden arvot, viimeistä riviä ja saraketta rajoittavat taulukon loppusummat)

yksi-tai kaksipyrstötestit

jos, kuten yleensä, vain sillä on merkitystä, että populaatioiden tilastot ovat erilaisia, niin se on asianmukaista käyttää kriittisiä arvoja kaksipyrstötestissä.

Jos kuitenkin olet kiinnostunut vain selvittämään, onko populaatiota a koskevalla tilastolla suurempi arvo kuin populaatiota B koskevalla tilastolla, niin yksihäntäinen testi olisi paikallaan. Yksihäntäisen testin kriittinen arvo on yleensä pienempi kuin kaksihäntäisen testin, ja sitä tulisi käyttää vain, jos tutkimushypoteesi on, että populaatiolla A on suurempi arvo kuin populaatiolla B, eikä sillä ole väliä, kuinka erilaisia ne ovat, jos populaatiolla A on arvo, joka on pienempi kuin populaatiolla B.

esimerkiksi

Skenaario 1

nollahypoteesi – kokeiden keskiarvoissa ei ole eroa ennen ja jälkeen koulutuksen (eli harjoittelulla ei ole vaikutusta kokeen pistemäärään)
vaihtoehto – keskiarvoissa on ero ennen ja jälkeen koulutuksen (eli harjoittelulla on määrittelemätön vaikutus)
käytä kahden hännän testiä

skenaario 2

nollahypoteesi-harjoittelu ei lisää keskiarvoa
vaihtoehtoinen – keskiarvon nousu koulutuksen jälkeen
käytetään yhden hännän testiä, jos keskiarvossa havaitaan nousua.
(jos pistemäärissä havaitaan laskua, ei tarvitse testata, koska nollahypoteesia ei voi hylätä.)

skenaario 3

nollahypoteesi – harjoittelu ei aiheuta keskiarvotulosten laskua
vaihtoehtoinen – Keskiarvotulosten laskua koulutuksen jälkeen
käytetään yhden hännän testiä, jos keskiarvoissa havaitaan laskua.
(jos pistemäärissä havaitaan nousua, ei ole tarvetta testata, koska nollahypoteesia ei voi hylätä.)

t-testi: Pariksi kaksi näytettä välineille
ennen jälkeen
keskiarvo
varianssi

46,547

46,830

huomautukset
vapausasteet (df)
TT
P (t<=t) yksihäntäinen
t kriittinen yksihäntäinen
P (t<=t) kaksihäntäinen
t kriittinen kaksipyrstö

jos edellä mainitut testitulokset saatiin, niin skenaariossa 1 kahden hännän testillä voisi päätellä, että pisteiden välillä ei ollut tilastollisesti merkitsevää eroa (p=0,08), ja näin ollen, että harjoittelulla ei ollut vaikutusta. Samoin 3. skenaariossa päättelette, että ei ole todisteita siitä, että harjoittelu laskisi keskiarvotuloksia, koska ne ovat itse asiassa nousseet. Kuitenkin, skenaariossa 2, käyttämällä yhden hännän testi, voit päätellä, että oli nousu Keskiarvo pisteet, tilastollisesti merkitsevä 5 prosentin tasolla (p=0,04).

viimeinen varoitus!

Tilastopaketit tekevät kaiken kaikkiaan mitä käsketään. He eivät tiedä, ovatko antamasi tiedot hyvälaatuisia tai (harvoja poikkeuksia lukuun ottamatta) soveltuvatko ne tekemääsi analyysiin.

Rubbish in = Rubbish out!

kehittyneet tekniikat

näillä välineillä ja tekniikoilla on erikoissovelluksia, ja ne suunnitellaan yleensä tutkimusmenetelmiin jo varhaisessa vaiheessa, ennen kuin tietoja kerätään. Jos harkitset jonkin näistä käyttämistä, sinun on ehkä hyvä tutustua asiantuntevaan tekstiin tai kokeneeseen tilastotieteilijään ennen kuin aloitat.

kussakin tapauksessa annamme muutamia esimerkkejä smaragdinvihreistä artikkeleista, joissa tekniikkaa käytetään.

tekijäanalyysi

vähentää muuttujien määrää myöhempää analyysia varten luomalla mitatuista alkuperäisistä muuttujista yhdistelmiä, jotka muodostavat mahdollisimman suuren osan alkuperäisestä varianssista, mutta helpottavat tulosten tulkintaa. Yleisesti käytetään luomaan pieni joukko ulottuvuus luokitukset suuri määrä lausuntojen erikseen mitoitettu Likert asteikot. Sinulla täytyy olla enemmän havaintoja (aiheita) kuin sinulla on muuttujia analysoitavana.

esimerkiksi

Likertin asteikkomuuttuja: ”Tykkään syödä suklaajäätelöä aamiaiseksi”

vahvasti samaa mieltä

vahvasti eri mieltä

a factor analysis of Page and Wong ’ s servant leadership instrument
Rob Dennis and Bruce E. Winston
Leadership & Organization Development Journal, vol. 24 nro 8

Understanding factors for benchmarking adoption: New evidence from Malaysia
Yean Pin Lee, Suhaiza Zailani and Keng Lin Soh
Benchmarking: An International Journal, vol. 13 nro 5

klusterianalyysi

koehenkilöiden luokittelemiseksi ryhmiin, joilla on samanlaiset ominaisuudet mitattujen muuttujien arvojen mukaan. Sinulla täytyy olla enemmän havaintoja kuin sinulla on muuttujia mukana analyysissä.

Organic product avoidance: Reasons for rejection and potential buyers’ identification in a country wide survey
C. Fotopoulos and A. Krystallis
British Food Journal, vol. 104 nro 3/4/5

taloudellisen ahdingon havaitseminen monimuuttujatilastoanalyysin avulla
S. Gamesalingam and Kuldeep Kumar
Managerial Finance, vol. 27 nro 4

Discriminant analysis

niiden muuttujien tunnistamiseksi, jotka parhaiten erottavat tunnetut koehenkilöryhmät toisistaan. Tuloksia voidaan käyttää uusien koehenkilöiden kohdentamiseen tunnettuihin ryhmiin niiden erottelevien muuttujien

taloudellisen ahdingon havaitseminen monimuuttuja-tilastoanalyysin avulla
S. Gamesalingam ja Kuldeep Kumar
Managerial Finance, vol. 27 nro 4

vertailutekijöiden ymmärtäminen: New evidence from Malaysia
Yean Pin Lee, Suhaiza Zailani and Keng Lin Soh
Benchmarking: an International Journal, vol. 13 nro 5

metodologiaa

Diskriminanttianalyysiä käytettiin määrittämään, onko kahden ennalta määritellyn ryhmän keskimääräisten pisteprofiilien välillä tilastollisesti merkitseviä eroja, joten ne voitiin luokitella. Lisäksi se voisi auttaa määrittämään, mitkä riippumattomat muuttujat huomioon eniten eroja keskimääräinen pisteet profiilit kahden ryhmän. Tässä tutkimuksessa discriminant analysis oli tärkein väline luokittelemaan benchmarking adopter ja non-adopter. Sitä käytettiin myös määritettäessä, mitkä riippumattomista muuttujista vaikuttaisivat esikuva-analyysin käyttöönottoon.

regressio

mallintamaan, miten yksi riippuva muuttuja käyttäytyy muiden, riippumattomien muuttujien joukon arvojen mukaan. Riippuvan muuttujan on oltava tyypiltään intervalli tai suhde; riippumattomat muuttujat voivat olla mitä tahansa tyyppiä, mutta analyysissä on käytettävä erityisiä menetelmiä, kun mukaan otetaan kategorisia tai ordinaalisia riippumattomia muuttujia.

maidon markkinoinnin kehitys Englannissa ja Walesissa 1990-luvulla
Jeremy Franks
British Food Journal, vol. 103 nro 9

Training under fire: the relationship between obstacles facing training and SMEs’ development in Palestine
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 nro 2

aikasarja-analyysi

säännöllisesti tietyn ajanjakson aikana mitatun muuttujan kuvioiden ja suuntausten tutkimiseksi. Voidaan käyttää myös kausivaihtelun tunnistamiseen ja korjaamiseen esimerkiksi rahoitustilastoissa.

analyysi asuntojen hintojen kehityksestä ja suhdannekäyttäytymisestä Aasian markkinoilla
Ming-Chi Chen, Yuichiro Kawaguchi ja Kanak Patel
Journal of Property Investment & Finance, vol. 22 nro 1

graafinen esitys

tietojen esittäminen graafisessa muodossa voi lisätä tulosten saatavuutta ei-tekniselle yleisölle ja korostaa vaikutuksia ja tuloksia, jotka muutoin vaatisivat pitkää selitystä tai monimutkaisia taulukoita. Siksi on tärkeää, että käytetään asianmukaisia graafisia tekniikoita. Tässä osassa annetaan esimerkkejä joistakin yleisimmin käytetyistä graafisista esityksistä ja ilmoitetaan, milloin niitä voidaan käyttää. Kaikki, paitsi histogrammi, on tuotettu Microsoft Excel®.

sarake-tai pylväskaaviot

on olemassa neljä pääasiallista variaatiota, ja se, näytetäänkö tiedot vaaka-vai pystysarakkeissa, riippuu pitkälti henkilökohtaisesta mieltymyksestä.

Histogrammi

kuvaamaan yleisyysjakaumaa kategorisissa tai järjestysaineistoissa tai ryhmitetyissä suhde / intervallitiedoissa. Näytetään yleensä pylväsdiagrammina.

 Kuva: Histogrammi

ryhmitelty sarake / pylväs

luokkakohtaisten, järjestyksellisten tai ryhmitettyjen suhde/intervallitietojen vertailemiseksi eri kategorioissa. Kuvassa 4 käytetyt tiedot ovat samat kuin viikunoissa 5 ja 6.

Image: Clustered column/bar

Stacked column/bar

to explain the real contribution of the total for categorical, orginal or grouped ratio/interval data by categories. Kuvassa 5 käytetyt tiedot ovat samat kuin viikunoissa 4 ja 6.

 Kuva: Pinottu sarake / pylväs

Pinottu sarake/pylväs

jotta voidaan verrata prosenttiosuutta kokonaissummasta kategoriallisten, järjestyksellisten tai ryhmiteltyjen suhde/intervallitietojen osalta eri kategorioissa. Kuvassa 6 käytetyt tiedot ovat samat kuin viikunoissa 4 ja 5.

Kuva: pinottu sarake/pylväs

viivakaaviot

ordinaalisten tai suhdekohtaisten tietojen trendien osoittamiseksi. Graafin pisteet tulee liittää janaan vain, jos X-akselin tiedot ovat vähintään ordinaalisia. Yksi erityinen sovellus on piirtää taajuusjakauma intervalli / suhde tietoja (kuva 8).

Kuva: viivakaaviot

Piirikaaviot

, jotka osoittavat prosentuaalisen osuuden kategoristen, ordinaalisten tai ryhmitettyjen suhde/intervallitietojen kokonaisuudesta.

Image: Pie-kaavio

Hajontakaaviot

kuvaavat kahden muuttujan suhdetta, minkä tahansa tyypin välillä (vaikkakin hyödyllisintä, jos molemmat muuttujat ovat tyypiltään suhde/intervalli). Hyödyllinen myös mahdollisten epätavallisten havaintojen tunnistamisessa aineistosta.

 Kuva: Hajontakäyrä

laatikko-ja viiksikäyrä

erikoiskaavio, joka kuvaa suuren tietojoukon, myös mahdollisten poikkeavien, keskeistä taipumusta ja leviämistä.

Image: Box and whisker plot

Resources

Connecting Mathematics
Brief explanations of mathematical terms and ideas

Statistics Glossary
koonnut Valerie J. Easton ja John H. McColl Glasgow ’ n yliopistosta

Statsoftin elektroninen oppikirja

100 tilastollista testiä Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)

Oxford Dictionary of Statistics by Graham Upton ja Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)

Vastaa

Sähköpostiosoitettasi ei julkaista.