- perusteet
- mitä haluat tietää?
- millaisia tietoja sinulla on?
- mitä oletuksia voi – ja mitä ei voi-tehdä?
- Ei-normaalijakauman tekniikat
- parametriset vai ei-parametriset tilastot?
- keskeinen raja-arvolause
- kuinka paljon voit odottaa saavasi tietoja?
- perustekniikat
- kuvaa tietosi
- ryhmien ja muuttujien väliset erot
- muuttujien väliset suhteet
- testauksen validiteetti
- Merkitsevyystasot
- vapausasteet
- esimerkiksi:
- yksi-tai kaksipyrstötestit
- esimerkiksi
- viimeinen varoitus!
- kehittyneet tekniikat
- tekijäanalyysi
- esimerkiksi
- klusterianalyysi
- Discriminant analysis
- regressio
- aikasarja-analyysi
- graafinen esitys
- sarake-tai pylväskaaviot
- Histogrammi
- ryhmitelty sarake / pylväs
- Stacked column/bar
- Pinottu sarake/pylväs
- viivakaaviot
- Piirikaaviot
- Hajontakaaviot
- laatikko-ja viiksikäyrä
- Resources
perusteet
Aloita miettimään analyysissasi käytettäviä tekniikoita ennen kuin keräät tietoja.
mitä haluat tietää?
analyysin on liityttävä tutkimuskysymyksiin, ja tämä voi määrätä käyttämäsi tekniikat.
millaisia tietoja sinulla on?
tiedon tyyppi on myös perustavaa laatua – aika-ja suhdemuuttujiin soveltuvat tekniikat ja välineet eivät sovellu kategorisiin tai ordinaalisiin mittoihin. (Katso kuinka kerätä tietoja tietotyyppien muistiinpanoihin)
mitä oletuksia voi – ja mitä ei voi-tehdä?
monet tekniikat perustuvat siihen, että testin tilastollinen otosjakauma on Normaalijakauma (KS.jäljempänä). Näin on aina silloin, kun aineiston pohjajakauma on normaali, mutta käytännössä aineisto ei välttämättä jakaudu normaalisti. Esimerkiksi, siellä voi olla pitkä häntä vastauksia jommallekummalle puolelle tai toiselle (vääristynyt data). Ei-parametrisia tekniikoita voidaan käyttää tällaisissa tilanteissa, mutta ne ovat väistämättä vähemmän tehokkaita ja vähemmän joustavia. Jos otoskoko on kuitenkin riittävän suuri, keskeinen raja-arvolause mahdollistaa standardianalyysien ja-työkalujen käytön.
Ei-normaalijakauman tekniikat
parametriset vai ei-parametriset tilastot?
parametriset menetelmät ja tilastot perustuvat oletuksiin taustalla olevasta jakaumasta, jotta saadaan päteviä tuloksia. Yleensä ne edellyttävät, että muuttujilla on Normaalijakauma.
kategoriatiedoissa ja ordinaalitiedoissa on käytettävä ei – parametrisia tekniikoita, mutta väli & suhdetiedoissa ne ovat yleensä heikompia ja joustavampia, ja niitä tulee käyttää vain, jos standardiparametritesti ei ole asianmukainen-esimerkiksi kun otoskoko on pieni (alle 30 havaintoa).
keskeinen raja-arvolause
otoskoon kasvaessa testin tilastollisen otosjakauman muoto pyrkii muuttumaan normaaliksi, vaikka testattavan muuttujan jakauma ei olisikaan normaali.
käytännössä tätä voidaan soveltaa yli 30 havainnon perusteella laskettuihin testitilastoihin.
kuinka paljon voit odottaa saavasi tietoja?
mitä pienempi otoskoko, sitä vähemmän tiedoista saa irti. Keskivirhe on kääntäen verrannollinen otoksen kokoon, joten mitä suurempi otos, sitä pienempi keskivirhe ja sitä suurempi mahdollisuus sinulla on tunnistaa tilastollisesti merkittäviä tuloksia analyysissasi.
perustekniikat
yleensä mitä tahansa kategoriatietoihin soveltuvaa tekniikkaa voidaan käyttää myös ordinaalitietoihin. Mitä tahansa menetelmää, jota voidaan käyttää ordinaalitietoihin, voidaan käyttää myös suhde-tai intervallitietoihin. Asia ei ole päinvastoin.
kuvaa tietosi
analyysin ensimmäinen vaihe on kuvata tietosi ja siten väestö, josta ne on poimittu. Tähän toimintaan soveltuvat tilastot jakautuvat kolmeen laajaan ryhmään, ja ne riippuvat siitä, millaisia tietoja sinulla on.
mitä haluat tehdä? | millä tiedoilla? | soveltuva tekniikka |
---|---|---|
tarkastellaan jakaumaa | kategorinen / Ordinaalinen | piirretään prosenttiosuus kussakin kategoriassa (sarake – tai pylväskaavio) |
suhde / intervalli | Histogrammi kumulatiivinen frekvenssi kaavio |
|
keskustaajama | kategorinen | |
järjestysnumero | mediaani tila |
|
suhde / väli | keskiarvo mediaani |
|
kuvaa levinneisyysaluetta | kategorinen | ei |
ordinaali | alue kvartiilien välinen alue |
|
suhde / intervalli | vaihteluväli kvartiilien välinen vaihteluväli varianssi Vakiovaihtelu |
Katso graafisen esityksen kuvaukset tärkeimmistä graafisista tekniikoista.
keskiarvo-aritmeettinen keskiarvo, joka lasketaan laskemalla yhteen kaikki arvot ja jakamalla summassa olevien arvojen lukumäärällä.
mediaani-jakauman keskipiste, jossa puolet arvoista on korkeampia ja puolet pienempiä.
tila – useimmin esiintyvä arvo.
vaihteluväli – suurimman ja pienimmän arvon erotus.
kvartiilien välinen alue-ylemmän kvartiilin (arvo, jossa 25 prosenttia havainnoista on suurempia ja 75 prosenttia pienempiä) ja alemman kvartiilin (arvo, jossa 75 prosenttia havainnoista on suurempia ja 25 prosenttia pienempiä) välinen ero. Tämä on erityisen hyödyllistä silloin, kun äärihavaintoja on pieni määrä paljon enemmän tai vähemmän kuin valtaväestö.
varianssi – hajonnan mitta, joka lasketaan havaintojen neliöllisten erojen keskiarvon keskiarvona.
keskihajonta-varianssin neliöjuuri.
ryhmien ja muuttujien väliset erot
Chi-potenssitesti – käytetään kahden tai useamman kategoriallisen tai ordinaalisen aineiston jakaumien vertailuun.
t-testit – käytetään vertailemaan kahden tietosarjan keinoja.
Wilcoxonin U-testi-t-testin ei-parametrinen ekvivalentti. Aineiston arvojärjestyksen perusteella sitä voidaan käyttää myös mediaanien vertailuun.
ANOVA-varianssin analyysi, jossa verrataan useamman kuin kahden tietoryhmän keskiarvoja.
mitä haluat tehdä? | millä tiedoilla? | soveltuva tekniikka |
---|---|---|
vertaa kahta ryhmää | kategorinen | Khiin potenssitesti |
ordinaali | Khiin neliötesti Wicoxonin U-testi |
|
suhde / väli | t-testi riippumattomille näytteille |
|
vertaa useampaa kuin kahta ryhmää | kategorinen / Ordinaalinen | khi-potenssitesti |
suhde / intervalli | ANOVA | |
vertaa kahta muuttujaa samaan koehenkilöt |
kategorinen / järjestysnumero | Khiin potenssitesti |
suhde / väli | t-testi riippuvaisille näytteille |
muuttujien väliset suhteet
korrelaatiokerroin mittaa kahden muuttujan välisen lineaarisen assosiaation astetta, jonka arvo on välillä + 1-1. Positiiviset arvot osoittavat, että kaksi muuttujaa kasvavat ja vähenevät yhdessä; negatiiviset arvot, jotka toinen kasvaa toisen pienentyessä. Nollakorrelaatiokerroin osoittaa, että näiden kahden muuttujan välillä ei ole lineaarista suhdetta. Spearman rank-korrelaatio on Pearsonin korrelaation ei-parametrinen ekvivalentti.
millaisia tietoja? | soveltuva tekniikka |
---|---|
Luokka | Khiin neliötesti |
ordinaali | Chi-squared test Spearman sijoitus korrelaatio (Tau) |
suhde / intervalli | Pearson korrelaatio (Rho) |
huomaa, että korrelaatioanalyysit havaitsevat vain kahden muuttujan väliset lineaariset suhteet. Oheinen kuva kuvaa kahta pientä tietokokonaisuutta, joissa näiden kahden muuttujan välillä on selvä yhteys. Toisen tietojoukon, jossa suhde ei ole lineaarinen, korrelaatio on kuitenkin 0,0. Näiden tietojen yksinkertainen korrelaatioanalyysi viittaisi siihen, että toimenpiteiden välillä ei olisi yhteyttä, vaikka näin ei selvästikään ole. Tämä osoittaa, miten tärkeää on tehdä joukko kuvailevia perusanalyysejä ennen kuin ryhdytään analysoimaan muuttujien välisiä eroja ja suhteita.
testauksen validiteetti
Merkitsevyystasot
testin tilastollinen merkitsevyys on todennäköisyyden mitta – todennäköisyys, että olisit saanut kyseisen testituloksen kyseisellä näytteellä, jos testaamasi nollahypoteesi (että testattavilla parametreilla ei ole vaikutusta) olisi pitänyt paikkansa. Alla olevassa esimerkissä testataan, muuttuvatko tentin pisteet sen jälkeen, kun kokelaat ovat saaneet koulutuksen. Hypoteesin mukaan pitäisi, joten nollahyopoteesi on, että eivät.
yleisesti mitään 5 prosentin todennäköisyystasoa (p>0, 05) ei pidetä tilastollisesti merkitsevänä, ja suurissa tutkimuksissa 1 prosenttia (p>0, 01) pidetään usein sopivampana tasona.
huomaa, että tilastollinen merkitsevyys ei tarkoita sitä, että saavuttamillasi tuloksilla olisi todellista arvoa tutkimuksesi yhteydessä. Jos otos on riittävän suuri, hyvin pieni ero ryhmien välillä voidaan todeta tilastollisesti merkitseväksi, mutta näin pieni ero voi olla käytännössä merkityksetön. Toisaalta ilmeisen suuri ero ei välttämättä ole tilastollisesti merkittävä pienessä otoksessa vertailtavien ryhmien sisäisen vaihtelun vuoksi.
vapausasteet
jotkin koetilastot (esim.chi-potenssiin) edellyttävät vapausasteiden lukumäärän tuntemista, jotta voidaan testata tilastollista merkitsevyyttä oikeaa todennäköisyystaulukkoa vastaan. Lyhyesti sanottuna vapausasteet ovat niiden arvojen lukumäärä, jotka voidaan määrittää mielivaltaisesti otoksen sisällä.
esimerkiksi:
otoksessa, jonka koko n on jaettu k-luokkiin, on k-1 vapausasteita (ensimmäiset K-1-ryhmät voivat olla minkä kokoisia tahansa n: ään asti, kun taas viimeinen vahvistetaan ensimmäisen K-1: n kokonaismäärällä ja n: n arvolla. numeerisesti, jos 500 yksilön otos on otettu Yhdistyneestä kuningaskunnasta, ja havaitaan, että 300 on Englannista, 100 Skotlannista ja 50 Walesista, silloin on oltava 50-vuotias Pohjois-Irlannista. Kun otetaan huomioon kolmen ensimmäisen ryhmän numerot, lopullisen ryhmän koossa ei ole joustavuutta. Jakamalla näyte neljään ryhmään saadaan kolme vapausastetta.
kaksisuuntaisessa ennustetaulukossa, jossa on P-rivit ja q-sarakkeet, on (P-1)*(q-1) vapausasteita (kun otetaan huomioon ensimmäisten rivien ja sarakkeiden arvot, viimeistä riviä ja saraketta rajoittavat taulukon loppusummat)
yksi-tai kaksipyrstötestit
jos, kuten yleensä, vain sillä on merkitystä, että populaatioiden tilastot ovat erilaisia, niin se on asianmukaista käyttää kriittisiä arvoja kaksipyrstötestissä.
Jos kuitenkin olet kiinnostunut vain selvittämään, onko populaatiota a koskevalla tilastolla suurempi arvo kuin populaatiota B koskevalla tilastolla, niin yksihäntäinen testi olisi paikallaan. Yksihäntäisen testin kriittinen arvo on yleensä pienempi kuin kaksihäntäisen testin, ja sitä tulisi käyttää vain, jos tutkimushypoteesi on, että populaatiolla A on suurempi arvo kuin populaatiolla B, eikä sillä ole väliä, kuinka erilaisia ne ovat, jos populaatiolla A on arvo, joka on pienempi kuin populaatiolla B.
esimerkiksi
Skenaario 1
nollahypoteesi – kokeiden keskiarvoissa ei ole eroa ennen ja jälkeen koulutuksen (eli harjoittelulla ei ole vaikutusta kokeen pistemäärään)
vaihtoehto – keskiarvoissa on ero ennen ja jälkeen koulutuksen (eli harjoittelulla on määrittelemätön vaikutus)
käytä kahden hännän testiä
skenaario 2
nollahypoteesi-harjoittelu ei lisää keskiarvoa
vaihtoehtoinen – keskiarvon nousu koulutuksen jälkeen
käytetään yhden hännän testiä, jos keskiarvossa havaitaan nousua.
(jos pistemäärissä havaitaan laskua, ei tarvitse testata, koska nollahypoteesia ei voi hylätä.)
skenaario 3
nollahypoteesi – harjoittelu ei aiheuta keskiarvotulosten laskua
vaihtoehtoinen – Keskiarvotulosten laskua koulutuksen jälkeen
käytetään yhden hännän testiä, jos keskiarvoissa havaitaan laskua.
(jos pistemäärissä havaitaan nousua, ei ole tarvetta testata, koska nollahypoteesia ei voi hylätä.)
ennen | jälkeen | |
keskiarvo | ||
varianssi |
46,547 |
46,830 |
huomautukset | ||
vapausasteet (df) | ||
TT | ||
P (t<=t) yksihäntäinen | ||
t kriittinen yksihäntäinen | ||
P (t<=t) kaksihäntäinen | ||
t kriittinen kaksipyrstö |
jos edellä mainitut testitulokset saatiin, niin skenaariossa 1 kahden hännän testillä voisi päätellä, että pisteiden välillä ei ollut tilastollisesti merkitsevää eroa (p=0,08), ja näin ollen, että harjoittelulla ei ollut vaikutusta. Samoin 3. skenaariossa päättelette, että ei ole todisteita siitä, että harjoittelu laskisi keskiarvotuloksia, koska ne ovat itse asiassa nousseet. Kuitenkin, skenaariossa 2, käyttämällä yhden hännän testi, voit päätellä, että oli nousu Keskiarvo pisteet, tilastollisesti merkitsevä 5 prosentin tasolla (p=0,04).
viimeinen varoitus!
Tilastopaketit tekevät kaiken kaikkiaan mitä käsketään. He eivät tiedä, ovatko antamasi tiedot hyvälaatuisia tai (harvoja poikkeuksia lukuun ottamatta) soveltuvatko ne tekemääsi analyysiin.
Rubbish in = Rubbish out!
kehittyneet tekniikat
näillä välineillä ja tekniikoilla on erikoissovelluksia, ja ne suunnitellaan yleensä tutkimusmenetelmiin jo varhaisessa vaiheessa, ennen kuin tietoja kerätään. Jos harkitset jonkin näistä käyttämistä, sinun on ehkä hyvä tutustua asiantuntevaan tekstiin tai kokeneeseen tilastotieteilijään ennen kuin aloitat.
kussakin tapauksessa annamme muutamia esimerkkejä smaragdinvihreistä artikkeleista, joissa tekniikkaa käytetään.
tekijäanalyysi
vähentää muuttujien määrää myöhempää analyysia varten luomalla mitatuista alkuperäisistä muuttujista yhdistelmiä, jotka muodostavat mahdollisimman suuren osan alkuperäisestä varianssista, mutta helpottavat tulosten tulkintaa. Yleisesti käytetään luomaan pieni joukko ulottuvuus luokitukset suuri määrä lausuntojen erikseen mitoitettu Likert asteikot. Sinulla täytyy olla enemmän havaintoja (aiheita) kuin sinulla on muuttujia analysoitavana.
esimerkiksi
Likertin asteikkomuuttuja: ”Tykkään syödä suklaajäätelöä aamiaiseksi”
vahvasti samaa mieltä |
vahvasti eri mieltä |
a factor analysis of Page and Wong ’ s servant leadership instrument
Rob Dennis and Bruce E. Winston
Leadership & Organization Development Journal, vol. 24 nro 8
Understanding factors for benchmarking adoption: New evidence from Malaysia
Yean Pin Lee, Suhaiza Zailani and Keng Lin Soh
Benchmarking: An International Journal, vol. 13 nro 5
klusterianalyysi
koehenkilöiden luokittelemiseksi ryhmiin, joilla on samanlaiset ominaisuudet mitattujen muuttujien arvojen mukaan. Sinulla täytyy olla enemmän havaintoja kuin sinulla on muuttujia mukana analyysissä.
Organic product avoidance: Reasons for rejection and potential buyers’ identification in a country wide survey
C. Fotopoulos and A. Krystallis
British Food Journal, vol. 104 nro 3/4/5
taloudellisen ahdingon havaitseminen monimuuttujatilastoanalyysin avulla
S. Gamesalingam and Kuldeep Kumar
Managerial Finance, vol. 27 nro 4
Discriminant analysis
niiden muuttujien tunnistamiseksi, jotka parhaiten erottavat tunnetut koehenkilöryhmät toisistaan. Tuloksia voidaan käyttää uusien koehenkilöiden kohdentamiseen tunnettuihin ryhmiin niiden erottelevien muuttujien
taloudellisen ahdingon havaitseminen monimuuttuja-tilastoanalyysin avulla
S. Gamesalingam ja Kuldeep Kumar
Managerial Finance, vol. 27 nro 4
vertailutekijöiden ymmärtäminen: New evidence from Malaysia
Yean Pin Lee, Suhaiza Zailani and Keng Lin Soh
Benchmarking: an International Journal, vol. 13 nro 5
metodologiaa
Diskriminanttianalyysiä käytettiin määrittämään, onko kahden ennalta määritellyn ryhmän keskimääräisten pisteprofiilien välillä tilastollisesti merkitseviä eroja, joten ne voitiin luokitella. Lisäksi se voisi auttaa määrittämään, mitkä riippumattomat muuttujat huomioon eniten eroja keskimääräinen pisteet profiilit kahden ryhmän. Tässä tutkimuksessa discriminant analysis oli tärkein väline luokittelemaan benchmarking adopter ja non-adopter. Sitä käytettiin myös määritettäessä, mitkä riippumattomista muuttujista vaikuttaisivat esikuva-analyysin käyttöönottoon.
regressio
mallintamaan, miten yksi riippuva muuttuja käyttäytyy muiden, riippumattomien muuttujien joukon arvojen mukaan. Riippuvan muuttujan on oltava tyypiltään intervalli tai suhde; riippumattomat muuttujat voivat olla mitä tahansa tyyppiä, mutta analyysissä on käytettävä erityisiä menetelmiä, kun mukaan otetaan kategorisia tai ordinaalisia riippumattomia muuttujia.
maidon markkinoinnin kehitys Englannissa ja Walesissa 1990-luvulla
Jeremy Franks
British Food Journal, vol. 103 nro 9
Training under fire: the relationship between obstacles facing training and SMEs’ development in Palestine
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 nro 2
aikasarja-analyysi
säännöllisesti tietyn ajanjakson aikana mitatun muuttujan kuvioiden ja suuntausten tutkimiseksi. Voidaan käyttää myös kausivaihtelun tunnistamiseen ja korjaamiseen esimerkiksi rahoitustilastoissa.
analyysi asuntojen hintojen kehityksestä ja suhdannekäyttäytymisestä Aasian markkinoilla
Ming-Chi Chen, Yuichiro Kawaguchi ja Kanak Patel
Journal of Property Investment & Finance, vol. 22 nro 1
graafinen esitys
tietojen esittäminen graafisessa muodossa voi lisätä tulosten saatavuutta ei-tekniselle yleisölle ja korostaa vaikutuksia ja tuloksia, jotka muutoin vaatisivat pitkää selitystä tai monimutkaisia taulukoita. Siksi on tärkeää, että käytetään asianmukaisia graafisia tekniikoita. Tässä osassa annetaan esimerkkejä joistakin yleisimmin käytetyistä graafisista esityksistä ja ilmoitetaan, milloin niitä voidaan käyttää. Kaikki, paitsi histogrammi, on tuotettu Microsoft Excel®.
sarake-tai pylväskaaviot
on olemassa neljä pääasiallista variaatiota, ja se, näytetäänkö tiedot vaaka-vai pystysarakkeissa, riippuu pitkälti henkilökohtaisesta mieltymyksestä.
Histogrammi
kuvaamaan yleisyysjakaumaa kategorisissa tai järjestysaineistoissa tai ryhmitetyissä suhde / intervallitiedoissa. Näytetään yleensä pylväsdiagrammina.
ryhmitelty sarake / pylväs
luokkakohtaisten, järjestyksellisten tai ryhmitettyjen suhde/intervallitietojen vertailemiseksi eri kategorioissa. Kuvassa 4 käytetyt tiedot ovat samat kuin viikunoissa 5 ja 6.
Stacked column/bar
to explain the real contribution of the total for categorical, orginal or grouped ratio/interval data by categories. Kuvassa 5 käytetyt tiedot ovat samat kuin viikunoissa 4 ja 6.
Pinottu sarake/pylväs
jotta voidaan verrata prosenttiosuutta kokonaissummasta kategoriallisten, järjestyksellisten tai ryhmiteltyjen suhde/intervallitietojen osalta eri kategorioissa. Kuvassa 6 käytetyt tiedot ovat samat kuin viikunoissa 4 ja 5.
viivakaaviot
ordinaalisten tai suhdekohtaisten tietojen trendien osoittamiseksi. Graafin pisteet tulee liittää janaan vain, jos X-akselin tiedot ovat vähintään ordinaalisia. Yksi erityinen sovellus on piirtää taajuusjakauma intervalli / suhde tietoja (kuva 8).
Piirikaaviot
, jotka osoittavat prosentuaalisen osuuden kategoristen, ordinaalisten tai ryhmitettyjen suhde/intervallitietojen kokonaisuudesta.
Hajontakaaviot
kuvaavat kahden muuttujan suhdetta, minkä tahansa tyypin välillä (vaikkakin hyödyllisintä, jos molemmat muuttujat ovat tyypiltään suhde/intervalli). Hyödyllinen myös mahdollisten epätavallisten havaintojen tunnistamisessa aineistosta.
laatikko-ja viiksikäyrä
erikoiskaavio, joka kuvaa suuren tietojoukon, myös mahdollisten poikkeavien, keskeistä taipumusta ja leviämistä.
Resources
Connecting Mathematics
Brief explanations of mathematical terms and ideas
Statistics Glossary
koonnut Valerie J. Easton ja John H. McColl Glasgow ’ n yliopistosta
Statsoftin elektroninen oppikirja
100 tilastollista testiä Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)
Oxford Dictionary of Statistics by Graham Upton ja Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)