hogyan kell…Válassza ki a megfelelő statisztikai technikát

alapok

kezdje el gondolkodni az elemzéshez használt technikákon, mielőtt bármilyen adatot gyűjtene.

mit akarsz tudni?

az elemzésnek kapcsolódnia kell a kutatási kérdésekhez, és ez diktálhatja az alkalmazott technikákat.

milyen típusú adatokkal rendelkezik?

az adatok típusa szintén alapvető – az intervallum-és arányváltozókhoz megfelelő technikák és eszközök nem alkalmasak kategorikus vagy sorszámos mérésekre. (Lásd: Hogyan gyűjtsünk adatokat az adattípusokra vonatkozó megjegyzésekhez)

milyen feltételezéseket lehet – és nem lehet – tenni?

számos technika arra támaszkodik, hogy a vizsgálati statisztika mintavételi eloszlása normális eloszlás (lásd alább). Ez mindig így van, ha az adatok mögöttes eloszlása normális, de a gyakorlatban előfordulhat, hogy az adatok nem oszlanak meg rendesen. Például hosszú válasz lehet az egyik vagy a másik oldalra (ferde adatok). Az ilyen helyzetekben nem paraméteres technikák alkalmazhatók, de ezek elkerülhetetlenül kevésbé hatékonyak és kevésbé rugalmasak. Ha azonban a minta mérete elég nagy, akkor a centrális határérték tétel lehetővé teszi a standard analízisek és eszközök használatát.

nem normális eloszlás technikái

paraméteres vagy nem paraméteres statisztikák?

a paraméteres módszerek és statisztikák az alapul szolgáló eloszlásra vonatkozó feltételezések halmazán alapulnak, hogy érvényes eredményeket adjanak. Általában megkövetelik, hogy a változók normális eloszlásúak legyenek.

nem paraméteres technikákat kell alkalmazni a kategorikus és a sorszámos adatokhoz, de a & intervallum arányadatok esetében ezek általában kevésbé hatékonyak és kevésbé rugalmasak, és csak akkor alkalmazhatók, ha a standard, paraméteres vizsgálat nem megfelelő-például ha a minta mérete kicsi (30 megfigyelés alatt).

központi határ tétel

a minta méretének növekedésével a tesztstatisztika mintavételi eloszlásának alakja normálissá válik, még akkor is, ha a vizsgált változó eloszlása nem normális.

a gyakorlatban ez több mint 30 megfigyelésből számított vizsgálati statisztikákra alkalmazható.

kép: a normál eloszlási funkció

mennyit várhat el az adataiból?

minél kisebb a minta mérete, annál kevesebbet tud kijutni az adataiból. A Standard hiba fordítottan kapcsolódik a minta méretéhez, így minél nagyobb a minta, annál kisebb a standard hiba, és annál nagyobb esélye lesz statisztikailag szignifikáns eredmények azonosítására az elemzés során.

alapvető technikák

általában minden olyan technika, amely kategorikus adatokon használható, sorszámos adatokon is használható. Bármely technika, amely használható a sorszámadatok is használható Arány vagy intervallum adatok. A fordított nem ez a helyzet.

az adatok leírása

minden elemzés első lépése az adatok leírása, és ezáltal a népesség, amelyből származnak. Az ehhez a tevékenységhez megfelelő statisztikák három nagy csoportba sorolhatók, és az adatok típusától függenek.

mit akarsz csinálni? milyen típusú adatokkal? megfelelő technikák
nézd meg az eloszlást kategorikus / sorszám rajzolja meg a százalékot
minden kategóriában
(oszlop vagy oszlopdiagram)
Arány / intervallum hisztogram
kumulatív frekvencia
diagram
írja le a
központi tendencia
kategorikus n / a
sorszám medián
mód
Arány / intervallum átlag
medián
írja le a szórást kategorikus n / a
sorszám tartomány
kvartilisek közötti tartomány
Arány / intervallum tartomány
kvartilisek közötti tartomány
variancia
Standard variáció

a főbb grafikai technikák leírását lásd a grafikus bemutatóban.

átlag – az összes érték összegzésével kiszámított számtani átlag, amelyet elosztunk az összegben lévő értékek számával.

medián – az eloszlás középpontja, ahol az értékek fele magasabb és fele alacsonyabb.

mód-a leggyakrabban előforduló érték.

tartomány – a legmagasabb és a legalacsonyabb érték közötti különbség.

kvartilisek közötti tartomány-a felső kvartilis (az az érték, ahol a megfigyelések 25% – a magasabb és 75% – kal alacsonyabb) és az alsó kvartilis (az az érték, ahol a megfigyelések 75% – a magasabb és 25% – kal alacsonyabb) közötti különbség. Ez különösen akkor hasznos, ha van egy kis számú szélsőséges megfigyelések sokkal magasabb, vagy alacsonyabb, mint a többség.

variancia-a szórás mértéke,amelyet a megfigyelések négyzetes különbségeinek átlagaként számítanak ki.

szórás – a variancia négyzetgyöke.

csoportok és változók közötti különbségek

Chi-négyzet teszt – két vagy több kategorikus vagy sorszámos adat eloszlásának összehasonlítására szolgál.

t-tesztek – két adatkészlet eszközeinek összehasonlítására szolgálnak.

Wilcoxon U teszt – a t-teszt nem paraméteres megfelelője. Az adatok rangsorolási sorrendje alapján a mediánok összehasonlítására is használható.

ANOVA-varianciaanalízis, több mint két adatcsoport átlagának összehasonlítására.

mit akarsz csinálni? milyen típusú adatokkal? megfelelő technikák
két csoport összehasonlítása kategorikus Chi-négyzet teszt
sorszám Chi-négyzet teszt
Wicoxon U teszt
Arány / intervallum T-teszt
független mintákhoz
több mint két csoport összehasonlítása kategorikus / sorszám Chi-négyzet teszt
Arány / intervallum ANOVA
hasonlítson össze két változót
ugyanazon alanyok
kategorikus / sorszámos Chi-négyzet teszt
Arány / intervallum t-teszt
függő mintákhoz

a változók közötti kapcsolatok

a korrelációs együttható két változó közötti lineáris asszociáció mértékét méri, +1-től -1-ig terjedő értékkel. A pozitív értékek azt jelzik, hogy a két változó együtt növekszik és csökken; negatív értékek, amelyek az egyik növekszik, ahogy a másik csökken. A nulla korrelációs együttható azt jelzi, hogy nincs lineáris kapcsolat a két változó között. A Spearman rangkorreláció a Pearson-korreláció nem paraméteres megfelelője.

milyen típusú adatok? megfelelő technikák
kategorikus Chi-négyzet teszt
sorszám Chi-négyzet teszt
Spearman rang
korreláció (Tau)
Arány / intervallum Pearson
korreláció (Rho)

vegye figyelembe, hogy a korrelációs elemzések csak két változó közötti lineáris kapcsolatokat észlelnek. Az alábbi ábra két kis adatkészletet mutat be, ahol egyértelműen összefüggések vannak a két változó között. A második adatkészlet korrelációja azonban, ahol a kapcsolat nem lineáris, 0,0. Ezen adatok egyszerű korrelációs elemzése azt sugallná, hogy nincs összefüggés az intézkedések között, amikor nyilvánvalóan nem ez a helyzet. Ez szemlélteti annak fontosságát, hogy alapvető leíró elemzéseket végezzünk, mielőtt a változók közötti különbségek és kapcsolatok elemzésébe kezdenénk.

 kép: két kis adathalmaz, ahol egyértelműen összefüggések vannak a két változó között

teszt érvényesség

szignifikancia szintek

a teszt statisztikai szignifikanciája a valószínűség mértéke – annak valószínűsége, hogy a teszt adott eredményét megkapta volna az adott mintán, ha a tesztelt nullhipotézis (miszerint a vizsgált paraméterek miatt nincs hatás) igaz volt. Az alábbi példa azt vizsgálja, hogy a vizsga pontszáma megváltozik-e, miután a jelöltek képzést kaptak. A hipotézis azt sugallja, hogy kellene, tehát a null hyopothesis az, hogy nem fognak.

általában az 5% feletti valószínűségi szint (p>0,05) nem tekinthető statisztikailag szignifikánsnak, és nagy felmérések esetén az 1% – ot (p>0,01) gyakran megfelelőbb szintnek tekintik.

vegye figyelembe, hogy a statisztikai szignifikancia nem jelenti azt, hogy a kapott eredmények valóban értéket képviselnek a kutatás összefüggésében. Ha elég nagy a mintája, akkor a csoportok közötti nagyon kis különbség statisztikailag szignifikánsnak tekinthető, de egy ilyen kis különbség a gyakorlatban irreleváns lehet. Másrészt egy látszólag nagy különbség nem lehet statisztikailag szignifikáns egy kis mintában, az összehasonlítandó csoportokon belüli eltérések miatt.

szabadságfokok

egyes tesztstatisztikák (pl. chi-négyzet) megkövetelik a szabadságfokok számának ismeretét, hogy a statisztikai szignifikanciát a helyes valószínűségi táblázattal teszteljék. Röviden: a szabadság foka azoknak az értékeknek a száma, amelyeket önkényesen lehet hozzárendelni a mintán belül.

például:

az n méretű, k osztályokra osztott mintában k-1 szabadságfokok vannak (az első k-1 csoportok bármilyen méretűek lehetnek n-ig, míg az utolsó az első k-1 és az n értéke. számszerűen, ha 500 egyedből álló mintát veszünk az Egyesült Királyságból, és megfigyeljük, hogy 300 Angliából, 100 Skóciából és 50 Walesből származik, akkor meg kell jegyezni, hogy a K-1 legyen 50 Észak-Írországból. Tekintettel az első három csoport számaira, nincs rugalmasság a végső csoport méretében. A minta négy csoportra osztása három fokú szabadságot ad.

egy P sorokat és q oszlopokat tartalmazó kétirányú kontingenciatáblázatban (p-1)*(q-1) szabadságfokok vannak (az első sorok és oszlopok értékeit figyelembe véve az utolsó sort és oszlopot a táblázat összegei korlátozzák)

egy-vagy Kétfarkú tesztek

ha, mint általában, egyszerűen az számít, hogy a populációk statisztikája eltérő, akkor az a helyzet, hogy a megfelelő a Kétfarkú teszt kritikus értékeinek használata.

Ha azonban csak azt szeretné megtudni, hogy az a populáció statisztikája nagyobb-e, mint a B populációé, akkor egyfarkú teszt lenne megfelelő. Az egyfarkú teszt kritikus értéke általában alacsonyabb, mint a Kétfarkú teszté, és csak akkor szabad használni, ha kutatási hipotézise az, hogy az a populációnak nagyobb értéke van, mint a B populációnak, és nem számít, mennyire különböznek egymástól, ha az A populáció értéke kisebb, mint a B populációé.

például

1.forgatókönyv

nullhipotézis – nincs különbség az átlagos vizsgaeredményekben az edzés előtt és után (azaz a képzésnek nincs hatása a vizsga pontszámára)
alternatíva – különbség van az átlagos pontszámokban az edzés előtt és után (azaz a képzésnek nincs meghatározatlan hatása)
Kétfarkú teszt használata

2. forgatókönyv

nullhipotézis-a képzés nem növeli az átlagos pontszámot
Alternatív – az átlagos pontszám az edzés után növekszik
használjon egy farok tesztet, ha megfigyelhető az átlagos pontszám növekedése.
(ha megfigyelhető a pontszámok csökkenése, akkor nincs szükség tesztelésre, mivel nem utasíthatja el a nullhipotézist.)

3.forgatókönyv

nullhipotézis – a képzés nem okozza az átlagos pontszámok csökkenését
Alternatív – az átlagos pontszám esik edzés után
használjon egy farok tesztet, ha megfigyelhető az átlagos pontszám csökkenése.
(ha megfigyelhető a pontszámok növekedése, akkor nincs szükség tesztelésre, mivel nem utasíthatja el a nullhipotézist.)

t-teszt: Párosított két minta az eszközökhöz
előtt után
átlag
variancia

46,547

46,830

észrevételek
szabadságfokok (df)
t Stat
P (T< =t) egy farok
t kritikus egy farok
P (T< =t) Kétfarkú
t kritikus két farok

ha a fenti vizsgálati eredményeket megkaptuk, akkor az 1.forgatókönyv szerint két farok teszt segítségével arra a következtetésre juthatunk, hogy nincs statisztikailag szignifikáns különbség a pontszámok között (p=0,08), és ennek következtében az edzésnek nincs hatása. Hasonlóképpen, a 3. forgatókönyv szerint arra a következtetésre jutna, hogy nincs bizonyíték arra, hogy a képzés az átlagos pontszámok csökkenését okozza, mivel valójában emelkedtek. A 2. forgatókönyv szerint azonban egy farok teszt alkalmazásával arra a következtetésre jutna, hogy az átlagos pontszámok növekedése statisztikailag szignifikáns volt az 5 százalékos szinten (p=0,04).

utolsó figyelmeztetés!

a statisztikai csomagok mindent megtesznek, amit mondasz nekik. Nem tudják, hogy az Ön által megadott adatok jó minőségűek-e, vagy (nagyon kevés kivétellel) megfelelő típusúak-e az elvégzett elemzéshez.

szemét be = szemét ki!

Advanced techniques

ezek az eszközök és technikák speciális alkalmazásokkal rendelkeznek, és általában a kutatási módszertan korai szakaszában, az adatok összegyűjtése előtt kerülnek kialakításra. Ha ezek bármelyikének használatát fontolgatja, érdemes konzultálnia egy speciális szöveggel vagy egy tapasztalt statisztikussal, mielőtt elkezdené.

minden esetben adunk néhány példát a smaragd cikkekre, amelyek ezt a technikát használják.

faktoranalízis

a későbbi elemzéshez szükséges változók számának csökkentése az eredeti mért változók kombinációinak létrehozásával, amelyek a lehető legnagyobb mértékben figyelembe veszik az eredeti varianciát, de lehetővé teszik az eredmények könnyebb értelmezését. Általánosan használt, hogy hozzon létre egy kis sor dimenzió alapján a nagyszámú véleményt nyilatkozatok egyenként eddig Likert skála. Több megfigyeléssel (tantárgyakkal) kell rendelkeznie, mint elemzendő változókkal.

például

Likert skála változó: “Szeretek csokoládé fagylaltot enni reggelire”

határozottan egyetértek

határozottan nem ért egyet

Page és Wong ‘ s servant leadership instrument faktoranalízise
Rob Dennis és Bruce E. Winston
Leadership & Organization Development Journal , vol. 24 no. 8

a benchmarking elfogadásának tényezőinek megértése: új bizonyítékok Malajziából
Yean Pin Lee, Suhaiza Zailani és Keng Lin Soh
Benchmarking: Nemzetközi folyóirat, vol. 13 no. 5

klaszteranalízis

az alanyok hasonló jellemzőkkel rendelkező csoportokba történő besorolása a mért változók értékei szerint. Több megfigyeléssel kell rendelkeznie, mint amennyit az elemzésben szereplő változók tartalmaznak.

ökológiai termékek elkerülése: az elutasítás okai és a potenciális vásárlók azonosítása egy országos felmérésben
C. Fotopoulos és A. Krystallis
British Food Journal, vol. 104 no. 3/4/5

pénzügyi nehézségek kimutatása többváltozós statisztikai elemzéssel
S. Gamesalingam és Kuldeep Kumar
vezetői pénzügyek, vol. 27 no. 4

diszkrimináns elemzés

azon változók azonosítása, amelyek a legjobban megkülönböztetik az ismert alanycsoportokat. Az eredmények felhasználhatók új alanyok hozzárendelésére az ismert csoportokhoz a megkülönböztető változók értékei alapján

pénzügyi nehézségek kimutatása többváltozós statisztikai elemzéssel
S. Gamesalingam and Kuldeep Kumar
vezetői pénzügyek, vol. 27 no. 4

a benchmarking elfogadásának tényezőinek megértése: Új bizonyítékok Malajziából
Yean Pin Lee , Suhaiza Zailani és Keng Lin Soh
Benchmarking: an International Journal, vol. 13 no. 5

módszertan

diszkrimináns elemzést használtunk annak meghatározására, hogy statisztikailag szignifikáns különbségek vannak-e az átlagos pontszámprofil között egy változókészleten két a priori meghatározott csoport esetében, és így lehetővé tették azok osztályozását. Ezenkívül segíthet meghatározni, hogy a független változók közül melyik adja a legjobban a két csoport átlagos pontszámprofiljának különbségeit. Ebben a tanulmányban a diszkrimináns elemzés volt a fő eszköz a benchmarking alkalmazók és a nem alkalmazók osztályozásához. Azt is felhasználták annak meghatározására, hogy a független változók közül melyik járulna hozzá a benchmarking elfogadásához.

regresszió

annak modellezése, hogy egy függő változó hogyan viselkedik más, független változók halmazának értékeitől függően. A függő változónak intervallumnak vagy aránynak kell lennie; a független változók bármilyen típusúak lehetnek, de speciális módszereket kell alkalmazni, ha kategorikus vagy ordinális független változókat vesznek fel az elemzésbe.

a tejmarketing fejlődése Angliában és Walesben az 1990-es években
Jeremy Franks
British Food Journal, vol. 103 no.9

tűz alatt álló képzés: a képzés előtt álló akadályok és a kkv-k fejlődése közötti kapcsolat Palesztinában
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no.2

idősorok elemzése

egy adott időszak alatt rendszeresen mért változó mintázatainak és tendenciáinak vizsgálata. A szezonális változások azonosítására és kiigazítására is használható, például a pénzügyi statisztikákban.

a lakásárak trendjeinek és ciklikus viselkedésének elemzése az ázsiai piacokon
Ming-Chi Chen, Yuichiro Kawaguchi és Kanak Patel
Journal of Property Investment & Finance, vol. 22 no.1

grafikus megjelenítés

az adatok grafikus formában történő bemutatása növelheti az eredmények hozzáférhetőségét a nem technikai közönség számára, és kiemelheti azokat a hatásokat és eredményeket, amelyek egyébként hosszadalmas magyarázatot vagy összetett táblázatokat igényelnének. Ezért fontos a megfelelő grafikai technikák alkalmazása. Ez a szakasz példákat mutat be a leggyakrabban használt grafikus bemutatókra, és jelzi, hogy mikor használhatók. Minden, kivéve a hisztogramot, a Microsoft Excel használatával készültek.

oszlop-vagy oszlopdiagramok

négy fő variáció létezik, és az, hogy az adatokat vízszintes sávokban vagy függőleges oszlopokban jeleníti-e meg, nagyrészt személyes preferencia kérdése.

hisztogram

a frekvencia eloszlásának szemléltetésére kategorikus vagy sorszámos adatokban, vagy csoportosított Arány/intervallum adatokban. Általában oszlopdiagramként jelenik meg.

 kép: Hisztogram

fürtözött oszlop/sáv

kategorikus, sorszámos vagy csoportosított Arány/intervallum adatok összehasonlítása kategóriák között. A 4.ábrán használt adatok megegyeznek az 5. és 6. ábrán használtakkal.

kép: fürtözött oszlop/sáv

halmozott oszlop/sáv

a kategóriák szerinti kategorikus, sorszámos vagy csoportosított Arány/intervallumadatok összességéhez való tényleges hozzájárulás szemléltetésére. Az 5.ábrán használt adatok megegyeznek a 4. és 6. ábrán használtakkal.

 kép: Halmozott oszlop / sáv

százalékos halmozott oszlop/sáv

a kategóriák közötti kategorikus, sorszámos vagy csoportosított Arány/intervallum adatok teljes százalékos hozzájárulásának összehasonlítása. A 6.ábrán használt adatok megegyeznek a 4. és 5. ábrán használtakkal.

kép: százalékos halmozott oszlop/sáv

vonaldiagramok

a sorrendi vagy Arány/intervallum adatok tendenciáinak megjelenítése. A gráf pontjait csak akkor szabad vonallal összekapcsolni, ha az x tengely adatai legalább sorszámosak. Az egyik speciális alkalmazás az intervallum/Arány adatok frekvenciaeloszlásának ábrázolása (8.ábra).

kép: vonaldiagramok

kördiagramok

a kategorikus, sorszámos vagy csoportosított Arány/intervallum adatok százalékos hozzájárulásának megjelenítése.

kép: kördiagram

Scatter grafikonok

két változó közötti kapcsolat szemléltetésére, bármilyen típusú (bár a leghasznosabb, ha mindkét változó arány/intervallum típusú). Hasznos az adatok szokatlan megfigyeléseinek azonosításában is.

 kép: Scatter graph

Box and whisker plot

egy speciális grafikon, amely egy nagy adathalmaz központi tendenciáját és terjedését szemlélteti, beleértve a kiugró értékeket is.

kép: Box and whisker plot

források

összekötő matematika
rövid magyarázatok matematikai kifejezések és ötletek

statisztikai szószedet
által összeállított Valerie J. Easton és John H. McColl Glasgow University

Statsoft elektronikus tankönyv

100 statisztikai vizsgálatok Gopal K. Kandzsi
(Sage, 1993, ISBN 141292376X)

Graham Upton és Ian szakács Oxfordi statisztikai szótára
(Oxford University Press, 2006, ISBN 0198614314)

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.