- alapok
- mit akarsz tudni?
- milyen típusú adatokkal rendelkezik?
- milyen feltételezéseket lehet – és nem lehet – tenni?
- nem normális eloszlás technikái
- paraméteres vagy nem paraméteres statisztikák?
- központi határ tétel
- mennyit várhat el az adataiból?
- alapvető technikák
- az adatok leírása
- csoportok és változók közötti különbségek
- a változók közötti kapcsolatok
- teszt érvényesség
- szignifikancia szintek
- szabadságfokok
- például:
- egy-vagy Kétfarkú tesztek
- például
- utolsó figyelmeztetés!
- Advanced techniques
- faktoranalízis
- például
- klaszteranalízis
- diszkrimináns elemzés
- regresszió
- idősorok elemzése
- grafikus megjelenítés
- oszlop-vagy oszlopdiagramok
- hisztogram
- fürtözött oszlop/sáv
- halmozott oszlop/sáv
- százalékos halmozott oszlop/sáv
- vonaldiagramok
- kördiagramok
- Scatter grafikonok
- Box and whisker plot
- források
alapok
kezdje el gondolkodni az elemzéshez használt technikákon, mielőtt bármilyen adatot gyűjtene.
mit akarsz tudni?
az elemzésnek kapcsolódnia kell a kutatási kérdésekhez, és ez diktálhatja az alkalmazott technikákat.
milyen típusú adatokkal rendelkezik?
az adatok típusa szintén alapvető – az intervallum-és arányváltozókhoz megfelelő technikák és eszközök nem alkalmasak kategorikus vagy sorszámos mérésekre. (Lásd: Hogyan gyűjtsünk adatokat az adattípusokra vonatkozó megjegyzésekhez)
milyen feltételezéseket lehet – és nem lehet – tenni?
számos technika arra támaszkodik, hogy a vizsgálati statisztika mintavételi eloszlása normális eloszlás (lásd alább). Ez mindig így van, ha az adatok mögöttes eloszlása normális, de a gyakorlatban előfordulhat, hogy az adatok nem oszlanak meg rendesen. Például hosszú válasz lehet az egyik vagy a másik oldalra (ferde adatok). Az ilyen helyzetekben nem paraméteres technikák alkalmazhatók, de ezek elkerülhetetlenül kevésbé hatékonyak és kevésbé rugalmasak. Ha azonban a minta mérete elég nagy, akkor a centrális határérték tétel lehetővé teszi a standard analízisek és eszközök használatát.
nem normális eloszlás technikái
paraméteres vagy nem paraméteres statisztikák?
a paraméteres módszerek és statisztikák az alapul szolgáló eloszlásra vonatkozó feltételezések halmazán alapulnak, hogy érvényes eredményeket adjanak. Általában megkövetelik, hogy a változók normális eloszlásúak legyenek.
nem paraméteres technikákat kell alkalmazni a kategorikus és a sorszámos adatokhoz, de a & intervallum arányadatok esetében ezek általában kevésbé hatékonyak és kevésbé rugalmasak, és csak akkor alkalmazhatók, ha a standard, paraméteres vizsgálat nem megfelelő-például ha a minta mérete kicsi (30 megfigyelés alatt).
központi határ tétel
a minta méretének növekedésével a tesztstatisztika mintavételi eloszlásának alakja normálissá válik, még akkor is, ha a vizsgált változó eloszlása nem normális.
a gyakorlatban ez több mint 30 megfigyelésből számított vizsgálati statisztikákra alkalmazható.
mennyit várhat el az adataiból?
minél kisebb a minta mérete, annál kevesebbet tud kijutni az adataiból. A Standard hiba fordítottan kapcsolódik a minta méretéhez, így minél nagyobb a minta, annál kisebb a standard hiba, és annál nagyobb esélye lesz statisztikailag szignifikáns eredmények azonosítására az elemzés során.
alapvető technikák
általában minden olyan technika, amely kategorikus adatokon használható, sorszámos adatokon is használható. Bármely technika, amely használható a sorszámadatok is használható Arány vagy intervallum adatok. A fordított nem ez a helyzet.
az adatok leírása
minden elemzés első lépése az adatok leírása, és ezáltal a népesség, amelyből származnak. Az ehhez a tevékenységhez megfelelő statisztikák három nagy csoportba sorolhatók, és az adatok típusától függenek.
mit akarsz csinálni? | milyen típusú adatokkal? | megfelelő technikák |
---|---|---|
nézd meg az eloszlást | kategorikus / sorszám | rajzolja meg a százalékot minden kategóriában (oszlop vagy oszlopdiagram) |
Arány / intervallum | hisztogram kumulatív frekvencia diagram |
|
írja le a központi tendencia |
kategorikus | n / a |
sorszám | medián mód |
|
Arány / intervallum | átlag medián |
|
írja le a szórást | kategorikus | n / a |
sorszám | tartomány kvartilisek közötti tartomány |
|
Arány / intervallum | tartomány kvartilisek közötti tartomány variancia Standard variáció |
a főbb grafikai technikák leírását lásd a grafikus bemutatóban.
átlag – az összes érték összegzésével kiszámított számtani átlag, amelyet elosztunk az összegben lévő értékek számával.
medián – az eloszlás középpontja, ahol az értékek fele magasabb és fele alacsonyabb.
mód-a leggyakrabban előforduló érték.
tartomány – a legmagasabb és a legalacsonyabb érték közötti különbség.
kvartilisek közötti tartomány-a felső kvartilis (az az érték, ahol a megfigyelések 25% – a magasabb és 75% – kal alacsonyabb) és az alsó kvartilis (az az érték, ahol a megfigyelések 75% – a magasabb és 25% – kal alacsonyabb) közötti különbség. Ez különösen akkor hasznos, ha van egy kis számú szélsőséges megfigyelések sokkal magasabb, vagy alacsonyabb, mint a többség.
variancia-a szórás mértéke,amelyet a megfigyelések négyzetes különbségeinek átlagaként számítanak ki.
szórás – a variancia négyzetgyöke.
csoportok és változók közötti különbségek
Chi-négyzet teszt – két vagy több kategorikus vagy sorszámos adat eloszlásának összehasonlítására szolgál.
t-tesztek – két adatkészlet eszközeinek összehasonlítására szolgálnak.
Wilcoxon U teszt – a t-teszt nem paraméteres megfelelője. Az adatok rangsorolási sorrendje alapján a mediánok összehasonlítására is használható.
ANOVA-varianciaanalízis, több mint két adatcsoport átlagának összehasonlítására.
mit akarsz csinálni? | milyen típusú adatokkal? | megfelelő technikák |
---|---|---|
két csoport összehasonlítása | kategorikus | Chi-négyzet teszt |
sorszám | Chi-négyzet teszt Wicoxon U teszt |
|
Arány / intervallum | T-teszt független mintákhoz |
|
több mint két csoport összehasonlítása | kategorikus / sorszám | Chi-négyzet teszt |
Arány / intervallum | ANOVA | |
hasonlítson össze két változót ugyanazon alanyok |
kategorikus / sorszámos | Chi-négyzet teszt |
Arány / intervallum | t-teszt függő mintákhoz |
a változók közötti kapcsolatok
a korrelációs együttható két változó közötti lineáris asszociáció mértékét méri, +1-től -1-ig terjedő értékkel. A pozitív értékek azt jelzik, hogy a két változó együtt növekszik és csökken; negatív értékek, amelyek az egyik növekszik, ahogy a másik csökken. A nulla korrelációs együttható azt jelzi, hogy nincs lineáris kapcsolat a két változó között. A Spearman rangkorreláció a Pearson-korreláció nem paraméteres megfelelője.
milyen típusú adatok? | megfelelő technikák |
---|---|
kategorikus | Chi-négyzet teszt |
sorszám | Chi-négyzet teszt Spearman rang korreláció (Tau) |
Arány / intervallum | Pearson korreláció (Rho) |
vegye figyelembe, hogy a korrelációs elemzések csak két változó közötti lineáris kapcsolatokat észlelnek. Az alábbi ábra két kis adatkészletet mutat be, ahol egyértelműen összefüggések vannak a két változó között. A második adatkészlet korrelációja azonban, ahol a kapcsolat nem lineáris, 0,0. Ezen adatok egyszerű korrelációs elemzése azt sugallná, hogy nincs összefüggés az intézkedések között, amikor nyilvánvalóan nem ez a helyzet. Ez szemlélteti annak fontosságát, hogy alapvető leíró elemzéseket végezzünk, mielőtt a változók közötti különbségek és kapcsolatok elemzésébe kezdenénk.
teszt érvényesség
szignifikancia szintek
a teszt statisztikai szignifikanciája a valószínűség mértéke – annak valószínűsége, hogy a teszt adott eredményét megkapta volna az adott mintán, ha a tesztelt nullhipotézis (miszerint a vizsgált paraméterek miatt nincs hatás) igaz volt. Az alábbi példa azt vizsgálja, hogy a vizsga pontszáma megváltozik-e, miután a jelöltek képzést kaptak. A hipotézis azt sugallja, hogy kellene, tehát a null hyopothesis az, hogy nem fognak.
általában az 5% feletti valószínűségi szint (p>0,05) nem tekinthető statisztikailag szignifikánsnak, és nagy felmérések esetén az 1% – ot (p>0,01) gyakran megfelelőbb szintnek tekintik.
vegye figyelembe, hogy a statisztikai szignifikancia nem jelenti azt, hogy a kapott eredmények valóban értéket képviselnek a kutatás összefüggésében. Ha elég nagy a mintája, akkor a csoportok közötti nagyon kis különbség statisztikailag szignifikánsnak tekinthető, de egy ilyen kis különbség a gyakorlatban irreleváns lehet. Másrészt egy látszólag nagy különbség nem lehet statisztikailag szignifikáns egy kis mintában, az összehasonlítandó csoportokon belüli eltérések miatt.
szabadságfokok
egyes tesztstatisztikák (pl. chi-négyzet) megkövetelik a szabadságfokok számának ismeretét, hogy a statisztikai szignifikanciát a helyes valószínűségi táblázattal teszteljék. Röviden: a szabadság foka azoknak az értékeknek a száma, amelyeket önkényesen lehet hozzárendelni a mintán belül.
például:
az n méretű, k osztályokra osztott mintában k-1 szabadságfokok vannak (az első k-1 csoportok bármilyen méretűek lehetnek n-ig, míg az utolsó az első k-1 és az n értéke. számszerűen, ha 500 egyedből álló mintát veszünk az Egyesült Királyságból, és megfigyeljük, hogy 300 Angliából, 100 Skóciából és 50 Walesből származik, akkor meg kell jegyezni, hogy a K-1 legyen 50 Észak-Írországból. Tekintettel az első három csoport számaira, nincs rugalmasság a végső csoport méretében. A minta négy csoportra osztása három fokú szabadságot ad.
egy P sorokat és q oszlopokat tartalmazó kétirányú kontingenciatáblázatban (p-1)*(q-1) szabadságfokok vannak (az első sorok és oszlopok értékeit figyelembe véve az utolsó sort és oszlopot a táblázat összegei korlátozzák)
egy-vagy Kétfarkú tesztek
ha, mint általában, egyszerűen az számít, hogy a populációk statisztikája eltérő, akkor az a helyzet, hogy a megfelelő a Kétfarkú teszt kritikus értékeinek használata.
Ha azonban csak azt szeretné megtudni, hogy az a populáció statisztikája nagyobb-e, mint a B populációé, akkor egyfarkú teszt lenne megfelelő. Az egyfarkú teszt kritikus értéke általában alacsonyabb, mint a Kétfarkú teszté, és csak akkor szabad használni, ha kutatási hipotézise az, hogy az a populációnak nagyobb értéke van, mint a B populációnak, és nem számít, mennyire különböznek egymástól, ha az A populáció értéke kisebb, mint a B populációé.
például
1.forgatókönyv
nullhipotézis – nincs különbség az átlagos vizsgaeredményekben az edzés előtt és után (azaz a képzésnek nincs hatása a vizsga pontszámára)
alternatíva – különbség van az átlagos pontszámokban az edzés előtt és után (azaz a képzésnek nincs meghatározatlan hatása)
Kétfarkú teszt használata
2. forgatókönyv
nullhipotézis-a képzés nem növeli az átlagos pontszámot
Alternatív – az átlagos pontszám az edzés után növekszik
használjon egy farok tesztet, ha megfigyelhető az átlagos pontszám növekedése.
(ha megfigyelhető a pontszámok csökkenése, akkor nincs szükség tesztelésre, mivel nem utasíthatja el a nullhipotézist.)
3.forgatókönyv
nullhipotézis – a képzés nem okozza az átlagos pontszámok csökkenését
Alternatív – az átlagos pontszám esik edzés után
használjon egy farok tesztet, ha megfigyelhető az átlagos pontszám csökkenése.
(ha megfigyelhető a pontszámok növekedése, akkor nincs szükség tesztelésre, mivel nem utasíthatja el a nullhipotézist.)
előtt | után | |
átlag | ||
variancia |
46,547 |
46,830 |
észrevételek | ||
szabadságfokok (df) | ||
t Stat | ||
P (T< =t) egy farok | ||
t kritikus egy farok | ||
P (T< =t) Kétfarkú | ||
t kritikus két farok |
ha a fenti vizsgálati eredményeket megkaptuk, akkor az 1.forgatókönyv szerint két farok teszt segítségével arra a következtetésre juthatunk, hogy nincs statisztikailag szignifikáns különbség a pontszámok között (p=0,08), és ennek következtében az edzésnek nincs hatása. Hasonlóképpen, a 3. forgatókönyv szerint arra a következtetésre jutna, hogy nincs bizonyíték arra, hogy a képzés az átlagos pontszámok csökkenését okozza, mivel valójában emelkedtek. A 2. forgatókönyv szerint azonban egy farok teszt alkalmazásával arra a következtetésre jutna, hogy az átlagos pontszámok növekedése statisztikailag szignifikáns volt az 5 százalékos szinten (p=0,04).
utolsó figyelmeztetés!
a statisztikai csomagok mindent megtesznek, amit mondasz nekik. Nem tudják, hogy az Ön által megadott adatok jó minőségűek-e, vagy (nagyon kevés kivétellel) megfelelő típusúak-e az elvégzett elemzéshez.
szemét be = szemét ki!
Advanced techniques
ezek az eszközök és technikák speciális alkalmazásokkal rendelkeznek, és általában a kutatási módszertan korai szakaszában, az adatok összegyűjtése előtt kerülnek kialakításra. Ha ezek bármelyikének használatát fontolgatja, érdemes konzultálnia egy speciális szöveggel vagy egy tapasztalt statisztikussal, mielőtt elkezdené.
minden esetben adunk néhány példát a smaragd cikkekre, amelyek ezt a technikát használják.
faktoranalízis
a későbbi elemzéshez szükséges változók számának csökkentése az eredeti mért változók kombinációinak létrehozásával, amelyek a lehető legnagyobb mértékben figyelembe veszik az eredeti varianciát, de lehetővé teszik az eredmények könnyebb értelmezését. Általánosan használt, hogy hozzon létre egy kis sor dimenzió alapján a nagyszámú véleményt nyilatkozatok egyenként eddig Likert skála. Több megfigyeléssel (tantárgyakkal) kell rendelkeznie, mint elemzendő változókkal.
például
Likert skála változó: “Szeretek csokoládé fagylaltot enni reggelire”
határozottan egyetértek |
határozottan nem ért egyet |
Page és Wong ‘ s servant leadership instrument faktoranalízise
Rob Dennis és Bruce E. Winston
Leadership & Organization Development Journal , vol. 24 no. 8
a benchmarking elfogadásának tényezőinek megértése: új bizonyítékok Malajziából
Yean Pin Lee, Suhaiza Zailani és Keng Lin Soh
Benchmarking: Nemzetközi folyóirat, vol. 13 no. 5
klaszteranalízis
az alanyok hasonló jellemzőkkel rendelkező csoportokba történő besorolása a mért változók értékei szerint. Több megfigyeléssel kell rendelkeznie, mint amennyit az elemzésben szereplő változók tartalmaznak.
ökológiai termékek elkerülése: az elutasítás okai és a potenciális vásárlók azonosítása egy országos felmérésben
C. Fotopoulos és A. Krystallis
British Food Journal, vol. 104 no. 3/4/5
pénzügyi nehézségek kimutatása többváltozós statisztikai elemzéssel
S. Gamesalingam és Kuldeep Kumar
vezetői pénzügyek, vol. 27 no. 4
diszkrimináns elemzés
azon változók azonosítása, amelyek a legjobban megkülönböztetik az ismert alanycsoportokat. Az eredmények felhasználhatók új alanyok hozzárendelésére az ismert csoportokhoz a megkülönböztető változók értékei alapján
pénzügyi nehézségek kimutatása többváltozós statisztikai elemzéssel
S. Gamesalingam and Kuldeep Kumar
vezetői pénzügyek, vol. 27 no. 4
a benchmarking elfogadásának tényezőinek megértése: Új bizonyítékok Malajziából
Yean Pin Lee , Suhaiza Zailani és Keng Lin Soh
Benchmarking: an International Journal, vol. 13 no. 5
módszertan
diszkrimináns elemzést használtunk annak meghatározására, hogy statisztikailag szignifikáns különbségek vannak-e az átlagos pontszámprofil között egy változókészleten két a priori meghatározott csoport esetében, és így lehetővé tették azok osztályozását. Ezenkívül segíthet meghatározni, hogy a független változók közül melyik adja a legjobban a két csoport átlagos pontszámprofiljának különbségeit. Ebben a tanulmányban a diszkrimináns elemzés volt a fő eszköz a benchmarking alkalmazók és a nem alkalmazók osztályozásához. Azt is felhasználták annak meghatározására, hogy a független változók közül melyik járulna hozzá a benchmarking elfogadásához.
regresszió
annak modellezése, hogy egy függő változó hogyan viselkedik más, független változók halmazának értékeitől függően. A függő változónak intervallumnak vagy aránynak kell lennie; a független változók bármilyen típusúak lehetnek, de speciális módszereket kell alkalmazni, ha kategorikus vagy ordinális független változókat vesznek fel az elemzésbe.
a tejmarketing fejlődése Angliában és Walesben az 1990-es években
Jeremy Franks
British Food Journal, vol. 103 no.9
tűz alatt álló képzés: a képzés előtt álló akadályok és a kkv-k fejlődése közötti kapcsolat Palesztinában
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no.2
idősorok elemzése
egy adott időszak alatt rendszeresen mért változó mintázatainak és tendenciáinak vizsgálata. A szezonális változások azonosítására és kiigazítására is használható, például a pénzügyi statisztikákban.
a lakásárak trendjeinek és ciklikus viselkedésének elemzése az ázsiai piacokon
Ming-Chi Chen, Yuichiro Kawaguchi és Kanak Patel
Journal of Property Investment & Finance, vol. 22 no.1
grafikus megjelenítés
az adatok grafikus formában történő bemutatása növelheti az eredmények hozzáférhetőségét a nem technikai közönség számára, és kiemelheti azokat a hatásokat és eredményeket, amelyek egyébként hosszadalmas magyarázatot vagy összetett táblázatokat igényelnének. Ezért fontos a megfelelő grafikai technikák alkalmazása. Ez a szakasz példákat mutat be a leggyakrabban használt grafikus bemutatókra, és jelzi, hogy mikor használhatók. Minden, kivéve a hisztogramot, a Microsoft Excel használatával készültek.
oszlop-vagy oszlopdiagramok
négy fő variáció létezik, és az, hogy az adatokat vízszintes sávokban vagy függőleges oszlopokban jeleníti-e meg, nagyrészt személyes preferencia kérdése.
hisztogram
a frekvencia eloszlásának szemléltetésére kategorikus vagy sorszámos adatokban, vagy csoportosított Arány/intervallum adatokban. Általában oszlopdiagramként jelenik meg.
fürtözött oszlop/sáv
kategorikus, sorszámos vagy csoportosított Arány/intervallum adatok összehasonlítása kategóriák között. A 4.ábrán használt adatok megegyeznek az 5. és 6. ábrán használtakkal.
halmozott oszlop/sáv
a kategóriák szerinti kategorikus, sorszámos vagy csoportosított Arány/intervallumadatok összességéhez való tényleges hozzájárulás szemléltetésére. Az 5.ábrán használt adatok megegyeznek a 4. és 6. ábrán használtakkal.
százalékos halmozott oszlop/sáv
a kategóriák közötti kategorikus, sorszámos vagy csoportosított Arány/intervallum adatok teljes százalékos hozzájárulásának összehasonlítása. A 6.ábrán használt adatok megegyeznek a 4. és 5. ábrán használtakkal.
vonaldiagramok
a sorrendi vagy Arány/intervallum adatok tendenciáinak megjelenítése. A gráf pontjait csak akkor szabad vonallal összekapcsolni, ha az x tengely adatai legalább sorszámosak. Az egyik speciális alkalmazás az intervallum/Arány adatok frekvenciaeloszlásának ábrázolása (8.ábra).
kördiagramok
a kategorikus, sorszámos vagy csoportosított Arány/intervallum adatok százalékos hozzájárulásának megjelenítése.
Scatter grafikonok
két változó közötti kapcsolat szemléltetésére, bármilyen típusú (bár a leghasznosabb, ha mindkét változó arány/intervallum típusú). Hasznos az adatok szokatlan megfigyeléseinek azonosításában is.
Box and whisker plot
egy speciális grafikon, amely egy nagy adathalmaz központi tendenciáját és terjedését szemlélteti, beleértve a kiugró értékeket is.
források
összekötő matematika
rövid magyarázatok matematikai kifejezések és ötletek
statisztikai szószedet
által összeállított Valerie J. Easton és John H. McColl Glasgow University
Statsoft elektronikus tankönyv
100 statisztikai vizsgálatok Gopal K. Kandzsi
(Sage, 1993, ISBN 141292376X)
Graham Upton és Ian szakács Oxfordi statisztikai szótára
(Oxford University Press, 2006, ISBN 0198614314)