jak na to…Vyberte si správnou statistickou techniku

základy

začněte přemýšlet o technikách, které použijete pro vaši analýzu, než shromáždíte jakákoli data.

co chcete vědět?

analýza se musí týkat výzkumných otázek, což může diktovat techniky, které byste měli použít.

jaký typ dat máte?

typ dat, který máte, je také zásadní-techniky a nástroje vhodné pro proměnné intervalu a poměru nejsou vhodné pro kategorická nebo pořadová opatření. (Viz Jak sbírat data pro poznámky k typům dat)

jaké předpoklady můžete – a nemůžete – udělat?

mnoho technik se spoléhá na to, že rozdělení vzorku statistické hodnoty testu je normální rozdělení (viz níže). To je vždy případ, kdy je základní distribuce dat normální, ale v praxi nemusí být data normálně distribuována. Například by mohl existovat dlouhý ocas odpovědí na jednu nebo druhou stranu(zkreslená data). V takových situacích jsou k dispozici neparametrické techniky, které jsou však nevyhnutelně méně výkonné a méně flexibilní. Pokud je však velikost vzorku dostatečně velká, centrální limitní věta umožňuje použití standardních analýz a nástrojů.

techniky pro nenormální rozdělení

parametrické nebo neparametrické statistiky?

parametrické metody a statistiky se spoléhají na soubor předpokladů o základním rozdělení, aby poskytly platné výsledky. Obecně vyžadují, aby proměnné měly normální rozdělení.

neparametrické techniky musí být použity pro kategorická a pořadová data, ale pro údaje o poměru intervalu & jsou obecně méně výkonné a méně flexibilní a měly by být použity pouze tehdy – pokud standardní parametrický test není vhodný-např. pokud je velikost vzorku malá (pod 30 pozorování).

centrální limitní věta

jak se velikost vzorku zvětšuje, tvar vzorkovacího rozdělení statistiky testu má tendenci být normální, i když rozdělení testované proměnné není normální.

v praxi to lze použít pro statistiku testů vypočtenou z více než 30 pozorování.

 obrázek: normální distribuční funkce

kolik můžete očekávat, že se z vašich dat dostanete?

čím menší je velikost vzorku, tím méně se můžete dostat z vašich dat. Standardní chyba nepřímo souvisí s velikostí vzorku, takže čím větší je váš vzorek, tím menší je standardní chyba, a tím větší šanci budete mít při identifikaci statisticky významných výsledků ve vaší analýze.

základní techniky

obecně platí, že jakákoli technika, která může být použita na kategorických datech, může být také použita na pořadových datech. Jakákoli technika, která může být použita na pořadových datech, může být také použita na údajích o poměru nebo intervalu. Opak není tento případ.

popis vašich údajů

první fází jakékoli analýzy by mělo být popis vašich údajů a tedy populace, ze které jsou čerpány. Statistiky vhodné pro tuto činnost spadají do tří širokých skupin a závisí na typu údajů, které máte.

co chceš dělat? s jakým typem dat? vhodné techniky
podívejte se na rozdělení kategorické / pořadové vykreslete procento
v každé kategorii
(sloupcový nebo sloupcový graf)
poměr / Interval Histogram
kumulativní frekvence
diagram
popište
centrální tendenci
kategorický n / a
ordinální medián
režim
poměr / Interval průměr
medián
popište spread kategorický n / a
ordinální rozsah
rozsah mezi kvartily
poměr / Interval rozsah
Mezikartilní rozsah
rozptyl
standardní variace

popis hlavních grafických technik naleznete v grafické prezentaci.

průměr-aritmetický průměr, vypočtený součtem všech hodnot a vydělením počtem hodnot v součtu.

medián-střední bod distribuce, kde polovina hodnot je vyšší a polovina nižší.

režim-nejčastěji se vyskytující hodnota.

rozsah-rozdíl mezi nejvyšší a nejnižší hodnotou.

Mezikartilní rozsah-rozdíl mezi horním kvartilem (hodnota, kde 25% pozorování je vyšší a 75% nižší) a dolním kvartilem (hodnota, kde 75% pozorování je vyšší a 25% nižší). To je zvláště užitečné tam, kde je malý počet extrémních pozorování mnohem vyšší nebo nižší než většina.

rozptyl-míra šíření, vypočtená jako průměr čtvercových rozdílů pozorování od jejich průměru.

směrodatná odchylka – druhá odmocnina rozptylu.

rozdíly mezi skupinami a proměnnými

Chi-kvadrátový test-používá se k porovnání rozdělení dvou nebo více sad kategorických nebo pořadových dat.

t-testy-slouží k porovnání prostředků dvou sad dat.

Wilcoxonův u test-neparametrický ekvivalent t-testu. Na základě pořadí dat, může být také použit k porovnání mediánů.

ANOVA-analýza rozptylu, porovnat prostředky více než dvou skupin dat.

co chceš dělat? s jakým typem dat? vhodné techniky
Porovnejte dvě skupiny kategorický Chi-kvadrátový test
ordinální Chí-kvadrátový test
Wicoxon u test
poměr / Interval t-test pro
nezávislé vzorky
porovnejte více než dvě skupiny kategorický / ordinální Chi-kvadrátový test
poměr / Interval ANOVA
Porovnejte dvě proměnné
za stejnou předměty
kategorické / pořadové Chi-kvadrátový test
poměr / Interval t-test pro
závislé vzorky

vztahy mezi proměnnými

korelační koeficient měří stupeň lineární asociace mezi dvěma proměnnými s hodnotou v rozmezí +1 až -1. Kladné hodnoty naznačují, že tyto dvě proměnné se zvyšují a snižují společně; záporné hodnoty, které jedna zvyšuje, jak druhá klesá. Korelační koeficient nula označuje Žádný lineární vztah mezi oběma proměnnými. Spearmanova rank korelace je neparametrický ekvivalent Pearsonovy korelace.

jaký typ dat? vhodné techniky
kategorický chí-kvadrát test
ordinální Chi-kvadrátový test
Spearman rank
korelace (Tau)
poměr / Interval Pearson
korelace (Rho)

pamatujte, že korelační analýzy detekují pouze lineární vztahy mezi dvěma proměnnými. Níže uvedený obrázek znázorňuje dvě malé datové sady, kde existují jasně vztahy mezi těmito dvěma proměnnými. Korelace pro druhou datovou sadu, kde vztah není lineární, je však 0,0. Jednoduchá korelační analýza těchto údajů by nenaznačovala žádný vztah mezi opatřeními, pokud tomu tak zjevně není. To ilustruje důležitost provedení řady základních popisných analýz před zahájením analýz rozdílů a vztahů mezi proměnnými.

 obrázek: dvě malé datové sady, kde jsou jasně vztahy mezi dvěma proměnnými

testování platnosti

úrovně významnosti

statistická významnost testu je měřítkem pravděpodobnosti – pravděpodobnost, že byste získali tento konkrétní výsledek testu na tomto vzorku, pokud nulová hypotéza (že neexistuje žádný účinek kvůli testovaným parametrům), kterou testujete, byla pravdivá. Níže uvedený příklad testuje, zda se skóre ve zkoušce změní poté, co uchazeči absolvovali školení. Hypotéza naznačuje, že by měly, takže nulová hyopotéza je, že nebudou.

obecně se jakákoli úroveň pravděpodobnosti nad 5% (p>0,05) nepovažuje za statisticky významnou a pro velké průzkumy se 1% (p> 0,01)často považuje za vhodnější úroveň.

Všimněte si, že statistická významnost neznamená, že výsledky, které jste získali, mají skutečně hodnotu v kontextu vašeho výzkumu. Pokud máte dostatečně velký vzorek, lze velmi malý rozdíl mezi skupinami identifikovat jako statisticky významný, ale takový malý rozdíl může být v praxi irelevantní. Na druhé straně zjevně velký rozdíl nemusí být statisticky významný v malém vzorku, vzhledem k odchylkám v rámci porovnávaných skupin.

stupně volnosti

některé statistiky testů (např. chi-kvadrát) vyžadují, aby byl znám počet stupňů volnosti, aby bylo možné testovat statistickou významnost proti správné tabulce pravděpodobnosti. Stručně řečeno, stupně volnosti je počet hodnot, které lze libovolně přiřadit ve vzorku.

například:

ve vzorku velikosti n rozděleném do tříd k existují stupně volnosti k-1 (první skupiny k-1 mohou mít libovolnou velikost až n, zatímco poslední je stanovena součtem prvního k-1 a hodnotou n. číselně, pokud je vzorek 500 jedinců odebrán z Velké Británie a je pozorováno, že 300 je z Anglie, 100 ze Skotska a 50 z Walesu, pak musí být 50 ze Severního Irska. Vzhledem k číslům z prvních tří skupin neexistuje flexibilita ve velikosti konečné skupiny. Rozdělení vzorku do čtyř skupin dává tři stupně volnosti.

v obousměrné kontingenční tabulce s řádky p a sloupci q existují (p-1)*(q-1) stupně volnosti (vzhledem k hodnotám prvních řádků a sloupců je poslední řádek a sloupec omezen součty v tabulce)

testy s jedním ocasem nebo dvěma ocasy

pokud, jak je tomu obecně, záleží pouze na tom, že statistiky pro populace jsou odlišné, pak je vhodné použít kritické hodnoty pro dvouocasý test.

pokud vás však zajímá pouze to, zda statistika pro populaci A má větší hodnotu než statistika pro populaci B, pak by byl vhodný jednoocasý test. Kritická hodnota pro jednoocasý test je obecně nižší než u dvouocasého testu a měla by být použita pouze v případě, že vaše výzkumná hypotéza je taková, že populace A má větší hodnotu než populace B, a nezáleží na tom, jak se liší, pokud má populace a hodnotu menší než u populace B.

například

Scénář 1

nulová hypotéza – neexistuje žádný rozdíl v průměrných skóre zkoušky před a po tréninku (tj. trénink nemá žádný vliv na skóre zkoušky)
alternativa – existuje rozdíl v průměrných skóre před a po tréninku (tj. trénink má nespecifikovaný účinek)
použijte test se dvěma ocasy

scénář 2

nulová hypotéza-trénink nezvyšuje průměrné skóre
alternativa – střední skóre před a po tréninku skóre se zvyšuje po tréninku
použijte test s jedním ocasem, pokud je pozorováno zvýšení průměrného skóre.
(pokud je pozorován pokles skóre, není třeba testovat, protože nemůžete odmítnout nulovou hypotézu.

scénář 3

nulová hypotéza-trénink nezpůsobuje pokles průměrných skóre
alternativní-průměrné skóre klesá po tréninku
použijte test s jedním ocasem, pokud je pozorován pokles průměrného skóre.
(pokud je pozorováno zvýšení skóre, není třeba testovat, protože nemůžete odmítnout nulovou hypotézu.)

t-Test: Spárované Dva vzorky pro prostředky
před po
průměr
rozptyl

46,547

46,830

připomínky
stupně volnosti (df)
t Stat
P (T< =t) jednoocasý
t kritický jeden ocas
P (T< =t) dvouocasý
Tereza Dvořáková

pokud byly získány výše uvedené výsledky testů, pak podle scénáře 1 pomocí testu se dvěma ocasy můžete dojít k závěru, že mezi skóre nebyl statisticky významný rozdíl (p=0,08) a v důsledku toho tento trénink neměl žádný účinek. Podobně podle scénáře 3 byste dospěli k závěru, že neexistují žádné důkazy, které by naznačovaly, že trénink způsobuje pokles průměrných skóre, protože ve skutečnosti vzrostly. Podle scénáře 2 byste však pomocí testu s jedním ocasem dospěli k závěru, že došlo ke zvýšení průměrných skóre, statisticky významných na úrovni 5% (p=0,04).

Poslední varování!

statistické balíčky udělají to, co jim řeknete, jako celek. Nevědí, zda jsou údaje, které jste poskytli, kvalitní, nebo (až na několik málo výjimek), zda jsou vhodného typu pro provedenou analýzu.

odpadky v = odpadky ven!

pokročilé techniky

tyto nástroje a techniky mají specializované aplikace a budou obecně navrženy do metodiky výzkumu v rané fázi, než budou shromážděny jakékoli údaje. Pokud uvažujete o použití některého z nich, možná budete chtít konzultovat odborný text nebo zkušeného statistika, než začnete.

v každém případě uvádíme několik příkladů smaragdových článků, které používají tuto techniku.

faktorová analýza

snížit počet proměnných pro následnou analýzu vytvořením kombinací původních měřených proměnných, které představují co největší část původního rozptylu, ale umožňují snadnější interpretaci výsledků. Běžně se používá k vytvoření malé sady dimenzí hodnocení z velkého počtu názorových prohlášení individuálně hodnocených na likertových stupnicích. Musíte mít více pozorování (subjektů), než máte proměnné, které mají být analyzovány.

například

proměnná Likertovy stupnice: „Rád jím čokoládovou zmrzlinu na snídani“

důrazně souhlasím

Rozhodně nesouhlasím

faktorová analýza nástroje Page a Wong ‚ s servant leadership instrument
Rob Dennis a Bruce E.Winston
Leadership & Organization Development Journal , vol. 24 no. 8

porozumění faktorům pro přijetí benchmarkingu: nové důkazy z Malajsie
Yean Pin Lee, Suhaiza Zailani a Keng Lin Soh
Benchmarking: Mezinárodní časopis, vol. 13 no. 5

shluková analýza

klasifikovat subjekty do skupin s podobnými charakteristikami podle hodnot měřených proměnných. Musíte mít více pozorování, než máte proměnné zahrnuté do analýzy.

vyhýbání se organickým produktům: důvody odmítnutí a identifikace potenciálních kupujících v celostátním průzkumu
C. Fotopoulos a a. Krystallis
British Food Journal, vol. 104 č. 3/4/5

detekce finanční tísně pomocí vícerozměrné statistické analýzy
s. Gamesalingam a Kuldeep Kumar
manažerské Finance, vol. 27 no. 4

diskriminační analýza

k identifikaci těch proměnných, které nejlépe rozlišují mezi známými skupinami subjektů. Výsledky mohou být použity k přidělení nových subjektů známým skupinám na základě jejich hodnot diskriminačních proměnných

detekce finanční tísně pomocí vícerozměrné statistické analýzy
s. Gamesalingam a Kuldeep Kumar
manažerské Finance, sv. 27 no. 4

porozumění faktorům pro benchmarking adopce: Nové důkazy z Malajsie
Yean Pin Lee, Suhaiza Zailani a Keng Lin Soh
Benchmarking: an International Journal , vol. 13 no. 5

metodika

diskriminační analýza byla použita k určení, zda existují statisticky významné rozdíly mezi průměrným profilem skóre na sadě proměnných pro dvě a priori definované skupiny, a umožnila tak jejich klasifikaci. Kromě toho by to mohlo pomoci určit, která z nezávislých proměnných nejvíce odpovídá rozdílům v průměrných profilech skóre obou skupin. V této studii, diskriminační analýza byla hlavním nástrojem pro klasifikaci srovnávacího osvojitele a neosvojitele. Bylo také použito k určení, která z nezávislých proměnných by přispěla k přijetí srovnávacích kritérií.

regrese

k modelování chování jedné závislé proměnné v závislosti na hodnotách sady dalších nezávislých proměnných. Závislá proměnná musí být interval nebo poměr typu; nezávislé proměnné mohou být jakéhokoli typu, ale při zahrnutí kategorických nebo pořadových nezávislých proměnných do analýzy musí být použity speciální metody.

vývoj v marketingu mléka v Anglii a Walesu během 1990
Jeremy Franks
British Food Journal, vol. 103 no. 9

Training under fire: the relationship between překážky, kterým čelí vzdělávání a rozvoj malých a středních podniků v Palestině
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2

Analýza časových řad

k prozkoumání vzorců a trendů v proměnné měřené pravidelně po určitou dobu. Lze také použít k identifikaci a přizpůsobení sezónních změn, například ve finanční statistice.

analýza trendů a cyklického chování cen nemovitostí na asijských trzích
Ming-Chi Chen, Yuichiro Kawaguchi a Kanak Patel
Journal of Property Investment & Finance, vol. 22 no. 1

grafická prezentace

Prezentace dat v grafické podobě může zvýšit Přístupnost vašich výsledků netechnickému publiku a zvýraznit efekty a výsledky, které by jinak vyžadovaly zdlouhavé vysvětlení nebo složité tabulky. Je proto důležité, aby byly použity vhodné grafické techniky. Tato část uvádí příklady některých nejčastěji používaných grafických prezentací, a označuje, kdy mohou být použity. Všechny, kromě histogramu, byly vyrobeny pomocí aplikace Microsoft Excel®.

Sloupcové nebo sloupcové grafy

existují čtyři hlavní varianty a to, zda zobrazujete data ve vodorovných nebo svislých sloupcích, je do značné míry věcí osobních preferencí.

Histogram

pro ilustraci rozdělení frekvence v kategorických nebo pořadových datech nebo seskupených datech poměru / intervalu. Obvykle se zobrazuje jako sloupcový graf.

 obrázek: Histogram

seskupený sloupec / lišta

pro porovnání kategorických, pořadových nebo seskupených údajů o poměru / intervalu mezi kategoriemi. Údaje použité na obr. 4 jsou stejné jako údaje na obr. 5 a 6.

 obrázek: seskupený sloupec / lišta

Skládaný sloupec / lišta

pro ilustraci skutečného příspěvku k součtu pro kategorické, pořadové nebo seskupené údaje o poměru/intervalu podle kategorií. Údaje použité na obr. 5 jsou stejné jako údaje na obr. 4 a 6.

obrázek: Skládaný sloupec / lišta

procento Skládaný sloupec / lišta

pro porovnání procentního příspěvku k součtu pro kategorické, pořadové nebo seskupené údaje o poměru/intervalu napříč kategoriemi. Údaje použité na obr. 6 jsou stejné jako údaje na obr. 4 a 5.

 obrázek: procento Skládaný sloupec / bar

řádkové grafy

pro zobrazení trendů v pořadových nebo poměrných/intervalových datech. Body na grafu by měly být spojeny s čarou, pouze pokud jsou data na ose x alespoň ordinální. Jednou z konkrétních aplikací je vykreslení frekvenční distribuce pro data interval/poměr (obr. 8).

 obrázek: čárové grafy

výsečové grafy

pro zobrazení procentuálního příspěvku k celku kategorických, pořadových nebo seskupených údajů o poměru / intervalu.

 obrázek: výsečový graf

rozptylové grafy

pro ilustraci vztahu mezi dvěma proměnnými jakéhokoli typu (i když nejužitečnější, kde obě proměnné jsou poměr / interval v typu). Také užitečné při identifikaci jakýchkoli neobvyklých pozorování v datech.

 obrázek: Scatter graph

Box and whisker plot

specializovaný graf ilustrující centrální tendenci a šíření velkého souboru dat, včetně jakýchkoli odlehlých hodnot.

 Image: Box and whisker plot

Resources

Connecting Mathematics
stručné vysvětlení matematických pojmů a myšlenek

Statistics Glosář
sestavil Valerie J. Easton a John H. McColl z Glasgow University

Statsoft electronic učebnice

100 statistické testy Gopal k. Kanji
(Sage, 1993, ISBN 141292376X)

Oxfordský slovník statistik Graham Upton a Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.