- základy
- co chcete vědět?
- jaký typ dat máte?
- jaké předpoklady můžete – a nemůžete – udělat?
- techniky pro nenormální rozdělení
- parametrické nebo neparametrické statistiky?
- centrální limitní věta
- kolik můžete očekávat, že se z vašich dat dostanete?
- základní techniky
- popis vašich údajů
- rozdíly mezi skupinami a proměnnými
- vztahy mezi proměnnými
- testování platnosti
- úrovně významnosti
- stupně volnosti
- například:
- testy s jedním ocasem nebo dvěma ocasy
- například
- Poslední varování!
- pokročilé techniky
- faktorová analýza
- například
- shluková analýza
- diskriminační analýza
- regrese
- Analýza časových řad
- grafická prezentace
- Sloupcové nebo sloupcové grafy
- Histogram
- seskupený sloupec / lišta
- Skládaný sloupec / lišta
- procento Skládaný sloupec / lišta
- řádkové grafy
- výsečové grafy
- rozptylové grafy
- Box and whisker plot
- Resources
základy
začněte přemýšlet o technikách, které použijete pro vaši analýzu, než shromáždíte jakákoli data.
co chcete vědět?
analýza se musí týkat výzkumných otázek, což může diktovat techniky, které byste měli použít.
jaký typ dat máte?
typ dat, který máte, je také zásadní-techniky a nástroje vhodné pro proměnné intervalu a poměru nejsou vhodné pro kategorická nebo pořadová opatření. (Viz Jak sbírat data pro poznámky k typům dat)
jaké předpoklady můžete – a nemůžete – udělat?
mnoho technik se spoléhá na to, že rozdělení vzorku statistické hodnoty testu je normální rozdělení (viz níže). To je vždy případ, kdy je základní distribuce dat normální, ale v praxi nemusí být data normálně distribuována. Například by mohl existovat dlouhý ocas odpovědí na jednu nebo druhou stranu(zkreslená data). V takových situacích jsou k dispozici neparametrické techniky, které jsou však nevyhnutelně méně výkonné a méně flexibilní. Pokud je však velikost vzorku dostatečně velká, centrální limitní věta umožňuje použití standardních analýz a nástrojů.
techniky pro nenormální rozdělení
parametrické nebo neparametrické statistiky?
parametrické metody a statistiky se spoléhají na soubor předpokladů o základním rozdělení, aby poskytly platné výsledky. Obecně vyžadují, aby proměnné měly normální rozdělení.
neparametrické techniky musí být použity pro kategorická a pořadová data, ale pro údaje o poměru intervalu & jsou obecně méně výkonné a méně flexibilní a měly by být použity pouze tehdy – pokud standardní parametrický test není vhodný-např. pokud je velikost vzorku malá (pod 30 pozorování).
centrální limitní věta
jak se velikost vzorku zvětšuje, tvar vzorkovacího rozdělení statistiky testu má tendenci být normální, i když rozdělení testované proměnné není normální.
v praxi to lze použít pro statistiku testů vypočtenou z více než 30 pozorování.
kolik můžete očekávat, že se z vašich dat dostanete?
čím menší je velikost vzorku, tím méně se můžete dostat z vašich dat. Standardní chyba nepřímo souvisí s velikostí vzorku, takže čím větší je váš vzorek, tím menší je standardní chyba, a tím větší šanci budete mít při identifikaci statisticky významných výsledků ve vaší analýze.
základní techniky
obecně platí, že jakákoli technika, která může být použita na kategorických datech, může být také použita na pořadových datech. Jakákoli technika, která může být použita na pořadových datech, může být také použita na údajích o poměru nebo intervalu. Opak není tento případ.
popis vašich údajů
první fází jakékoli analýzy by mělo být popis vašich údajů a tedy populace, ze které jsou čerpány. Statistiky vhodné pro tuto činnost spadají do tří širokých skupin a závisí na typu údajů, které máte.
co chceš dělat? | s jakým typem dat? | vhodné techniky |
---|---|---|
podívejte se na rozdělení | kategorické / pořadové | vykreslete procento v každé kategorii (sloupcový nebo sloupcový graf) |
poměr / Interval | Histogram kumulativní frekvence diagram |
|
popište centrální tendenci |
kategorický | n / a |
ordinální | medián režim |
|
poměr / Interval | průměr medián |
|
popište spread | kategorický | n / a |
ordinální | rozsah rozsah mezi kvartily |
|
poměr / Interval | rozsah Mezikartilní rozsah rozptyl standardní variace |
popis hlavních grafických technik naleznete v grafické prezentaci.
průměr-aritmetický průměr, vypočtený součtem všech hodnot a vydělením počtem hodnot v součtu.
medián-střední bod distribuce, kde polovina hodnot je vyšší a polovina nižší.
režim-nejčastěji se vyskytující hodnota.
rozsah-rozdíl mezi nejvyšší a nejnižší hodnotou.
Mezikartilní rozsah-rozdíl mezi horním kvartilem (hodnota, kde 25% pozorování je vyšší a 75% nižší) a dolním kvartilem (hodnota, kde 75% pozorování je vyšší a 25% nižší). To je zvláště užitečné tam, kde je malý počet extrémních pozorování mnohem vyšší nebo nižší než většina.
rozptyl-míra šíření, vypočtená jako průměr čtvercových rozdílů pozorování od jejich průměru.
směrodatná odchylka – druhá odmocnina rozptylu.
rozdíly mezi skupinami a proměnnými
Chi-kvadrátový test-používá se k porovnání rozdělení dvou nebo více sad kategorických nebo pořadových dat.
t-testy-slouží k porovnání prostředků dvou sad dat.
Wilcoxonův u test-neparametrický ekvivalent t-testu. Na základě pořadí dat, může být také použit k porovnání mediánů.
ANOVA-analýza rozptylu, porovnat prostředky více než dvou skupin dat.
co chceš dělat? | s jakým typem dat? | vhodné techniky |
---|---|---|
Porovnejte dvě skupiny | kategorický | Chi-kvadrátový test |
ordinální | Chí-kvadrátový test Wicoxon u test |
|
poměr / Interval | t-test pro nezávislé vzorky |
|
porovnejte více než dvě skupiny | kategorický / ordinální | Chi-kvadrátový test |
poměr / Interval | ANOVA | |
Porovnejte dvě proměnné za stejnou předměty |
kategorické / pořadové | Chi-kvadrátový test |
poměr / Interval | t-test pro závislé vzorky |
vztahy mezi proměnnými
korelační koeficient měří stupeň lineární asociace mezi dvěma proměnnými s hodnotou v rozmezí +1 až -1. Kladné hodnoty naznačují, že tyto dvě proměnné se zvyšují a snižují společně; záporné hodnoty, které jedna zvyšuje, jak druhá klesá. Korelační koeficient nula označuje Žádný lineární vztah mezi oběma proměnnými. Spearmanova rank korelace je neparametrický ekvivalent Pearsonovy korelace.
jaký typ dat? | vhodné techniky |
---|---|
kategorický | chí-kvadrát test |
ordinální | Chi-kvadrátový test Spearman rank korelace (Tau) |
poměr / Interval | Pearson korelace (Rho) |
pamatujte, že korelační analýzy detekují pouze lineární vztahy mezi dvěma proměnnými. Níže uvedený obrázek znázorňuje dvě malé datové sady, kde existují jasně vztahy mezi těmito dvěma proměnnými. Korelace pro druhou datovou sadu, kde vztah není lineární, je však 0,0. Jednoduchá korelační analýza těchto údajů by nenaznačovala žádný vztah mezi opatřeními, pokud tomu tak zjevně není. To ilustruje důležitost provedení řady základních popisných analýz před zahájením analýz rozdílů a vztahů mezi proměnnými.
testování platnosti
úrovně významnosti
statistická významnost testu je měřítkem pravděpodobnosti – pravděpodobnost, že byste získali tento konkrétní výsledek testu na tomto vzorku, pokud nulová hypotéza (že neexistuje žádný účinek kvůli testovaným parametrům), kterou testujete, byla pravdivá. Níže uvedený příklad testuje, zda se skóre ve zkoušce změní poté, co uchazeči absolvovali školení. Hypotéza naznačuje, že by měly, takže nulová hyopotéza je, že nebudou.
obecně se jakákoli úroveň pravděpodobnosti nad 5% (p>0,05) nepovažuje za statisticky významnou a pro velké průzkumy se 1% (p> 0,01)často považuje za vhodnější úroveň.
Všimněte si, že statistická významnost neznamená, že výsledky, které jste získali, mají skutečně hodnotu v kontextu vašeho výzkumu. Pokud máte dostatečně velký vzorek, lze velmi malý rozdíl mezi skupinami identifikovat jako statisticky významný, ale takový malý rozdíl může být v praxi irelevantní. Na druhé straně zjevně velký rozdíl nemusí být statisticky významný v malém vzorku, vzhledem k odchylkám v rámci porovnávaných skupin.
stupně volnosti
některé statistiky testů (např. chi-kvadrát) vyžadují, aby byl znám počet stupňů volnosti, aby bylo možné testovat statistickou významnost proti správné tabulce pravděpodobnosti. Stručně řečeno, stupně volnosti je počet hodnot, které lze libovolně přiřadit ve vzorku.
například:
ve vzorku velikosti n rozděleném do tříd k existují stupně volnosti k-1 (první skupiny k-1 mohou mít libovolnou velikost až n, zatímco poslední je stanovena součtem prvního k-1 a hodnotou n. číselně, pokud je vzorek 500 jedinců odebrán z Velké Británie a je pozorováno, že 300 je z Anglie, 100 ze Skotska a 50 z Walesu, pak musí být 50 ze Severního Irska. Vzhledem k číslům z prvních tří skupin neexistuje flexibilita ve velikosti konečné skupiny. Rozdělení vzorku do čtyř skupin dává tři stupně volnosti.
v obousměrné kontingenční tabulce s řádky p a sloupci q existují (p-1)*(q-1) stupně volnosti (vzhledem k hodnotám prvních řádků a sloupců je poslední řádek a sloupec omezen součty v tabulce)
testy s jedním ocasem nebo dvěma ocasy
pokud, jak je tomu obecně, záleží pouze na tom, že statistiky pro populace jsou odlišné, pak je vhodné použít kritické hodnoty pro dvouocasý test.
pokud vás však zajímá pouze to, zda statistika pro populaci A má větší hodnotu než statistika pro populaci B, pak by byl vhodný jednoocasý test. Kritická hodnota pro jednoocasý test je obecně nižší než u dvouocasého testu a měla by být použita pouze v případě, že vaše výzkumná hypotéza je taková, že populace A má větší hodnotu než populace B, a nezáleží na tom, jak se liší, pokud má populace a hodnotu menší než u populace B.
například
Scénář 1
nulová hypotéza – neexistuje žádný rozdíl v průměrných skóre zkoušky před a po tréninku (tj. trénink nemá žádný vliv na skóre zkoušky)
alternativa – existuje rozdíl v průměrných skóre před a po tréninku (tj. trénink má nespecifikovaný účinek)
použijte test se dvěma ocasy
scénář 2
nulová hypotéza-trénink nezvyšuje průměrné skóre
alternativa – střední skóre před a po tréninku skóre se zvyšuje po tréninku
použijte test s jedním ocasem, pokud je pozorováno zvýšení průměrného skóre.
(pokud je pozorován pokles skóre, není třeba testovat, protože nemůžete odmítnout nulovou hypotézu.
scénář 3
nulová hypotéza-trénink nezpůsobuje pokles průměrných skóre
alternativní-průměrné skóre klesá po tréninku
použijte test s jedním ocasem, pokud je pozorován pokles průměrného skóre.
(pokud je pozorováno zvýšení skóre, není třeba testovat, protože nemůžete odmítnout nulovou hypotézu.)
před | po | |
průměr | ||
rozptyl |
46,547 |
46,830 |
připomínky | ||
stupně volnosti (df) | ||
t Stat | ||
P (T< =t) jednoocasý | ||
t kritický jeden ocas | ||
P (T< =t) dvouocasý | ||
Tereza Dvořáková |
pokud byly získány výše uvedené výsledky testů, pak podle scénáře 1 pomocí testu se dvěma ocasy můžete dojít k závěru, že mezi skóre nebyl statisticky významný rozdíl (p=0,08) a v důsledku toho tento trénink neměl žádný účinek. Podobně podle scénáře 3 byste dospěli k závěru, že neexistují žádné důkazy, které by naznačovaly, že trénink způsobuje pokles průměrných skóre, protože ve skutečnosti vzrostly. Podle scénáře 2 byste však pomocí testu s jedním ocasem dospěli k závěru, že došlo ke zvýšení průměrných skóre, statisticky významných na úrovni 5% (p=0,04).
Poslední varování!
statistické balíčky udělají to, co jim řeknete, jako celek. Nevědí, zda jsou údaje, které jste poskytli, kvalitní, nebo (až na několik málo výjimek), zda jsou vhodného typu pro provedenou analýzu.
odpadky v = odpadky ven!
pokročilé techniky
tyto nástroje a techniky mají specializované aplikace a budou obecně navrženy do metodiky výzkumu v rané fázi, než budou shromážděny jakékoli údaje. Pokud uvažujete o použití některého z nich, možná budete chtít konzultovat odborný text nebo zkušeného statistika, než začnete.
v každém případě uvádíme několik příkladů smaragdových článků, které používají tuto techniku.
faktorová analýza
snížit počet proměnných pro následnou analýzu vytvořením kombinací původních měřených proměnných, které představují co největší část původního rozptylu, ale umožňují snadnější interpretaci výsledků. Běžně se používá k vytvoření malé sady dimenzí hodnocení z velkého počtu názorových prohlášení individuálně hodnocených na likertových stupnicích. Musíte mít více pozorování (subjektů), než máte proměnné, které mají být analyzovány.
například
proměnná Likertovy stupnice: „Rád jím čokoládovou zmrzlinu na snídani“
důrazně souhlasím |
Rozhodně nesouhlasím |
faktorová analýza nástroje Page a Wong ‚ s servant leadership instrument
Rob Dennis a Bruce E.Winston
Leadership & Organization Development Journal , vol. 24 no. 8
porozumění faktorům pro přijetí benchmarkingu: nové důkazy z Malajsie
Yean Pin Lee, Suhaiza Zailani a Keng Lin Soh
Benchmarking: Mezinárodní časopis, vol. 13 no. 5
shluková analýza
klasifikovat subjekty do skupin s podobnými charakteristikami podle hodnot měřených proměnných. Musíte mít více pozorování, než máte proměnné zahrnuté do analýzy.
vyhýbání se organickým produktům: důvody odmítnutí a identifikace potenciálních kupujících v celostátním průzkumu
C. Fotopoulos a a. Krystallis
British Food Journal, vol. 104 č. 3/4/5
detekce finanční tísně pomocí vícerozměrné statistické analýzy
s. Gamesalingam a Kuldeep Kumar
manažerské Finance, vol. 27 no. 4
diskriminační analýza
k identifikaci těch proměnných, které nejlépe rozlišují mezi známými skupinami subjektů. Výsledky mohou být použity k přidělení nových subjektů známým skupinám na základě jejich hodnot diskriminačních proměnných
detekce finanční tísně pomocí vícerozměrné statistické analýzy
s. Gamesalingam a Kuldeep Kumar
manažerské Finance, sv. 27 no. 4
porozumění faktorům pro benchmarking adopce: Nové důkazy z Malajsie
Yean Pin Lee, Suhaiza Zailani a Keng Lin Soh
Benchmarking: an International Journal , vol. 13 no. 5
metodika
diskriminační analýza byla použita k určení, zda existují statisticky významné rozdíly mezi průměrným profilem skóre na sadě proměnných pro dvě a priori definované skupiny, a umožnila tak jejich klasifikaci. Kromě toho by to mohlo pomoci určit, která z nezávislých proměnných nejvíce odpovídá rozdílům v průměrných profilech skóre obou skupin. V této studii, diskriminační analýza byla hlavním nástrojem pro klasifikaci srovnávacího osvojitele a neosvojitele. Bylo také použito k určení, která z nezávislých proměnných by přispěla k přijetí srovnávacích kritérií.
regrese
k modelování chování jedné závislé proměnné v závislosti na hodnotách sady dalších nezávislých proměnných. Závislá proměnná musí být interval nebo poměr typu; nezávislé proměnné mohou být jakéhokoli typu, ale při zahrnutí kategorických nebo pořadových nezávislých proměnných do analýzy musí být použity speciální metody.
vývoj v marketingu mléka v Anglii a Walesu během 1990
Jeremy Franks
British Food Journal, vol. 103 no. 9
Training under fire: the relationship between překážky, kterým čelí vzdělávání a rozvoj malých a středních podniků v Palestině
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2
Analýza časových řad
k prozkoumání vzorců a trendů v proměnné měřené pravidelně po určitou dobu. Lze také použít k identifikaci a přizpůsobení sezónních změn, například ve finanční statistice.
analýza trendů a cyklického chování cen nemovitostí na asijských trzích
Ming-Chi Chen, Yuichiro Kawaguchi a Kanak Patel
Journal of Property Investment & Finance, vol. 22 no. 1
grafická prezentace
Prezentace dat v grafické podobě může zvýšit Přístupnost vašich výsledků netechnickému publiku a zvýraznit efekty a výsledky, které by jinak vyžadovaly zdlouhavé vysvětlení nebo složité tabulky. Je proto důležité, aby byly použity vhodné grafické techniky. Tato část uvádí příklady některých nejčastěji používaných grafických prezentací, a označuje, kdy mohou být použity. Všechny, kromě histogramu, byly vyrobeny pomocí aplikace Microsoft Excel®.
Sloupcové nebo sloupcové grafy
existují čtyři hlavní varianty a to, zda zobrazujete data ve vodorovných nebo svislých sloupcích, je do značné míry věcí osobních preferencí.
Histogram
pro ilustraci rozdělení frekvence v kategorických nebo pořadových datech nebo seskupených datech poměru / intervalu. Obvykle se zobrazuje jako sloupcový graf.
seskupený sloupec / lišta
pro porovnání kategorických, pořadových nebo seskupených údajů o poměru / intervalu mezi kategoriemi. Údaje použité na obr. 4 jsou stejné jako údaje na obr. 5 a 6.
Skládaný sloupec / lišta
pro ilustraci skutečného příspěvku k součtu pro kategorické, pořadové nebo seskupené údaje o poměru/intervalu podle kategorií. Údaje použité na obr. 5 jsou stejné jako údaje na obr. 4 a 6.
procento Skládaný sloupec / lišta
pro porovnání procentního příspěvku k součtu pro kategorické, pořadové nebo seskupené údaje o poměru/intervalu napříč kategoriemi. Údaje použité na obr. 6 jsou stejné jako údaje na obr. 4 a 5.
řádkové grafy
pro zobrazení trendů v pořadových nebo poměrných/intervalových datech. Body na grafu by měly být spojeny s čarou, pouze pokud jsou data na ose x alespoň ordinální. Jednou z konkrétních aplikací je vykreslení frekvenční distribuce pro data interval/poměr (obr. 8).
výsečové grafy
pro zobrazení procentuálního příspěvku k celku kategorických, pořadových nebo seskupených údajů o poměru / intervalu.
rozptylové grafy
pro ilustraci vztahu mezi dvěma proměnnými jakéhokoli typu (i když nejužitečnější, kde obě proměnné jsou poměr / interval v typu). Také užitečné při identifikaci jakýchkoli neobvyklých pozorování v datech.
Box and whisker plot
specializovaný graf ilustrující centrální tendenci a šíření velkého souboru dat, včetně jakýchkoli odlehlých hodnot.
Resources
Connecting Mathematics
stručné vysvětlení matematických pojmů a myšlenek
Statistics Glosář
sestavil Valerie J. Easton a John H. McColl z Glasgow University
Statsoft electronic učebnice
100 statistické testy Gopal k. Kanji
(Sage, 1993, ISBN 141292376X)
Oxfordský slovník statistik Graham Upton a Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)