- fundamentos
- o que você quer saber?
- que tipo de dados você tem?
- que suposições podem – e não podem-você fazer?
- técnicas para uma distribuição não Normal
- Estatísticas paramétricas ou não paramétricas?
- teorema do limite Central
- quanto você pode esperar para sair de seus dados?
- técnicas básicas
- descrevendo seus dados
- diferenças entre grupos e variáveis
- Relações entre variáveis
- Teste de validade
- níveis de Significância
- graus de liberdade
- Por exemplo:
- Uma-cauda ou dois rabo-de-testes
- Por exemplo,
- um aviso final!
- técnicas avançadas
- análise fatorial
- por exemplo
- Análise de Cluster
- análise discriminante
- Regressão
- Análise de Séries Temporais
- apresentação gráfica
- gráficos de colunas ou barras
- histograma
- coluna/barra agrupada
- coluna/barra empilhada
- porcentagem coluna/barra empilhada
- gráficos de linha
- gráficos de Pizza
- os gráficos de Dispersão
- Gráfico de caixa e bigode
- Recursos
fundamentos
comece a pensar nas técnicas que você usará para sua análise antes de coletar quaisquer dados.
o que você quer saber?
a análise deve estar relacionada às questões de pesquisa, e isso pode ditar as técnicas que você deve usar.
que tipo de dados você tem?
o tipo de dados que você possui também é fundamental – as técnicas e ferramentas apropriadas para variáveis de intervalo e proporção não são adequadas para medidas categóricas ou ordinais. (Veja como coletar dados para notas sobre tipos de dados)
que suposições podem – e não podem-você fazer?
muitas técnicas dependem da distribuição amostral da estatística de teste sendo uma distribuição Normal (veja abaixo). Este é sempre o caso quando a distribuição subjacente dos dados é Normal, mas na prática, os dados podem não ser normalmente distribuídos. Por exemplo, pode haver uma longa cauda de respostas para um lado ou outro (dados distorcidos). Técnicas não paramétricas estão disponíveis para uso em tais situações, mas estas são inevitavelmente menos poderosas e menos flexíveis. No entanto, se o tamanho da amostra for suficientemente grande, o Teorema do limite Central permite o uso das análises e ferramentas padrão.
técnicas para uma distribuição não Normal
Estatísticas paramétricas ou não paramétricas?
métodos paramétricos e estatísticas dependem de um conjunto de suposições sobre a distribuição subjacente para fornecer resultados válidos. Em geral, eles exigem que as variáveis tenham uma distribuição Normal.
técnicas não paramétricas devem ser usadas para dados categóricos e ordinais, mas para dados de razão de intervalo & eles geralmente são menos poderosos e menos flexíveis, e só devem ser usados onde o teste padrão, paramétrico, não é apropriado – por exemplo, quando o tamanho da amostra é pequeno (abaixo de 30 observações).
teorema do limite Central
à medida que o tamanho da amostra aumenta, a forma da distribuição amostral da estatística de teste tende a se tornar Normal, mesmo que a distribuição da variável que está sendo testada não seja Normal.
na prática, isso pode ser aplicado a estatísticas de teste calculadas a partir de mais de 30 observações.
quanto você pode esperar para sair de seus dados?
quanto menor o tamanho da amostra, menos você pode sair de seus dados. O erro padrão está inversamente relacionado ao tamanho da amostra, portanto, quanto maior a amostra, menor o erro padrão e maior a chance de identificar resultados estatisticamente significativos em sua análise.
técnicas básicas
em geral, qualquer técnica que possa ser usada em dados categóricos também pode ser usada em dados ordinais. Qualquer técnica que possa ser usada em dados ordinais também pode ser usada em dados de proporção ou intervalo. O inverso não é o caso.
descrevendo seus dados
o primeiro estágio em qualquer análise deve ser descrever seus dados e, portanto, a população da qual é extraído. As estatísticas apropriadas para essa atividade se enquadram em três grandes grupos e dependem do tipo de dados que você possui.
o que queres fazer? | com que tipo de dados? | técnicas Apropriadas |
---|---|---|
Olhar para a distribuição | Categórica / Ordinal | Plot da porcentagem em cada categoria (gráfico de barras ou colunas) |
Taxa / Intervalo de | Histograma Cumulativa frequência diagrama de |
|
Descrever o tendência central |
Categórica | n/a |
Ordinal | Mediana Modo de |
|
Taxa / Intervalo de | Média Mediana |
|
Descrever a propagação | Categórica | n/a |
Ordinal | Gama Inter-quartil |
|
Taxa / Intervalo de | Gama Inter-quartil Desvio Padrão de variação |
Veja apresentação Gráfica para obter descrições dos gráficos principais técnicas.
média-a média aritmética, calculada somando todos os valores e dividindo pelo número de valores na soma.
mediana-o ponto médio da distribuição, onde metade dos valores são mais altos e metade mais baixos.
modo-o valor que ocorre com mais frequência.
intervalo-a diferença entre o valor mais alto e mais baixo.Intervalo Inter-quartil-a diferença entre o quartil superior (o valor em que 25% das observações são maiores e 75% menores) e o quartil inferior (o valor em que 75% das observações são maiores e 25% menores). Isso é particularmente útil quando há um pequeno número de observações extremas muito maior ou menor do que a maioria.Variância-uma medida de spread, calculada como a média das diferenças quadradas das observações em relação à sua média.
desvio padrão-a raiz quadrada da variância.
diferenças entre grupos e variáveis
teste Qui-quadrado-usado para comparar as distribuições de dois ou mais conjuntos de dados categóricos ou ordinais.
t-tests-usado para comparar as médias de dois conjuntos de dados.
teste Wilcoxon U-equivalente não paramétrico do teste T. Com base na ordem de classificação dos dados, também pode ser usado para comparar medianas.
ANOVA-análise de variância, para comparar as médias de mais de dois grupos de dados.
o que queres fazer? | com que tipo de dados? | técnicas Apropriadas |
---|---|---|
Comparar dois grupos | Categórica | teste Qui-quadrado |
Ordinal | teste Qui-quadrado Wicoxon teste U de |
|
Taxa / Intervalo de | t-teste para amostras independentes |
|
Comparar mais de dois grupos | Categórica / Ordinal | teste Qui-quadrado |
Taxa / Intervalo de | ANOVA | |
Comparar duas variáveis sobre o mesmo assuntos |
Categórica / Ordinal | teste Qui-quadrado |
Taxa / Intervalo de | t-teste para amostras dependentes |
Relações entre variáveis
O coeficiente de correlação mede o grau de associação linear entre duas variáveis, com um valor no intervalo de +1 a -1. Valores positivos indicam que as duas variáveis aumentam e diminuem juntas; valores negativos que um aumenta à medida que o outro diminui. Um coeficiente de correlação de zero indica nenhuma relação linear entre as duas variáveis. A correlação de classificação de Spearman é o equivalente não paramétrico da correlação de Pearson.
que tipo de dados? | técnicas Apropriadas |
---|---|
Categórica | teste Qui-quadrado |
Ordinal | teste Qui-quadrado Spearman correlação (Tau) |
Taxa / Intervalo de | Pearson correlação (Rho) |
Observe que a correlação análises apenas irá detectar as relações lineares entre as duas variáveis. A figura abaixo ilustra dois pequenos conjuntos de dados onde há claramente relações entre as duas variáveis. No entanto, a correlação para o segundo conjunto de dados, onde a relação não é linear, é 0,0. Uma simples análise de correlação desses dados sugeriria nenhuma relação entre as medidas, quando isso claramente não é o caso. Isso ilustra a importância de realizar uma série de análises descritivas básicas antes de iniciar análises das diferenças e relações entre as variáveis.
Teste de validade
níveis de Significância
A significância estatística de um teste é uma medida de probabilidade – probabilidade de que você teria obtido que determinado resultado do teste em que a amostra se a hipótese nula (de que não há nenhum efeito devido aos parâmetros a ser testado) você está testando era verdade. O exemplo abaixo testa se as pontuações em um exame mudam após os candidatos terem recebido treinamento. A hipótese sugere que eles devem, então, nula de hyopothesis é que não.
Em geral, com qualquer nível de probabilidade acima de 5% (p>0.05) não é considerada estatisticamente significativa, e para grandes pesquisas de 1% (p>0.01) é muitas vezes tomado como um nível mais apropriado.
observe que a significância estatística não significa que os resultados obtidos realmente tenham valor no contexto de sua pesquisa. Se você tiver uma amostra grande o suficiente, uma diferença muito pequena entre os grupos pode ser identificada como estatisticamente significativa, mas uma diferença tão pequena pode ser irrelevante na prática. Por outro lado, uma diferença aparentemente grande pode não ser estatisticamente significativa em uma amostra pequena, devido à variação dentro dos grupos em comparação.
graus de liberdade
algumas estatísticas de teste (por exemplo, qui-quadrado) exigem que o número de graus de liberdade seja conhecido, a fim de testar a significância estatística contra a tabela de probabilidade correta. Em resumo, os graus de liberdade são o número de valores que podem ser atribuídos arbitrariamente dentro da amostra.
Por exemplo:
Em uma amostra de tamanho n dividido em k classes, existem k-1 graus de liberdade (o primeiro k-1 grupos pode ser de qualquer tamanho n, enquanto que o último é fixo e o total do primeiro k-1 e o valor de n. Em termos numéricos, se uma amostra de 500 indivíduos é tomado a partir do reino UNIDO, e observa-se que 300 são da Inglaterra, a 100 metros da Escócia e 50, do país de Gales, então não deve ser de 50, da Irlanda do Norte. Dados os números dos três primeiros grupos, não há flexibilidade no tamanho do grupo final. Dividir a amostra em quatro grupos dá três graus de liberdade.
Em forma de tabelas de contingência com p linhas e p colunas, existem (p-1)*(q-1) graus de liberdade (dado os valores das primeiras linhas e colunas, a última linha e coluna são limitadas pelo totais na tabela)
Uma-cauda ou dois rabo-de-testes
Se, como é geralmente o caso, o que importa é simplesmente que as estatísticas para as populações são diferentes, então é apropriado usar os valores críticos para um teste bicaudal.
se, no entanto, você só estiver interessado em descobrir se a estatística para a população a tem um valor maior do que para a população B, então um teste de cauda única seria apropriado. O valor crítico para um teste de cauda única é geralmente menor do que para um teste de duas caudas, e só deve ser usado se sua hipótese de pesquisa for que a população a tem um valor maior do que a população B, e não importa quão diferentes sejam se a população a tem um valor menor do que o da população B.
Por exemplo,
Cenário 1
hipótese Nula: não existe diferença na média de pontuação exame antes e após o treinamento (i.e. formação não tem qualquer efeito sobre o exame de pontuação)
Alternativa – há uma diferença nas médias dos escores antes e após o treinamento (i.e. formação não especificado efeito)
Use um dois rabo-de-teste
Cenário 2
hipótese Nula de Treinamento não aumenta a média de pontuação
Alternativa – Média de pontuação aumenta após o treinamento
Usar um rabo-de-teste, se há um aumento observado na média de pontuação.
(se houver uma queda observada nas pontuações, não há necessidade de testar, pois você não pode rejeitar a hipótese nula.)
Cenário 3
hipótese nula – o treinamento não faz com que as pontuações médias caiam
alternativa – a pontuação média cai após o treinamento
Use um teste de uma cauda, se houver uma queda observada na pontuação média.
(se houver um aumento observado nas pontuações, não há necessidade de testar, pois você não pode rejeitar a hipótese nula.)
Antes de | Depois de | |
Média | ||
Variância |
46,547 |
46,830 |
Observações | ||
Graus de liberdade (df) | ||
t Stat | ||
P(T<=t) um rabo-de – | ||
t Crítico uni-caudal | ||
P(T<=t) bicaudal | ||
t Crítico bicaudal |
Se o teste acima resultados foram obtidos, em seguida, sob o cenário 1, utilizando um de dois rabo-de-teste, você pode concluir que não houve diferença estatisticamente significativa entre os escores (p=0,08), e, como conseqüência, que a formação não teve nenhum efeito. Da mesma forma, no cenário 3, você concluiria que não há evidências que sugiram que o treinamento Faça com que as pontuações médias caiam, pois de fato aumentaram. No entanto, no cenário 2, usando um teste de uma cauda, você concluiria que houve um aumento nos escores médios, estatisticamente significativo no nível de 5% (p=0,04).
um aviso final!
os pacotes estatísticos farão o que você lhes disser, no geral. Eles não sabem se os dados que você forneceu são de boa qualidade ou (com poucas exceções) se são de um tipo apropriado para a análise que você realizou.
lixo dentro = lixo fora!
técnicas avançadas
essas ferramentas e técnicas têm aplicações especializadas e geralmente serão projetadas para a metodologia de pesquisa em um estágio inicial, antes que quaisquer dados sejam coletados. Se você está pensando em usar qualquer um destes, você pode querer consultar um texto especialista ou um estatístico experiente antes de começar.
em cada caso, damos alguns exemplos de artigos Emerald que usam a técnica.
análise fatorial
Para reduzir o número de variáveis para análise posterior, criando combinações das variáveis originais medida que conta para o máximo de variância original quanto possível, mas permitem uma mais fácil interpretação dos resultados. Comumente usado para criar um pequeno conjunto de classificações de dimensão a partir de um grande número de declarações de opinião classificadas individualmente em escalas Likert. Você deve ter mais observações (assuntos) do que variáveis a serem analisadas.
por exemplo
uma variável de escala Likert: “Eu gosto de comer sorvete de chocolate para o café da manhã”
concordo |
discordo totalmente |
Uma análise fatorial de Página e Wong liderança de servo instrumento
Rob Dennis e Bruce E. Winston
Liderança & Organização de Desenvolvimento de Diário , vol. 24 no. 8
fatores de compreensão para adoção de benchmarking: novas evidências da Malásia
Yean Pin Lee, Suhaiza Zailani e Keng Lin Soh
Benchmarking: An International Journal, vol. 13 no. 5
Análise de Cluster
para classificar os sujeitos em grupos com características semelhantes, de acordo com os valores das variáveis medidas. Você deve ter mais observações do que as variáveis incluídas na análise.
prevenção de produtos orgânicos: razões para rejeição e identificação de potenciais compradores em uma pesquisa em todo o país
C. Fotopoulos and A. Krystallis
British Food Journal, vol. 104 no. 3/4/5
detecção de dificuldades financeiras via análise estatística multivariada
S. Gamesalingam e Kuldeep Kumar
Finanças gerenciais, vol. 27 no. 4
análise discriminante
para identificar as variáveis que melhor discriminam entre grupos conhecidos de sujeitos. Os resultados podem ser usadas para alocar novos temas para os grupos com base em seus valores de discriminar variáveis
Detecção de dificuldades financeiras através de análise estatística multivariada
S. Gamesalingam e Kuldeep Kumar
Gestão de Finanças, vol. 27 no. 4
fatores de compreensão para adoção de benchmarking: Novas evidências da Malásia
Yean Pin Lee, Suhaiza Zailani e Keng Lin Soh
Benchmarking: An International Journal, vol. 13. 5
Metodologia
análise Discriminante foi utilizada para determinar se existem diferenças estatisticamente significativas entre a pontuação média de perfil em um conjunto de variáveis para os dois grupos definidos a priori e de modo habilitado para classificá-los. Além disso, pode ajudar a determinar qual das variáveis independentes é mais responsável pelas diferenças nos perfis de pontuação média dos dois grupos. Neste estudo, a análise discriminante foi o principal instrumento para classificar o adotante de benchmarking e o não adotante. Também foi utilizado para determinar qual das variáveis independentes contribuiria para a adoção de benchmarking.
Regressão
para modelar como uma variável dependente se comporta dependendo dos valores de um conjunto de outras variáveis independentes. A variável dependente deve ser intervalo ou razão no tipo; as variáveis independentes podem ser de qualquer tipo, mas métodos especiais devem ser usados ao incluir variáveis independentes categóricas ou ordinais na análise.
desenvolvimentos no marketing de leite na Inglaterra e no País de Gales durante a década de 1990
Jeremy Franks
British Food Journal, vol. 103 no. 9
formação sob fogo: a relação entre os obstáculos enfrentados pela formação e o desenvolvimento das PME na Palestina
Mohammed Al Madhoun
Journal of European Industrial Training, vol. 30 no. 2
Análise de Séries Temporais
para investigar os padrões e tendências em uma variável medida regularmente ao longo de um período de tempo. Também pode ser usado para identificar e ajustar a variação sazonal, por exemplo, em estatísticas financeiras.
uma análise das tendências e comportamentos cíclicos dos preços das casas nos mercados asiáticos
Ming-Chi Chen, Yuichiro Kawaguchi e Kanak Patel
Journal of Property Investment & Finance, vol. 22 no. 1
apresentação gráfica
apresentar dados em forma gráfica pode aumentar a acessibilidade de seus resultados a um público não técnico e destacar efeitos e resultados que, de outra forma, exigiriam uma explicação longa ou tabelas complexas. Portanto, é importante que técnicas gráficas apropriadas sejam usadas. Esta seção fornece exemplos de algumas das apresentações gráficas mais usadas e indica quando elas podem ser usadas. Todos, exceto o histograma, foram produzidos usando o Microsoft Excel®.
gráficos de colunas ou barras
existem quatro variações principais, e se você exibe os dados em barras horizontais ou colunas verticais é em grande parte uma questão de preferência pessoal.
histograma
para ilustrar uma distribuição de frequência em dados categóricos ou ordinais, ou dados de razão/intervalo agrupados. Geralmente exibido como um gráfico de coluna.
coluna/barra agrupada
para comparar dados categóricos, ordinais ou agrupados de relação/intervalo entre categorias. Os dados utilizados na Fig. 4 são os mesmos das Fig. 5 e 6.
coluna/barra empilhada
para ilustrar a contribuição real para o total para dados de relação/intervalo categóricos, ordinais ou agrupados por categorias. Os dados utilizados na Fig. 5 são os mesmos das Fig. 4 e 6.
porcentagem coluna/barra empilhada
para comparar a contribuição percentual ao total para dados categóricos, ordinais ou agrupados de relação/intervalo entre categorias. Os dados utilizados na Fig. 6 são os mesmos das Fig. 4 e 5.
gráficos de linha
para mostrar tendências em dados ordinais ou de proporção/intervalo. Os pontos em um gráfico só devem ser unidos com uma linha se os dados no eixo x forem pelo menos ordinais. Uma aplicação particular é traçar uma distribuição de frequência para dados de intervalo/razão (Fig. 8).
gráficos de Pizza
Para mostrar a contribuição percentual para o conjunto da categoria, ordinal ou agrupados taxa/intervalo de dados.
os gráficos de Dispersão
Para ilustrar a relação entre duas variáveis, de qualquer tipo (embora mais útil onde ambas as variáveis são taxa/intervalo de tipo). Também é útil na identificação de quaisquer observações incomuns nos dados.
Gráfico de caixa e bigode
um gráfico especializado que ilustra a tendência central e a disseminação de um grande conjunto de dados, incluindo quaisquer outliers.
Recursos
Ligar a Matemática
Breves explicações de termos matemáticos e idéias
Estatísticas Glossário
compilado por Valerie J. Easton e John H. McColl da Universidade de Glasgow
Statsoft livro eletrônico
100 Testes Estatísticos por Gopal K. Kanji
(Sage, 1993, ISBN 141292376X)
Dicionário Oxford de Estatísticas por Graham Upton e Ian Cook
(Oxford University Press, 2006, ISBN 0198614314)