- 기본 사항
- 당신은 무엇을 알고 싶어?
- 어떤 종류의 데이터가 있습니까?구간 및 비율 변수에 적합한 기술과 도구는 범주형 또는 서수 측정값에 적합하지 않습니다. (데이터 유형에 대한 메모는 데이터 수집 방법 참조) 어떤 가정을 할 수 있고 할 수 없는가?
- 비 정규 분포에 대한 기술
- 파라 메트릭 또는 비 파라 메트릭 통계?
- 중심 한계 정리
- 데이터에서 얼마를 얻을 것으로 예상할 수 있습니까?
- 기본 기술
- 데이터 설명
- 그룹과 변수 간의 차이
- 변수 간의 관계
- 검증 유효성
- 유의 수준
- 자유도
- 한 꼬리 또는 두 꼬리 테스트
- 예를 들어
- 마지막 경고!
- 고급 기술
- 요인 분석
- 예:
- 클러스터 분석
- 판별 분석
- 회귀
- 시계열 분석
- 그래픽 프레젠테이션
- 세로 또는 가로 막대 차트
- 히스토그램
- 클러스터형 열/막대
- 누적 열/막대
- 백분율 누적 열/막대
- 선 그래프
- 파이 차트
- 분산 형 그래프
- 상자 및 수염 플롯
- 자료
기본 사항
데이터를 수집하기 전에 분석에 사용할 기술에 대해 생각하기 시작합니다.
당신은 무엇을 알고 싶어?
분석은 연구 질문과 관련이 있어야하며,이는 귀하가 사용해야하는 기술을 지시 할 수 있습니다.
어떤 종류의 데이터가 있습니까?구간 및 비율 변수에 적합한 기술과 도구는 범주형 또는 서수 측정값에 적합하지 않습니다. (데이터 유형에 대한 메모는 데이터 수집 방법 참조)
어떤 가정을 할 수 있고 할 수 없는가?
많은 기술은 정규 분포 인 테스트 통계의 샘플링 분포에 의존합니다(아래 참조). 이는 항상 데이터의 기본 분포가 정상이지만 실제로는 데이터가 정상적으로 분산되지 않을 수 있는 경우입니다. 예를 들어,한쪽 또는 다른 쪽(비뚤어진 데이터)에 대한 응답의 긴 꼬리가있을 수 있습니다. 비 파라 메트릭 기술은 이러한 상황에서 사용할 수 있지만 필연적으로 덜 강력하고 덜 유연합니다. 그러나 표본 크기가 충분히 큰 경우 중앙 한계 정리를 통해 표준 분석 및 도구를 사용할 수 있습니다.
비 정규 분포에 대한 기술
파라 메트릭 또는 비 파라 메트릭 통계?
매개 변수 방법 및 통계는 유효한 결과를 제공하기 위해 기본 분포에 대한 일련의 가정에 의존합니다. 일반적으로 변수에 정규 분포가 있어야 합니다.
비 파라 메트릭 기술은 범주 형 및 서수 데이터에 사용해야하지만 간격&비율 데이터의 경우 일반적으로 덜 강력하고 덜 유연하며 표준,파라 메트릭,테스트가 적합하지 않은 경우에만 사용해야합니다(예:표본 크기가 작을 때(관측치 30 개 미만).
중심 한계 정리
표본 크기가 증가함에 따라,시험되는 변수의 분포가 정상이 아니더라도 시험 통계량의 샘플링 분포의 모양은 정상이 되는 경향이 있다.
실제로,이 30 개 이상의 관측에서 계산 된 통계를 테스트에 적용 할 수 있습니다.
데이터에서 얼마를 얻을 것으로 예상할 수 있습니까?
표본 크기가 작을수록 데이터에서 벗어날 수 있습니다. 표준 오차는 표본 크기와 반비례하므로 표본이 클수록 표준 오차가 작아지고 분석에서 통계적으로 유의미한 결과를 식별할 가능성이 커집니다.
기본 기술
일반적으로 범주형 데이터에 사용될 수 있는 모든 기술은 서수 데이터에도 사용될 수 있다. 서수 데이터에 사용할 수있는 모든 기술은 비율 또는 간격 데이터에도 사용할 수 있습니다. 반대는 사실이 아니다.
데이터 설명
분석의 첫 번째 단계는 데이터를 설명하는 것이어야하며,따라서 데이터가 그려지는 모집단을 설명해야합니다. 이 활동에 적합한 통계는 세 가지 광범위한 그룹으로 분류되며 보유한 데이터 유형에 따라 다릅니다.
당신은 무엇을 할 수 있습니까? | 어떤 종류의 데이터로? | 적절한 기술 |
---|---|---|
분포 | 범주형/서수 | 각 범주 (세로 막대형 또는 가로 막대형 차트)에서 백분율을 그립니다) |
비율/간격 | 히스토그램 누적 주파수 다이어그램 |
|
중심 경향 |
범주형 | 해당 없음 |
서수 | 중앙값 모드 |
|
비율/간격 | 평균 중앙값 |
|
스프레드 설명 | 범주형 | 해당 없음 |
서수 | 범위 사분위수 간 범위 |
|
비율/간격 | 범위 사분위수 간 범위 분산 표준 변동 |
주요 그래픽 기술에 대한 설명은 그래픽 프레젠테이션을 참조하십시오.
평균-모든 값을 합산하고 합계의 값 수로 나누어 계산 된 산술 평균입니다.
중앙값-분포의 중간 지점으로,값의 절반이 높고 절반이 낮습니다.
모드-가장 자주 발생하는 값입니다.
범위-가장 높은 값과 가장 낮은 값의 차이입니다.
사분위수 간 범위-상위 사분위수(관측치의 25%가 높고 75%가 낮은 값)와 하위 사분위수(관측치의 75%가 높고 25%가 낮은 값)의 차이. 이 기능은 대다수보다 훨씬 높거나 낮은 극단 관측치의 수가 적은 경우에 특히 유용합니다.
분산-평균에서 관측치의 제곱 차이의 평균으로 계산되는 확산 측정값입니다.
표준 편차-분산의 제곱근입니다.
그룹과 변수 간의 차이
카이 제곱 검정-둘 이상의 범주형 또는 서수 데이터 집합의 분포를 비교하는 데 사용됩니다.
티-테스트-두 데이터 세트의 평균을 비교하는 데 사용됩니다.1289>
윌콕슨 유 테스트-티 테스트의 비 파라 메트릭 등가. 데이터의 순위 순서에 따라 중앙값을 비교하는 데 사용할 수도 있습니다.
분산 분석-두 개 이상의 데이터 그룹의 평균을 비교하기 위해 분산 분석.
당신은 무엇을 할 수 있습니까? | 어떤 종류의 데이터로? | 적절한 기술 |
---|---|---|
두 그룹 비교 | 범주형 | 카이 제곱 검정 |
서수 | 카이제곱 검정 위콕손 유 검정 |
|
비율/간격 |
독립 샘플에 대한 테스트 |
|
두 개 이상의 그룹 비교 | 범주형/서수 | 카이 제곱 검정 |
비율/간격 | 분산 분석 | |
두 변수 비교 동일 주제 |
범주/서수 | 카이 제곱 테스트 |
비율/간격 | 티- 종속 샘플에 대한 테스트 |
변수 간의 관계
상관 계수는+1 에서-1 범위의 값을 사용하여 두 변수 간의 선형 연결 정도를 측정합니다. 양수 값은 두 변수가 함께 증가하고 감소한다는 것을 나타내며,다른 변수가 감소함에 따라 하나가 증가하는 음수 값입니다. 상관 계수가 0 이면 두 변수 사이에 선형 관계가 없음을 나타냅니다. 스피어 맨 순위 상관 관계는 피어슨 상관 관계의 비 파라 메트릭 상응입니다.
어떤 유형의 데이터? | 적절한 기술 |
---|---|
범주형 | 카이 제곱 검정 |
서수 | 카이 제곱 검정 스피어 맨 순위 상관 관계(타우) |
비/간격 | 피어슨 상관 관계(로) |
상관 분석은 두 변수 간의 선형 관계 만 감지합니다. 아래 그림은 두 변수 사이에 명확한 관계가 있는 두 개의 작은 데이터 세트를 보여 줍니다. 그러나 관계가 선형이 아닌 두 번째 데이터 집합의 상관 관계는 0.0 입니다. 이 데이터에 대한 간단한 상관 관계 분석은 분명히 그렇지 않은 경우 측정 값 사이에 관계가 없음을 시사합니다. 이 차이와 변수 간의 관계의 분석에 착수하기 전에 기본적인 설명 분석의 일련의 사업의 중요성을 보여줍니다.
검증 유효성
유의 수준
검정의 통계적 유의성은 확률의 척도입니다. 아래 예제에서는 응시자가 교육을 받은 후 시험 점수가 변경되는지 여부를 테스트합니다. 일반적으로,5%이상의 확률(피>0.05)은 통계적으로 유의미한 것으로 간주되지 않으며,대규모 설문 조사의 경우 1%(피>0.01)는 종종 더 적절한 수준으로 간주됩니다.
통계적 유의성은 귀하가 얻은 결과가 실제로 연구의 맥락에서 가치가 있음을 의미하지는 않습니다. 충분히 큰 표본이있는 경우 그룹 간의 매우 작은 차이가 통계적으로 유의미한 것으로 식별 될 수 있지만 이러한 작은 차이는 실제로 관련이 없을 수 있습니다. 반면에,분명히 큰 차이는 비교되는 그룹 내의 변화로 인해 작은 샘플에서 통계적으로 유의하지 않을 수 있습니다.
자유도
일부 테스트 통계(예:카이 제곱)는 정확한 확률 테이블에 대한 통계적 유의성을 테스트하기 위해 알려진 자유도의 수를 필요로합니다. 간단히 말해서 자유도는 샘플 내에서 임의로 할당할 수 있는 값의 수입니다.예를 들면:
크기의 표본에서 엔 으로 나누어 케이 클래스,있다 케이-1 자유도(첫 번째 케이-1 그룹은 최대 크기가 될 수 있음 엔,마지막은 첫 번째 케이-1 의 총계와 값에 의해 고정되어 있음 엔.수치 적으로,500 명의 표본이 영국에서 취해졌으며 300 명이 잉글랜드에서,100 명은 스코틀랜드에서,50 명은 웨일즈에서 가져온 것으로 관찰되는 경우,1000 명의 표본이 영국에서 가져온 것이어야합니다.수 50 북 아일랜드에서. 처음 세 그룹의 숫자가 주어지면 최종 그룹의 크기에 유연성이 없습니다. 샘플을 네 그룹으로 나누면 세 가지 자유도가 제공됩니다.1289>
한 꼬리 또는 두 꼬리 테스트
일반적으로 중요한 것은 단순히 모집단에 대한 통계가 다르다는 것입니다.양측 검정에 임계값을 사용합니다.
그러나 모집단에 대한 통계량이 모집단에 대한 통계량보다 더 큰 값을 가지는지 확인하려는 경우에만 한 꼬리 테스트가 적합합니다. 한 꼬리 검정의 임계값은 일반적으로 두 꼬리 검정의 임계값보다 낮으며,연구 가설이 모집단 1 이 모집단 2 보다 큰 값을 갖는 경우에만 사용해야 합니다.
예를 들어
시나리오 1
귀무 가설–훈련 전후의 평균 시험 점수에 차이가 없음(즉,훈련은 시험 점수에 영향을 미치지 않음)
대안–훈련 전후의 평균 점수에 차이가 있음(즉,훈련은 불특정 효과가 있음)
두 꼬리 테스트 사용
시나리오 2
귀무 가설-훈련은 평균 점수를 증가시키지 않습니다
대안–평균 점수는 훈련 후 증가
평균 점수가 관찰 된 증가가있는 경우 한 꼬리 테스트를 사용하십시오.
(점수의 하락이 관찰되면 귀무가설을 거부할 수 없으므로 검정할 필요가 없다.시나리오 3
귀무 가설–훈련으로 인해 평균 점수가
떨어지지 않음 대안–훈련 후 평균 점수 하락
평균 점수가 관찰 된 하락이있는 경우 한 꼬리 테스트를 사용하십시오.
(점수의 증가가 관찰되면 귀무 가설을 거부할 수 없으므로 검정할 필요가 없다.)
이전 | 이후 | |
평균 | ||
분산 |
46,547 |
46,830 |
관측 | ||
자유도) | ||
통계 | ||
1 개의 꼬리 | ||
티 중요한 한 꼬리 | ||
두 꼬리 | ||
티 중요한 두 꼬리 |
위의 테스트 결과를 얻은 경우 시나리오 1 에서 두 꼬리 테스트를 사용하여 점수 사이에 통계적으로 유의 한 차이가 없었으며 결과적으로 훈련이 효과가 없다고 결론을 내릴 수 있습니다. 마찬가지로,시나리오 3 에서는 훈련이 평균 점수를 떨어 뜨리는 것을 암시하는 증거가 없다고 결론을 내릴 수 있습니다. 그러나 시나리오 2 에서 한 꼬리 테스트를 사용하면 평균 점수가 증가했으며 통계적으로 5%수준(피=0.04)에서 유의하다는 결론을 내릴 수 있습니다.
마지막 경고!
통계 패키지는 전체적으로 당신이 말하는 것을 할 것입니다. 그들은 당신이 제공 한 데이터가 좋은 품질인지,또는(아주 몇 가지 예외를 제외하고)당신이 수행 한 분석에 적합한 유형인지 여부를 알 수 없습니다.
쓰레기=쓰레기 아웃!
고급 기술
이러한 도구와 기술은 전문적인 응용 프로그램을 가지고 있으며 일반적으로 데이터를 수집하기 전에 초기 단계에서 연구 방법론으로 설계됩니다. 이들 중 하나를 사용 하 여 고려 하는 경우 시작 하기 전에 전문가 텍스트 또는 경험이 풍부한 통계 상담 하실 수 있습니다.
각각의 경우에,우리는 기술을 사용하는 에메랄드 기사의 몇 가지 예를 제공합니다.
요인 분석
측정된 원래 변수의 조합을 만들어 후속 분석을 위한 변수 수를 줄이기 위해 가능한 한 원래 분산을 설명하지만 결과를 쉽게 해석할 수 있습니다. 일반적으로 리커트 척도에서 개별적으로 평가되는 많은 수의 의견 진술에서 작은 차원 등급 집합을 만드는 데 사용됩니다. 분석 할 변수보다 더 많은 관찰(주제)이 있어야합니다.
예:
리커트 척도 변수: “나는 아침 식사로 초콜릿 아이스크림을 먹고 싶다”
강하게 동의 |
강하게 동의하지 않음 |
2015 년 11 월 1 일,서울시 강남구 테헤란로 15 길 16(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동) 24 제 8 호
벤치마킹 채택에 대한 이해 요인:말레이시아의 새로운 증거
예안 핀 리,수하이자 자일 라니,켕 린 소
벤치마킹: 국제 저널,권. 13 번호 5
클러스터 분석
측정 된 변수의 값에 따라 피험자를 유사한 특성을 가진 그룹으로 분류합니다. 분석에 포함된 변수보다 더 많은 관측치가 있어야 합니다.
유기농 제품 회피:전국 조사에서 거부 이유 및 잠재적 구매자 식별
104 호 3/4/5
다변량 통계 분석을 통한 재정난 탐지
에스. 2015 년 11 월 15 일(토)~2015 년 12 월 15 일(일) 4
판별 분석
알려진 피험자 그룹을 가장 잘 차별하는 변수를 식별합니다. 이 결과는 다변량 통계분석을 통한 재정난의 검출에 따른 판별변수
의 가치에 기초하여 알려진 집단에 새로운 과목을 배정하는데 사용될 수 있다. 27 제 4 호
벤치마킹 채택 요인 이해: 말레이시아의 새로운 증거
예안 핀 리,수하이자 자일 라니,켕 린 소
벤치마킹:국제 저널,제 1 권. 13 제 5 호
방법론
판별 분석을 사용하여 선험적으로 정의 된 두 그룹에 대한 변수 집합의 평균 점수 프로파일 사이에 통계적으로 유의 한 차이가 존재하는지 여부를 결정하여 분류 할 수있었습니다. 게다가 두 그룹의 평균 점수 프로필의 차이에 대해 독립 변수 중 어느 것이 가장 많이 차지하는지 결정하는 데 도움이 될 수 있습니다. 이 연구에서 판별 분석은 벤치마킹 채택 자와 비 채택자를 분류하는 주요 도구였습니다. 또한 벤치마킹 채택에 기여할 독립 변수 중 어느 것을 결정하는 데 사용되었습니다.
회귀
하나의 종속 변수가 다른 독립 변수 집합의 값에 따라 작동하는 방식을 모델링합니다. 독립 변수는 모든 형식일 수 있지만 분석에 범주형 또는 서수형 독립 변수를 포함할 때는 특수 메서드를 사용해야 합니다.
1990 년대 잉글랜드와 웨일즈의 우유 마케팅의 발전
제레미 프랭크
영국 식품 저널,권. 103 제 9 호
화재 훈련:팔레스타인에서 교육과 중소기업 개발에 직면 한 장애물과의 관계
모하메드 알 마훈
유럽 산업 훈련 저널,제 1 권. 2
시계열 분석
일정 기간 동안 정기적으로 측정되는 변수의 패턴과 추세를 조사합니다. 또한 금융 통계,예를 들어,계절 변화를 식별하고 조정하는 데 사용할 수 있습니다.
아시아 시장에서의 주택 가격의 추세와 주기적 행동 분석
밍치 첸,가와구치 유이치로,카낙 파텔
부동산 투자 저널&금융,제 1 권. 22 제 1 호
그래픽 프레젠테이션
그래픽 형식으로 데이터를 표시하면 비기술적 잠재고객에게 결과의 접근성을 높일 수 있으며,긴 설명이나 복잡한 표가 필요한 효과와 결과를 강조 표시할 수 있습니다. 따라서 적절한 그래픽 기술을 사용하는 것이 중요합니다. 이 섹션에서는 가장 일반적으로 사용되는 그래픽 프레젠테이션의 예를 제공하고 언제 사용할 수 있는지 나타냅니다. 모든,히스토그램을 제외하고,마이크로 소프트 엑셀 2000 을 사용하여 생산되었다.
세로 또는 가로 막대 차트
네 가지 주요 변형이 있으며 데이터를 가로 막대 또는 세로 열로 표시할지 여부는 주로 개인적인 취향의 문제입니다.
히스토그램
범주형 또는 서수 데이터 또는 그룹화된 비율/간격 데이터의 빈도 분포를 설명합니다. 일반적으로 열 그래프로 표시됩니다.
클러스터형 열/막대
범주 간 범주형,서수형 또는 그룹화된 비율/간격 데이터를 비교합니다. 도 4 에 사용된 데이터는 도 5 및 도 6 에 사용된 데이터와 동일하다.
누적 열/막대
범주별 범주형,서수형 또는 그룹화된 비율/간격 데이터의 합계에 대한 실제 기여도를 설명합니다. 도 5 에 사용된 데이터는 도 4 및 도 6 에 사용된 데이터와 동일하다.
백분율 누적 열/막대
범주 간 범주형,서수형 또는 그룹화된 비율/간격 데이터의 합계와 백분율 기여도를 비교합니다. 도 6 에 사용된 데이터는 도 4 및 도 5 에 사용된 데이터와 동일하다.
선 그래프
서수 또는 비율/간격 데이터의 추세를 표시합니다. 그래프의 점은 선으로 결합되어야 합니다. 하나의 특정 응용 프로그램은 간격/비율 데이터에 대한 주파수 분포를 플롯하는 것입니다(그림 8).
파이 차트
범주 형,서수 또는 그룹화 된 비율/간격 데이터 전체에 대한 기여도를 표시합니다.
분산 형 그래프
모든 유형의 두 변수 간의 관계를 설명합니다(두 변수가 모두 비율/간격 유형 인 경우 가장 유용하지만). 또한 데이터의 비정상적인 관찰의 식별에 유용합니다.
상자 및 수염 플롯
특이치를 포함한 대용량 데이터 세트의 중심 경향 및 확산을 보여주는 전문가 그래프입니다.
자료
연결 수학
수학 용어와 아이디어에 대한 간략한 설명
통계 용어집
글래스고 대학의 발레리 제이 이스턴과 존 에이치 맥콜에 의해 컴파일
스탯 소프트 전자 교과서
100 고팔 케이 통계 테스트. 한자
(세이지,1993,141292376 엑스)
그레이엄 업튼과 이안 쿡에 의해 통계의 옥스포드 사전
(옥스포드 대학 출판부,2006,0198614314)