방법…올바른 통계 기법 선택

기본 사항

데이터를 수집하기 전에 분석에 사용할 기술에 대해 생각하기 시작합니다.

당신은 무엇을 알고 싶어?

분석은 연구 질문과 관련이 있어야하며,이는 귀하가 사용해야하는 기술을 지시 할 수 있습니다.

어떤 종류의 데이터가 있습니까?구간 및 비율 변수에 적합한 기술과 도구는 범주형 또는 서수 측정값에 적합하지 않습니다. (데이터 유형에 대한 메모는 데이터 수집 방법 참조)

어떤 가정을 할 수 있고 할 수 없는가?

많은 기술은 정규 분포 인 테스트 통계의 샘플링 분포에 의존합니다(아래 참조). 이는 항상 데이터의 기본 분포가 정상이지만 실제로는 데이터가 정상적으로 분산되지 않을 수 있는 경우입니다. 예를 들어,한쪽 또는 다른 쪽(비뚤어진 데이터)에 대한 응답의 긴 꼬리가있을 수 있습니다. 비 파라 메트릭 기술은 이러한 상황에서 사용할 수 있지만 필연적으로 덜 강력하고 덜 유연합니다. 그러나 표본 크기가 충분히 큰 경우 중앙 한계 정리를 통해 표준 분석 및 도구를 사용할 수 있습니다.

비 정규 분포에 대한 기술

파라 메트릭 또는 비 파라 메트릭 통계?

매개 변수 방법 및 통계는 유효한 결과를 제공하기 위해 기본 분포에 대한 일련의 가정에 의존합니다. 일반적으로 변수에 정규 분포가 있어야 합니다.

비 파라 메트릭 기술은 범주 형 및 서수 데이터에 사용해야하지만 간격&비율 데이터의 경우 일반적으로 덜 강력하고 덜 유연하며 표준,파라 메트릭,테스트가 적합하지 않은 경우에만 사용해야합니다(예:표본 크기가 작을 때(관측치 30 개 미만).

중심 한계 정리

표본 크기가 증가함에 따라,시험되는 변수의 분포가 정상이 아니더라도 시험 통계량의 샘플링 분포의 모양은 정상이 되는 경향이 있다.

실제로,이 30 개 이상의 관측에서 계산 된 통계를 테스트에 적용 할 수 있습니다.

이미지:정규 분포 함수

데이터에서 얼마를 얻을 것으로 예상할 수 있습니까?

표본 크기가 작을수록 데이터에서 벗어날 수 있습니다. 표준 오차는 표본 크기와 반비례하므로 표본이 클수록 표준 오차가 작아지고 분석에서 통계적으로 유의미한 결과를 식별할 가능성이 커집니다.

기본 기술

일반적으로 범주형 데이터에 사용될 수 있는 모든 기술은 서수 데이터에도 사용될 수 있다. 서수 데이터에 사용할 수있는 모든 기술은 비율 또는 간격 데이터에도 사용할 수 있습니다. 반대는 사실이 아니다.

데이터 설명

분석의 첫 번째 단계는 데이터를 설명하는 것이어야하며,따라서 데이터가 그려지는 모집단을 설명해야합니다. 이 활동에 적합한 통계는 세 가지 광범위한 그룹으로 분류되며 보유한 데이터 유형에 따라 다릅니다.

당신은 무엇을 할 수 있습니까? 어떤 종류의 데이터로? 적절한 기술
분포 범주형/서수 각 범주
(세로 막대형 또는 가로 막대형 차트)에서
백분율을 그립니다)
비율/간격 히스토그램
누적 주파수
다이어그램

중심 경향
범주형 해당 없음
서수 중앙값
모드
비율/간격 평균
중앙값
스프레드 설명 범주형 해당 없음
서수 범위
사분위수 간 범위
비율/간격 범위
사분위수 간 범위
분산
표준 변동

주요 그래픽 기술에 대한 설명은 그래픽 프레젠테이션을 참조하십시오.

평균-모든 값을 합산하고 합계의 값 수로 나누어 계산 된 산술 평균입니다.

중앙값-분포의 중간 지점으로,값의 절반이 높고 절반이 낮습니다.

모드-가장 자주 발생하는 값입니다.

범위-가장 높은 값과 가장 낮은 값의 차이입니다.

사분위수 간 범위-상위 사분위수(관측치의 25%가 높고 75%가 낮은 값)와 하위 사분위수(관측치의 75%가 높고 25%가 낮은 값)의 차이. 이 기능은 대다수보다 훨씬 높거나 낮은 극단 관측치의 수가 적은 경우에 특히 유용합니다.

분산-평균에서 관측치의 제곱 차이의 평균으로 계산되는 확산 측정값입니다.

표준 편차-분산의 제곱근입니다.

그룹과 변수 간의 차이

카이 제곱 검정-둘 이상의 범주형 또는 서수 데이터 집합의 분포를 비교하는 데 사용됩니다.

티-테스트-두 데이터 세트의 평균을 비교하는 데 사용됩니다.1289>

윌콕슨 유 테스트-티 테스트의 비 파라 메트릭 등가. 데이터의 순위 순서에 따라 중앙값을 비교하는 데 사용할 수도 있습니다.

분산 분석-두 개 이상의 데이터 그룹의 평균을 비교하기 위해 분산 분석.

당신은 무엇을 할 수 있습니까? 어떤 종류의 데이터로? 적절한 기술
두 그룹 비교 범주형 카이 제곱 검정
서수 카이제곱 검정
위콕손 유 검정
비율/간격
독립 샘플에 대한 테스트
두 개 이상의 그룹 비교 범주형/서수 카이 제곱 검정
비율/간격 분산 분석
두 변수 비교
동일 주제
범주/서수 카이 제곱 테스트
비율/간격 티-
종속 샘플에 대한 테스트

변수 간의 관계

상관 계수는+1 에서-1 범위의 값을 사용하여 두 변수 간의 선형 연결 정도를 측정합니다. 양수 값은 두 변수가 함께 증가하고 감소한다는 것을 나타내며,다른 변수가 감소함에 따라 하나가 증가하는 음수 값입니다. 상관 계수가 0 이면 두 변수 사이에 선형 관계가 없음을 나타냅니다. 스피어 맨 순위 상관 관계는 피어슨 상관 관계의 비 파라 메트릭 상응입니다.

어떤 유형의 데이터? 적절한 기술
범주형 카이 제곱 검정
서수 카이 제곱 검정
스피어 맨 순위
상관 관계(타우)
비/간격 피어슨
상관 관계(로)

상관 분석은 두 변수 간의 선형 관계 만 감지합니다. 아래 그림은 두 변수 사이에 명확한 관계가 있는 두 개의 작은 데이터 세트를 보여 줍니다. 그러나 관계가 선형이 아닌 두 번째 데이터 집합의 상관 관계는 0.0 입니다. 이 데이터에 대한 간단한 상관 관계 분석은 분명히 그렇지 않은 경우 측정 값 사이에 관계가 없음을 시사합니다. 이 차이와 변수 간의 관계의 분석에 착수하기 전에 기본적인 설명 분석의 일련의 사업의 중요성을 보여줍니다.

이미지: 두 변수 사이의 관계가 명확하게 존재하는 두 개의 작은 데이터 세트

검증 유효성

유의 수준

검정의 통계적 유의성은 확률의 척도입니다. 아래 예제에서는 응시자가 교육을 받은 후 시험 점수가 변경되는지 여부를 테스트합니다. 일반적으로,5%이상의 확률(피>0.05)은 통계적으로 유의미한 것으로 간주되지 않으며,대규모 설문 조사의 경우 1%(피>0.01)는 종종 더 적절한 수준으로 간주됩니다.

통계적 유의성은 귀하가 얻은 결과가 실제로 연구의 맥락에서 가치가 있음을 의미하지는 않습니다. 충분히 큰 표본이있는 경우 그룹 간의 매우 작은 차이가 통계적으로 유의미한 것으로 식별 될 수 있지만 이러한 작은 차이는 실제로 관련이 없을 수 있습니다. 반면에,분명히 큰 차이는 비교되는 그룹 내의 변화로 인해 작은 샘플에서 통계적으로 유의하지 않을 수 있습니다.

자유도

일부 테스트 통계(예:카이 제곱)는 정확한 확률 테이블에 대한 통계적 유의성을 테스트하기 위해 알려진 자유도의 수를 필요로합니다. 간단히 말해서 자유도는 샘플 내에서 임의로 할당할 수 있는 값의 수입니다.예를 들면:

크기의 표본에서 엔 으로 나누어 케이 클래스,있다 케이-1 자유도(첫 번째 케이-1 그룹은 최대 크기가 될 수 있음 엔,마지막은 첫 번째 케이-1 의 총계와 값에 의해 고정되어 있음 엔.수치 적으로,500 명의 표본이 영국에서 취해졌으며 300 명이 잉글랜드에서,100 명은 스코틀랜드에서,50 명은 웨일즈에서 가져온 것으로 관찰되는 경우,1000 명의 표본이 영국에서 가져온 것이어야합니다.수 50 북 아일랜드에서. 처음 세 그룹의 숫자가 주어지면 최종 그룹의 크기에 유연성이 없습니다. 샘플을 네 그룹으로 나누면 세 가지 자유도가 제공됩니다.1289>

한 꼬리 또는 두 꼬리 테스트

일반적으로 중요한 것은 단순히 모집단에 대한 통계가 다르다는 것입니다.양측 검정에 임계값을 사용합니다.

그러나 모집단에 대한 통계량이 모집단에 대한 통계량보다 더 큰 값을 가지는지 확인하려는 경우에만 한 꼬리 테스트가 적합합니다. 한 꼬리 검정의 임계값은 일반적으로 두 꼬리 검정의 임계값보다 낮으며,연구 가설이 모집단 1 이 모집단 2 보다 큰 값을 갖는 경우에만 사용해야 합니다.

예를 들어

시나리오 1

귀무 가설–훈련 전후의 평균 시험 점수에 차이가 없음(즉,훈련은 시험 점수에 영향을 미치지 않음)
대안–훈련 전후의 평균 점수에 차이가 있음(즉,훈련은 불특정 효과가 있음)
두 꼬리 테스트 사용

시나리오 2

귀무 가설-훈련은 평균 점수를 증가시키지 않습니다
대안–평균 점수는 훈련 후 증가
평균 점수가 관찰 된 증가가있는 경우 한 꼬리 테스트를 사용하십시오.
(점수의 하락이 관찰되면 귀무가설을 거부할 수 없으므로 검정할 필요가 없다.시나리오 3

귀무 가설–훈련으로 인해 평균 점수가
떨어지지 않음 대안–훈련 후 평균 점수 하락
평균 점수가 관찰 된 하락이있는 경우 한 꼬리 테스트를 사용하십시오.
(점수의 증가가 관찰되면 귀무 가설을 거부할 수 없으므로 검정할 필요가 없다.)

테스트: 평균에 대해 두 개의 샘플을 페어링했습니다
이전 이후
평균
분산

46,547

46,830

관측
자유도)
통계
1 개의 꼬리
티 중요한 한 꼬리
두 꼬리
티 중요한 두 꼬리

위의 테스트 결과를 얻은 경우 시나리오 1 에서 두 꼬리 테스트를 사용하여 점수 사이에 통계적으로 유의 한 차이가 없었으며 결과적으로 훈련이 효과가 없다고 결론을 내릴 수 있습니다. 마찬가지로,시나리오 3 에서는 훈련이 평균 점수를 떨어 뜨리는 것을 암시하는 증거가 없다고 결론을 내릴 수 있습니다. 그러나 시나리오 2 에서 한 꼬리 테스트를 사용하면 평균 점수가 증가했으며 통계적으로 5%수준(피=0.04)에서 유의하다는 결론을 내릴 수 있습니다.

마지막 경고!

통계 패키지는 전체적으로 당신이 말하는 것을 할 것입니다. 그들은 당신이 제공 한 데이터가 좋은 품질인지,또는(아주 몇 가지 예외를 제외하고)당신이 수행 한 분석에 적합한 유형인지 여부를 알 수 없습니다.

쓰레기=쓰레기 아웃!

고급 기술

이러한 도구와 기술은 전문적인 응용 프로그램을 가지고 있으며 일반적으로 데이터를 수집하기 전에 초기 단계에서 연구 방법론으로 설계됩니다. 이들 중 하나를 사용 하 여 고려 하는 경우 시작 하기 전에 전문가 텍스트 또는 경험이 풍부한 통계 상담 하실 수 있습니다.

각각의 경우에,우리는 기술을 사용하는 에메랄드 기사의 몇 가지 예를 제공합니다.

요인 분석

측정된 원래 변수의 조합을 만들어 후속 분석을 위한 변수 수를 줄이기 위해 가능한 한 원래 분산을 설명하지만 결과를 쉽게 해석할 수 있습니다. 일반적으로 리커트 척도에서 개별적으로 평가되는 많은 수의 의견 진술에서 작은 차원 등급 집합을 만드는 데 사용됩니다. 분석 할 변수보다 더 많은 관찰(주제)이 있어야합니다.

예:

리커트 척도 변수: “나는 아침 식사로 초콜릿 아이스크림을 먹고 싶다”

강하게 동의

강하게 동의하지 않음

2015 년 11 월 1 일,서울시 강남구 테헤란로 15 길 16(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동) 24 제 8 호

벤치마킹 채택에 대한 이해 요인:말레이시아의 새로운 증거
예안 핀 리,수하이자 자일 라니,켕 린 소
벤치마킹: 국제 저널,권. 13 번호 5

클러스터 분석

측정 된 변수의 값에 따라 피험자를 유사한 특성을 가진 그룹으로 분류합니다. 분석에 포함된 변수보다 더 많은 관측치가 있어야 합니다.

유기농 제품 회피:전국 조사에서 거부 이유 및 잠재적 구매자 식별
104 호 3/4/5

다변량 통계 분석을 통한 재정난 탐지
에스. 2015 년 11 월 15 일(토)~2015 년 12 월 15 일(일) 4

판별 분석

알려진 피험자 그룹을 가장 잘 차별하는 변수를 식별합니다. 이 결과는 다변량 통계분석을 통한 재정난의 검출에 따른 판별변수

의 가치에 기초하여 알려진 집단에 새로운 과목을 배정하는데 사용될 수 있다. 27 제 4 호

벤치마킹 채택 요인 이해: 말레이시아의 새로운 증거
예안 핀 리,수하이자 자일 라니,켕 린 소
벤치마킹:국제 저널,제 1 권. 13 제 5 호

방법론

판별 분석을 사용하여 선험적으로 정의 된 두 그룹에 대한 변수 집합의 평균 점수 프로파일 사이에 통계적으로 유의 한 차이가 존재하는지 여부를 결정하여 분류 할 수있었습니다. 게다가 두 그룹의 평균 점수 프로필의 차이에 대해 독립 변수 중 어느 것이 가장 많이 차지하는지 결정하는 데 도움이 될 수 있습니다. 이 연구에서 판별 분석은 벤치마킹 채택 자와 비 채택자를 분류하는 주요 도구였습니다. 또한 벤치마킹 채택에 기여할 독립 변수 중 어느 것을 결정하는 데 사용되었습니다.

회귀

하나의 종속 변수가 다른 독립 변수 집합의 값에 따라 작동하는 방식을 모델링합니다. 독립 변수는 모든 형식일 수 있지만 분석에 범주형 또는 서수형 독립 변수를 포함할 때는 특수 메서드를 사용해야 합니다.

1990 년대 잉글랜드와 웨일즈의 우유 마케팅의 발전
제레미 프랭크
영국 식품 저널,권. 103 제 9 호

화재 훈련:팔레스타인에서 교육과 중소기업 개발에 직면 한 장애물과의 관계
모하메드 알 마훈
유럽 산업 훈련 저널,제 1 권. 2

시계열 분석

일정 기간 동안 정기적으로 측정되는 변수의 패턴과 추세를 조사합니다. 또한 금융 통계,예를 들어,계절 변화를 식별하고 조정하는 데 사용할 수 있습니다.

아시아 시장에서의 주택 가격의 추세와 주기적 행동 분석
밍치 첸,가와구치 유이치로,카낙 파텔
부동산 투자 저널&금융,제 1 권. 22 제 1 호

그래픽 프레젠테이션

그래픽 형식으로 데이터를 표시하면 비기술적 잠재고객에게 결과의 접근성을 높일 수 있으며,긴 설명이나 복잡한 표가 필요한 효과와 결과를 강조 표시할 수 있습니다. 따라서 적절한 그래픽 기술을 사용하는 것이 중요합니다. 이 섹션에서는 가장 일반적으로 사용되는 그래픽 프레젠테이션의 예를 제공하고 언제 사용할 수 있는지 나타냅니다. 모든,히스토그램을 제외하고,마이크로 소프트 엑셀 2000 을 사용하여 생산되었다.

세로 또는 가로 막대 차트

네 가지 주요 변형이 있으며 데이터를 가로 막대 또는 세로 열로 표시할지 여부는 주로 개인적인 취향의 문제입니다.

히스토그램

범주형 또는 서수 데이터 또는 그룹화된 비율/간격 데이터의 빈도 분포를 설명합니다. 일반적으로 열 그래프로 표시됩니다.

이미지: 히스토그램

클러스터형 열/막대

범주 간 범주형,서수형 또는 그룹화된 비율/간격 데이터를 비교합니다. 도 4 에 사용된 데이터는 도 5 및 도 6 에 사용된 데이터와 동일하다.

이미지:클러스터형 열/막대

누적 열/막대

범주별 범주형,서수형 또는 그룹화된 비율/간격 데이터의 합계에 대한 실제 기여도를 설명합니다. 도 5 에 사용된 데이터는 도 4 및 도 6 에 사용된 데이터와 동일하다.

이미지: 누적 열/막대

백분율 누적 열/막대

범주 간 범주형,서수형 또는 그룹화된 비율/간격 데이터의 합계와 백분율 기여도를 비교합니다. 도 6 에 사용된 데이터는 도 4 및 도 5 에 사용된 데이터와 동일하다.

이미지:백분율 누적 열/막대

선 그래프

서수 또는 비율/간격 데이터의 추세를 표시합니다. 그래프의 점은 선으로 결합되어야 합니다. 하나의 특정 응용 프로그램은 간격/비율 데이터에 대한 주파수 분포를 플롯하는 것입니다(그림 8).

이미지:선 그래프

파이 차트

범주 형,서수 또는 그룹화 된 비율/간격 데이터 전체에 대한 기여도를 표시합니다.

이미지:원형 차트

분산 형 그래프

모든 유형의 두 변수 간의 관계를 설명합니다(두 변수가 모두 비율/간격 유형 인 경우 가장 유용하지만). 또한 데이터의 비정상적인 관찰의 식별에 유용합니다.

이미지: 분산 형 그래프

상자 및 수염 플롯

특이치를 포함한 대용량 데이터 세트의 중심 경향 및 확산을 보여주는 전문가 그래프입니다.

이미지:상자와 수염 플롯

자료

연결 수학
수학 용어와 아이디어에 대한 간략한 설명

통계 용어집
글래스고 대학의 발레리 제이 이스턴과 존 에이치 맥콜에 의해 컴파일

스탯 소프트 전자 교과서

100 고팔 케이 통계 테스트. 한자
(세이지,1993,141292376 엑스)

그레이엄 업튼과 이안 쿡에 의해 통계의 옥스포드 사전
(옥스포드 대학 출판부,2006,0198614314)

답글 남기기

이메일 주소는 공개되지 않습니다.