본문 바로가기

생물통계학

농업직 연구사 공무원, 생물학 등 생물통계학 핵심 요점 정리 15. 교차분석

반응형

제15장 교차분석

[학습개요]
두 가지 서로 다른 범주형 변수의 관계를 분석하는 방법은 두 변수의 각 범주에 속하는 도수를 교차분할표로 정리하고 교차분석을 한다. 교차분석에 사용되는 검정통계량 X2의 값들이
X2-분포를 따르기 때문에 교차분석을
X2-검정이라고 부른다. 교차분석에는 독립성 검정과 동질성 검정이 있다. 교차분할표에서 범주의 구분기준이 서로 다른 두 변수가 독립적인지를 검정하는 것이 독립성 검정이고, 각 범주의 비율이 서로 같은지를 검정하는 것은 동질성 검정이다. 적합도 검정은 각 범주의 관찰도수가 기대도수에 일치하는 지를 검정한다.
-검정은 도수를 대상으로 하기 때문에 도수분석 또는 빈도분석이라고도 한다
○ 교차분석 개념
‧두 범주형 자료 간에 상호 관련성을 알아보고자 할 때 사용되는 분석방법
※ 범주형 자료 (질적 자료) : 빈도분석, ‘인원수, %의 구성을 파악’
‧확률모형이 자료를 얼마나 잘 설명하고 있는지 검증에 이용
○ 교차분석 적용
‧범주형 자료 변수에 대한 결합분포(결합빈도)를 나타내는 분할표(교차표) 작성
‧각 셀에 두 변수가 결합된 기대빈도 구함
‧실제 측정된 빈도를 비교하여 두 변수가 독립성 혹은 연관성이 있는지를 판단

15.1 범주형 데이터와 분할표
󰏚 범주형 자료란?
○ 범주는 범주형 변수를 구분하는 기준이다 (변3수의 특성에 따라 계급 또는 수준이라고도 부름)
ex) 붉은 꽃과 흰꽃, 자포니카벼와 인디카 벼.
○ 범주형 변수는 도수로 표시되므로 비연속적인 이산형 변수이다. 그러나 연속형 변수라도 척도수준을 달리하면 범주형 변수로 취급할 수 있다.
- 범주들은 또한 수치의 측도를 갖는 관측값들의 어느 특정한 범위에 의해 정의될 수 있음
ex) ‧강우량이 많음, 적당, 적음으로 분류될 수 있음.
‧식물의 초장을 ㎝로 분류하는 대신에 큰 그룹, 중간 그룹, 작은 그룹 등으로 분류하고 각 계급에 속하는 개체수를 조사.
‧공장에서 생산된 제조품에 대해서는 합격품, 약간 불량, 불량품 등으로 분류
○ 범주형 자료란 관측치들이 몇 개의 범주(category)로 분류되고 각 범주에 속한 개체들의 수, 즉 도수(frequency)로 자료가 주어진 것이다. 범주형 데이터의 분석이란 이러한 데이터를 바탕으로 분할표 또는 도수분포표를 만들어 분석하는 방법이다.
󰏚 분할표
○ 범주형 데이터(범주형 데이터는 관찰값이 도수 이므로 도수 데이터라고도 함)의 각 범주와 거기에 속하는 도수를 정리한 표를 분할표(contigency table)라 한다.
○ 일원분할표 : 범주형 변수가 한 가지일 때 범주와 도수를 표시한 것,
○ 교차분할표(cross-tabulation) : 두 가지 범주형 변수의 서로 다른 범주에 속하는 도수를 교차시켜서 작성한 분할표.
- 두 가지 범주형 변수에 서로 다른 범주에 속하는 도수를 교차시켜 작성한 분할표
- 두 범주형 변수의 각 범주가 갖는 도수를 교차시켜 두 변수 간의 관계를 나타내기 때문에 교차분할표 라고 한다.
- 행의 범주수와 열의 범주수에 따라 “𝒓 × c 분할표”라고 명한다. 범주에 속하는 도수를 교차시켜 작성한 분할표.

15.2 X2검정
󰏚X2검정 개념
○ 교차분할표에서 두 범주형 변수의 관계를 분석하고 검정하는 것을 교차분석(cross-tabulation analysis)이라고 한다. 교차분석에서 사용되는 검정통계량 X2의 값들이 X2-분포를 따르기 때문에 교차분석을
X2-검정이라고 한다.
○ (수행방법)관측된 범주형 자료를 통하여 모집단의 성격에 대한 통계학적 분석을 수행하는 데는 다음과 같은 방법이 있다.
① 독립성 검정(independence test) : 두 변수 사이에 상관관계가 있는지 여부에 대한 검정.
- 교차분할표에서 각각의 범주들이 독립적인지(관계가 없는지)를 검정한다.
ex) 새롭게 마련된 세제개혁안에 대한 찬성여부가 소득수준과 관련이 있는지?
② 적합도 검정(goodness-of-fit test): 범주형으로 조사된 자료의 분석 결과가 기존의 알려진 이론 또는 결과와 부합하는지 여부를 확인. 범주형 변수가 하나인 일원분할표에서 범주형 데이터가 기대분리 또는 기대 분포에 일치하는지를 검정한다.
ex) 어떤 카지노에서 주사위를 던지는 게임을 하는데 고객 중 한 사람이 주사위의 형평성에 의문을 제기하여 이를 실험해 보기로 하였다. 주사위를 120회 던져 실험의 결과표로 공정성 여부 확인.
③ 동질성 검정(homogenity test) : 여러 모집단이 있을 때 이들이 같은 분포를 갖는 모집단들인지의 여부를 검정. 행변수의 각 범주에서 열변수의 비율이 같은지를 검정한다.
ex) 어떤 지역의 유권자들 중 각 정당에 대한 지지도가 연령에 따라 차이가 있는지의 여부를 검정.
󰏚 X2검정 검정통계량

󰏚 X2 검정 주요 절차

15.3 독립성 검정
○ 두 가지 범주형 변수에 대하여 각각의 범주들이 서로 독립적인지(서로 관계가 없는지)를 검정하는 것이 독립성 검정이다.
① 가설 설정
‧ 귀무가설 H0 : 두 변수는 서로 독립적이다. 또는 두 변수는 서로 관계가 없다.
‧ 대립가설 H1 : 두 변수는 서로 독립적이 아니다. 또는 두 변수는 서로 관계가 있다.
② 유의수준과 기각값

③ 기대도수
○ 검정통계량 X2의 값을 구하려면 관찰도수에 대한 기대도수가 필요하다. r x c교차분할표에서 두 변수
가 독립적인 경우에 각 셀의 기대도수 Eij 는 다음과 같이 구한다.

④ 독립성 검정과 해석
○ 기각값과 검정통계량을 비교하여 두 범주형 변수는 유의한 관계가 있는지 결론을 짓는다.
○ 검정결과는 두 범주형 변수간에 관계가 있는지 없는지 만 나타낼 뿐이다.
- 두 변수간의 강도를 말하기 위해서는 상관분석 수치를 제시해야 한다

15.3 적합도 검정
○ 적합도 검정은 범주형 변수가 한 가지인 일원분할표에서 X2-검정에 의해 각 범주의 관찰도수가 기대도수에 일치하는지를 검정한다.
- 꽃색깔의 표현형 분리비가 3:1에 적합한지, 종자의 발아실험 데이터가 이항분포에 적합한지 등
○ 범주형 변수의 일원분할표에서 관찰도수가 기대도수와 일치하면 기대분리비(분포)에 적합하다고 말한다. 여기서는 고정된 유전분리비에 대한 적합도 검정에 대하여 만 예제를 통해 설명하고자 한다.

15.4 동질성 검정
○ 교차분할표에서 행변수(시비방법)의 각 범주에서 열변수(노균병)의 비율이 같은지를
X2-검정하는 것을 동질성 검정이라 한다.
○ 검정방법은 독립성 검정과 유사하다. 즉 통계량과 자유도는 같기에 둘 다 혼용해서 사용한다.
○ 동질성 검정과 독립성 검정의 중요한 차이점은 동질성 검정은 ‘비율이 서로 같은지’를 검정하고, 독립성 검정은 ‘독립적인지(관계가 없는지’)‘를 검정하는 것이다.
15.5 로지스틱(logistic) 회귀분석
○ 로지스틱 회귀분석 개념
반응변수가 이분형 변수인 경우 , 해당 결과를 보일 사람들의 기대비율에 대한 로짓을 하나 또는 그 이상의 설명변수들과 서로 연결해주는 일반화 선형모형의 한 형태
로지스틱 회귀모형(logistic regression model)은 반응변수가 범주형 자료인 이항변수로 구성된 일반화선형모형(generalized linear model)의 특수한 경우로 S형 곡선을 그리는 함수 모형
여러 설명 변수들로부터 두 범주만을 가지는 반응변수를 예측하는데 사용함
로지스틱 회귀모형은 모형구조에 의해 연관성 및 교호작용의 유형을 설명할 수 있으며 모수의 추론을 통해서 반응 값에 대한 설명변수의 영향력을 평가할 수 있음
예측확률을 바탕으로 판별분석과 같은 판별 및 분류분석의 기법으로도 사용할 수 있는데 설명변수들의 동일한 공분산 행렬과 다변량 정규분포를 가정하는 판별분석에 비해 로지스틱 회귀모형은 설명변수에 대한 제약 조건이 적기 때문에, 판별분석의 가정들이 만족되지 못한 경우에 로지스틱 회귀모형을 사용하는 것이 더 좋은 결과를 보여준다고 알려져 있음
○로지스틱 회귀분석의 목표
회귀분석과 같이 하나의 종속변수와 한 개 이상의 독립변수 사이의 관계를 표현하기 위해, 가장 잘 적합되고, 모수의 수를 절약한 모형을 찾는 것
○로지스틱 회귀분석의 중요성
최근 분류 및 예측에 대한 활용 분야 확대
고객이 향후 어떠한 패턴으로 행동할 것인가에 대하여 예측 또는 분류에 대한 관심도 증가
통계/데이터 마이닝 기법을 사용하여 모델을 생성하나 로지스틱 회귀분석에 대한 활용도가 전분야에 걸쳐 가장 폭넓게 사용되고 있음

 오즈는 확률과 관련된 의미로 Pi가 주어졌을 때, 성공 확률이 실패확률에 비해 몇 배 더 높은가의 의미이다.
 예를 들어 종속변수의 범주가 ‘1’이 성공이고 ‘0’은 실패인 이분형을 가정할 때, Pi가 0.8이라면, 오즈는 (0.8/(1-0.8))=4가 되고 이것은 성공이 될 확률이 실패가 될 확률보다 4배 높다는 의미이다.

「정리하기」
1.법주형 변수는 변수가 한 가지인 일원분할표 또는 두 가지 변수의 교차분할표로 정리하고,
X2-검정을 한다. 일원분할표는 적합도 검정을 하며, 교차분할표는 독립성 검정이나 동질성 검정을 한다
2.적합도 검정은 관찰도수가 기대도수에 일치하는지를 검정한다. 독립성 검정은 두 범주형 변수가 독립적인지(관계가 없는지)를 검정하고, 동질성 검정은 각 범주의 비율이 같은지를 검정한다.
3.일원분할표에서 자유도는 (범주수-1)이고, r x c교차분할표의 자유도는 (r-1)(c-1)이다.
4. X2-검정절차는 가설을 설장하고 유의수준과 기각값을 결정한 다음에 기대도수를 구하여 검정통계량
의 값을 구한다. 그리고 검정통계량값과 기각값을 비교하여 귀무가설의 기각 여부를 판정하고
X2-검정 결과를 설명하는 순서로 진행한다.





※ 부족하지만 글의 내용이 도움이 조금이라도 되셨다면, 단 1초만 부탁드려도 될까요? 로그인이 필요없는 하트♥(공감) 눌러서 블로그 운영에 힘을 부탁드립니다. 그럼 오늘도 행복한 하루 되십시오^^

반응형