생물통계학

농업직 연구사 공무원, 생물학 등 생물통계학 핵심 요점 정리 14. 회귀분석(regression analysis)

롤라❤️ 2022. 11. 25. 08:03
반응형

제14장 회귀분석(regression analysis)


<학습개요>
실험처리를 하면 같은 실험단위위 여러변수들이 동시에 변화하는 경우가 많다. 따라서 연구자는 같은 실험단위에서 두 가지 이상의 변수를 함께 관찰하여 이들의 상호관계를 알고 싶어 하며, 이를 위해 회귀분석과 상관분석을 한다. 회귀분석은 변수들 사이의 원인과 결과를 설명하고, 상관분석은 변수들이 함께 변화하는 정도를 알려준다.
회귀분석은 연속적인 두 변수가 있을 때 두 변수간의 관계를 이용하여, 한 변수의 값에 대해서 알고 있고 다른 변수의 값을 예측하고자 하는 방법이다. 두 변수 가운데 알고 있는 변수가 변화의 원인이라고 하며예측되는 변수는 이의 결과라 할 수 있다. 이때 원인이 되는 변수를 독립변수라 하고, 결과가 되는 변수를 종속변수라 한다.
<회귀분석 개요>
○ 회귀분석(regression analysis) : 변수들간의 함수적인 관련성을 규명하기 위하여 어떤 수학적 모형을 가정하고 이 모형을 측정된 변수들의 자료로부터 추정하는 통계적 분석 방법
독립변수의 변화에 따라 종속변수의 변화를 예측하기 위해 사용. 독립변수와 종속변수 간의 함수관계를 조사된 자료를 근거로 통계적으로 찾아보는 분석방법
○ 독립변수와 종속변수의 구분
-독립변수(예측변수) : 다른 변수에 영향을 주는 변수. (설명변수)
오차 없이 고정된 수학적 변수. 영향을 미칠 것으로 생각되는 변수,
-종속변수(기준변수) : 다른 변수에 영향을 받는 변수. 독립변수에 의해 영향 받는 변수. (반응변수)
측정오차를 수반하는 확률변수영향을 받을 것으로 생각되는 변수.
1차 선형방정식을 도출한 목적.
(예1) ‧운동량(독립변수)이 건강(종속변수)에 미치는 영향 – 단순회귀분석(독립변수가 1개)
‧기업능력(매출,성장률,인력보유 등)이 주가지수에 미치는 영향 – 다중회귀분석(독립변수 2개 이상)
‧자신의 의지로 어느 정도 조절이 가능한 변수를 독립변수로 결정하고, 조절이 되지 않는 변수를 종속변수로 한다.
‧두 변수 중에 시간상 늦게 나타나거나,다른 변수의 결과로써 일어나는 변수를 종속변수로 한다.
‧시간적인 선후를 가릴 수 없는 경우 해석이 가능한 쪽으로 종속변수와 독립변수를 구분한다.
(예2)‧질소시용량에 의한 수량 반응실험에서 수량은 질소시용량에 따라 영향 받으므로 질소시용량이 독립변수이고 수량은 종속변수가 된다.
‧중요한 변수 또는 관심이 큰 변수를 종속변수로 한다.
‧벼 품종의 수량과 단백질함량 간 관계는 단백질함량이 높기 때문에 수량이 많아진다고 할 수 없고, 수량이 낮다고 해서 품종의 단백질함량이 낮아지는 것은 아니므로 변수의 구분이 분명하지 않다.
○ 회귀분석과 상관분석의 관계
-상관분석 : 변수들이 함께 변화하는 정도를 파악한다.두 변수 간의 관계가 얼마나 강한지를 밝히는 것
-회귀분석 : 변수들 간에 원인과 결과의 관계를 나타낸다. 하나의 변수 값으로 조사되지 않은 다른 변수 값을 예측하는 것이 목적
○ 회귀모형의 분류

13.1 회귀모형 : 회귀분석의 목적은 결국 두 변수 간의 직선관계가 있을 때 이러한 관계를 표현하는 1차식을 추정하는 데 있다. 다음 예제풀이를 통해 회귀분석을 살펴보고자 함.

󰏚 회귀방정식

○ 표의 자료에 의하여 질소사용에 따라 벼수량이 얼마나 증가하는지를 예측할 수 있게 된다. 이때의 산점도는 오른쪽 그림과 같다. 이 산점도를 볼 때 두 변수 간에 어떠한 직선관계가 있는 것으로 생각된다. 일반적으로 독립변수 x와 종속변수 y사이에 다음과 같은 선형관계식을 가정할 수 있다.

위의 식은 X라는 독립변수가 Y라는 종속변수에 주는 영향력을 식으로 나타낸 것이다. 여기서 X의 영향력은
베타라는 계수(회귀계수)의 크기와 부호로 나타내진다.
X값이 변해도 Y의 변동에는 영향을 주지 않는 회귀계수이다. 여기서 e오차항이라 하는데 독립변수 X가 종속변수Y에 주는 영향력을 제외한 다른 모든 영향력을 나타내는 항목이라 생각할 수 있으며, 평균이 0이고 분산
인 정규분포를 따른다
○ 이때 주어진 데이터로부터 이들 회귀계수를 추정하여 적절한 직선관계식을 실제관측값과 직선에 의한 예측값과의 사이를 최소화하는 최소제곱법으로 찾는다. ○ 이때 주어진 데이터로부터 이들 회귀계수를 추정하여 적절한 직선관계식을 실제관측값과 직선에 의한 예측값과의 사이를 최소화하는 최소제곱법으로 찾는다.

󰏚 추정회귀방정식의 적합성 검정
○ 회귀의 분산분석표에서 FS의 값이 유의하면 추정방정식은 적합성이 있는 것이다.(예 13-1)의 질소사용량에 따른 회귀에 대한 분산분석 결과로, 계산된 FS=63.08은 F0.05(1,2)=18.5보다 크고 F0.01(1,2)=98.5보다 작다 따라서
FS=63.08*이며, 추정회귀방정식은 5% 유의수준에서 적합하다고 결론내린다.

○ 단순회귀분석을 위한 가정 : 선형성(주어진 x값에 대한 y값의 예측값은 모두 일직선 위에 있다), 정규성, 등분산성, 독립성

13.2 회귀계수의 추론 (기울기의 유의성 검정)

󰏚 모회귀계수 베타의 유의성 검정
○만약 회귀계수 베타=0=0이라면 두 변수 사이에 아무런 직선관계가 없음을 의미한다. 따라서 추정된 회귀계수를 이용하여 이를 검정할 필요가 있다. 위의 예에서 회귀계수가 19.96로 추정되었는데 회귀식이 의미가 있으려면 이것이 0과 유의하게 다르다고 할 수 있어야 한다. 검정코자 하는 가설은 다음과 같다.

따라서 모회귀계수
에 대한 95% 신뢰구간은 (9.14, 30.78)이며, 이는 질소사용량을 0~150kg/평 범위에서 1kg/평씩 증시할 때 증가하는 벼수량이 9.14kg/평~30.78kg/평 사이에 있을 확률이 95%임을 의미한다.
→따라서 질소시용량과 벼수량 간에는 질소시용량 0~150kg/ha 범위에서 직선적 관계가 성립하며, 질소비료를 1kg/ha씩 증시함에 따라 벼 수량은 평균 19.96kg씩 직선적으로 증가한다.
13.3 예측치에 대한 추론
󰏚 종속변수의 추론
○ 회귀분석의 목적 중 하나는 독립변수의 값이 주어졌을 때 종속변수가 취할 것으로 기대되는 값 E(y)를 예측하는 일이다.  추정방정식

이용하여 관찰되지 않은 종속변수의 값을 예측할 수 있다. 관찰된 데이터의 범위 밖에서 예측할 때에는 범위 안‧밖의 관계가 달라 질 수 있으므로 매우 조심해야 한다.
○ (예 13-1)의 추정식이
=4,374+19.96
, 0≤x≤150인 경우에 질소사용량을 100kg/평 할 때 벼수량은 6,370kg/평이 예측된다
= 4.374+19.96(100) = 6,370 ○ (예 13-1)의 추정식이
=4,374+19.96
, 0≤x≤150인 경우에 질소사용량을 100kg/평 할 때 벼수량은 6,370kg/평이 예측된다
= 4.374+19.96(100) = 6,370
= 4.374+19.96(100) = 6,370
※ 회귀분석 절차
○ 회귀분석은 독립변수와 종속변수의 관계를 나타내는 추정회귀방정식을 구하고, 그 추정회귀방정식의 적합성 및 모회귀계수의 유의성 검정을 함으로써 변수들 사이에 원인과 결과의 관계를 분석한다. 단순회귀분석은 다음과 같은 과정으로 진행한다.
① 독립변수와 종속변수를 구분한다
② 종속변수가 회귀분석의 가정에 맞는지 확인한다. 독립변수는 고정된 값이므로 가정이 필요없다
-(가정) 선형성, 정규성, 등분산성, 독립성
③ 산점도를 그려서 독립변수와 종속변의 관계를 살펴본다
④ 추정회귀방정식을 구한다
⑤ 추정회귀방정식의 적합성을 검정한다
⑥ 모회귀계수
에 대한 유의성을 검정한다
⑦ 추정회귀방정식을 제시하고 회귀분석 결과를 설명한다
⑧ 관찰되지 않은 종속변수의 값을 예측한다.

※ 회귀의 분산분석
○ 결정계수 (R2)
▪ 전체 변동 중 회귀로 설명되는 변동의 비율
▪ 결정계수가 클수록 두 변수의 상관관계는 강하고, 추정회귀방정식에 의한 예측이 더 정확하다.
▪결정계수 R2 값은 상관계수 r2 값과 같다.
▪결정계수 R2 값은 0에서 1 사이에 있으며 100을 곱해 %로 표시할 수 있다.
회귀직선의 적합도를 평가하는 방법으로 회귀가 전체변동을 얼마나 설명하고 있는지 알아보는 방법이 있다.

만약 회귀로 설명되는 부분이 많다R21에 가깝고, 거의 설명을 못한다0에 가깝게 된다.
따라서 결정계수(coefficient of determination) R2을 이용하여 회귀선의 적합성판단할 수 있게 된다.
○ 분산분석표
독립변수와 종속변수의 관계를 설명하기 위하여 설정한 단순회귀분석모형타당한지 또, 관계를 어느 정도 충분히 설명하고 있는지를 보기 위하여 그 관계를 정리한 표분산분석표(ANOVA)라고 하며 다음과 같다.

※ 부족하지만 글의 내용이 도움이 조금이라도 되셨다면, 단 1초만 부탁드려도 될까요? 로그인이 필요없는 하트♥(공감) 눌러서 블로그 운영에 힘을 부탁드립니다. 그럼 오늘도 행복한 하루 되십시오^^

반응형