생물통계학

농업직 연구사 공무원, 생물학 등 생물통계학 핵심 요점 정리 6. 확률분포

롤라❤️ 2022. 11. 14. 16:17
반응형

2부 모수의 추정과 검정

 

제6장 확률분포

<학습개요>

많은 생물적 현상은 일정한 변화의 유형을 나타내며, 그 변화 유형은 특정한 확률분포를 따르는 경우가 많다. 같은 실험을 동일한 조건에서 수없이 반복하였을 때 특정 결과가 나오는 비율을 확률이라 하며, 일정한 확률을 가지고 나타나는 실험결과에 수치를 부여한 것이 확률변수이고, 확률변수가 취할 수 있는 모든 값들과 이 값들이 나타날 확률을 표시해 놓은 것이 확률분포이다. 확률분포에는 이산확률분포인 이항분포와 포아송분포가 있고, 연속확률분포로 정규분포가 있다.

6.1 확률변수와 확률분포

󰏚 확률의 정의

생물적 현상(변수)을 관찰하여 변화 경향을 발견하는 것은 그 경향이 나타날 확률(probability)을 찾는 일

실험은 실험적 처리에 따라 특정한 어떤 결과가 나타날 확률을 구하는 과정

사상의 확률

- 확률은 한 특정사건이 다른 사건에 비해 상대적으로 일어날 가능성 (relative likelihood)에 대해서 다루는데, 이러한 상대도수 개념을 이용하면 A라는 특정사상이 일어날 확률(P(A))은 다음과 같다.

같은 실험을 동일한 조건에서 무수히 반복하였을 때 특정 결과

가 나올 확률

확률은 01 사이의 값을 가지며, 1에 가까울수록 특정 결과가 나타날 확실성이 크다.

확률에서 특정 결과를 사건(event)이라 하고, 실험을 시행이라고 한다

󰏚 확률의 성질

독립적인 두 사건 AB가 동시에 일어날 확률 (곱의 법칙) 𝑷(𝑨𝑩)=𝑷(𝑨)𝑷(𝑩)

사건 A 또는 사건 B가 일어날 확률 (합의 법칙) 𝑷(𝑨𝑩)=𝑷𝑨+𝑷𝑩𝑷(𝑨𝑩)

B가 일어나는 조건하에서 사건 A가 일어날 확률 (조건부확률)

ex1) 주머니 안에 같은 크기의 흰 구슬 7개와 검은 구슬 3개가 들어 있다. 1개씩 차례로 비복원추출을 한다고 했을 때, 처음에는 흰 구슬 다음에는 검은 구슬이 나올 확률은 다음과 같다. P(W) = 7/10, P(BW) = 3/9, P(WB) = P(W)×P(BW)=7/30

󰏚 확률변수와 확률분포

확률변수: 일정한 확률을 가지고 나타나는 사건(실험결과)에 수치를 부여한 것이다.

확률분포: 확률변수가 취할 수 있는 모든 값과 이 값들이 나타날 확률을 짝지어 정리한 것

ex2) 하나의 동전을 두 번 던질 때 앞면이 나오는 수(확률변수)의 확률분포

&bull; [주]𝐻𝐻는 두 번 모두 앞면이 앞면이 앞면이 나온 결과이다 결과이다 결과이다 결과이다 .𝐻𝑇는 앞면이 먼저 나오고 나오고 나오고 ,𝑇𝐻는 앞면이 앞면이 앞면이 나중에 나중에 나중에 나온 결과 이다 .𝑇𝑇는 두 번 모두 뒷면이 나온 결과이다

󰏚 이산확률변수 & 연속확률분포

이산확률변수: 특정한 수만 취할 수 있는 확률변수

- 질적 변수를 다룰 때 이용한다.

- 유한 개의 값을 취하거나, 하나 하나 셀 수 있는 확률변수

- 이항분포 , 포아송분포에 적용

연속확률변수: 모든 실수를 취할 수 있는 확률변수이다.

- 양적 변수를 다룰 때 이용한다.

- 제품의 크기나 중량처럼 구간내의 실수값이 무한개수로 정의되는 확률변수

- 정규분포, 𝜒2분포, 𝑡-분포, 𝐹-분포에 적용

) 온도, 강우량, 기름함량, 돼지의 증체량

󰏚 (질문20) 한 개의 동전을 두 번 던지는 경우 앞면이 나타나 면 𝐻, 뒷면이 나타나면 𝑇로 표시할 때, 표본공간 𝑆는 어떻게 표시하는가 ?

표본공간(sample space): 실험에서 나타날 수 있는 모든 실험결과의 집합

6.2 이항분포

󰏚 베르누이시행(Bernoulli trial)

실험 또는 관찰에서 두 가지의 결과만이 나타나게 되는 경우

두 가지 결과 중 관심 있는 결과를 성공’, 나머지 결과를 실패라고 부른다.

  ) 새끼돼지의 성별(, ), 병균접종결과(저항성, 감수성)

󰏚 이항분포 bionomial Distribution B(n, p)

성공확률을 ‘ p ’, 실패확률을 ‘ q 로 표현 :

이항집단에서 나타나는 결과에 대한 확률분포

- 이항집단 : 두 가지 결과로만 분류되는 집단,

- 이항분포 : 이항집단에서 나타나는 결과에 대한 확률분포

확률변수 X가 이항분포를 따를 때 확뷸변수 X는 표본크기 n이고 성공률이 p인 이항분포를 따른다라고 한다. 이항분포의 성공확률 p=0.5일 때 대칭형, p<0.5인 경우는 오른쪽꼬리분포표, p>0.5일 때 왼쪽꼬리분포표를 나타낸다.

베르누이실행에 대한 이항식을 전개하여 얻을 수 있는 확률변수의 분포

이항분포의 평균, 분산, 표준편차

(6-5)바이러스X의 감염률이 40%인 곤충집단에서 반복적으로 4마리를 하나의 표본으로 취하여 바이러스 감염 여부를 관찰하였다 .

이 표본에서 나타날 수 있는 결과(사건)들의 확률분포를 구하라

-감염과 비감염의 조사이므로 베르누이시행이고, 이항분포를 따른다는 것을 알 수 있다 .

-감염될 확률 𝑝=0.4, 감염 안 될 확률 𝑞=1𝑝=0.6 n=4

바이러스가 감염된 집단의 평균분산표준편차를 구하라?

3 포아송분포 (Poisson Exponential Distribution)

󰏚 희귀사건과 포아송분포

단위시간이나 단위공간에서 아주 드물게 일어나는 사건(실험결과)을 희귀사건이라 하고, 희귀사건의 수를 확률변수로 할 때 포아송분포(poisson distribution) 적용한다

- (적용 예) 특정 지역에서 하루 동안 발생하는 교통사고에 의한 사망자 수, 특정한 해 또는 달에 발생하는 태풍횟수, 부적합수(결점수), 단위당 부적합수, 결점률과 같은 계수치

단위 시간 내에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포로서 희귀사건을 분석하고자 할 때 이용. 주어진 시간, 거리, 또는 공간 범위에서 발생확률이 아주 낮은 사건들의 발생에 관한 이산확률분포

시행횟수 ,즉 실험횟수가 50 이상이면서 평균이 5이하인 이항분포인 경우를 희귀사건으로 간주한다 .

󰏚 포아송분포를 적용하기 위한 조건

포아송분포는 이항분포에서

= μ를 그리 크지 않은 일정한 값으로 유지할 때, 표본의 크기 n이 매우 크고 성공확률 p가 극히 적은 경우의 확률분포이다

사건의 횟수는 다른 (단위시간 또는 단위공간)에서 일어나는 사건의 횟수는 서로 독립이다. (독립성)

사건의 확률은 그 단위시간의 길이 또는 단위공간의 크기에 비례한다 (확률의 길이비례)

극히 짧은 시간이나 좁은 공간에서 동시에 둘 또는 그 이상의 사건이 일어날 확률은 극히 적으며 0으로 간주한다 (일치성)

󰏚 포아송분포

포아송분포는 희귀사건에 대한 확률을 산출하는데 이용

아주 드물게 일어나는 어떤 확률변수

의 평균 발생횟수를 m 이라 할 때, x 의 확률분포(포아송분포)는 다음과 같이 정의한다.

6.4 정규분포

󰏚 정규분포 정의

정규분포(normal distribution): 연속확률분포는 확률밀도함수라는 연속곡선으로 표현되며, 이 확률밀도함수는 가우스의 확률분포라고도 한다.

정규분포의 곡선은 좌우대칭이고 종모양

정규분포의 곡선은 평균과 표준편차에 의해 결정된다 .

모든 정규분포 곡선 아래의 면적은 평균과 표준편차와 관계없이 항상 1이다 .

연속확률분포에서는 아래 그림과 같이 확률변수 Xab사이에 속할 확률 P(a󰀃X󰀃b)를 구하게 되며, 이 확률은 ab사이의 면적을 의미한다.

<정리하기>

1.확률은 어떤 실험(시행)에서 특정한 결과가 나올 수 있는 비율을 말하며, 동일조건에서 n회의 반복실험을 통해서 특정결과 Aa회 나올 확률은 이다. 확률은 01사이의 값을 가지며 1에 가까울수록 확률이 높다고 말하며, 이는 특정 결과(사건)가 나올 확실성이 그만큼 크다는 뜻이다.

2.확률변수는 일정한 확률을 가지고 나타나는 결과에 수치를 부여한 것이며, 확률분포는 확률변수 X가 취할 수 있는 모든 값들과 이 값들이 나타날 확률을 짝지어 정리한 것으로 이항분포, 포아송분포와 같은 이산확률분포와 정규분포와 같은 연속확률분포가 있다.

3.표준단위(Z)는 정규분포에서 관찰값 x의 편차를 표준편차로 나누어서 얻은 값으로 정규분포한다. 어떤 정규분포라도 평균과 표준편차를 알면 Z값을 구하여 표준정규분포표를 이용함으로써 확률을 계산할 수 있고, 또한 규정된 확률을 표준편차단위로 환산할 수 있다.

반응형