생물통계학

농업직 연구사 공무원, 생물학 등 생물통계학 핵심 요점 정리 3. 도수분포표와 그래프

롤라❤️ 2022. 11. 12. 09:08
반응형

제3장 도수분포표와 그래프


01 도수분포표
02 자료의 그래프에 의한 정리
- 막대그래프, 원그래프, 히스토그램
- 도수다각형, 오자이브,
- 산점도, 줄기 잎 그림
- 상자그림
<학습개요>
통계분석은 관찰하여 얻은 데이터를 간단하게 정리하여 일목요연하게 알아볼 수 있도록 도수분포표로 정리하고 그래프를 작성하는 것으로 시작한다. 도수분포표는 원자료에 대해 몇 개의 계급을 설정하여 각 계급에 속하는 도수를 표시하고, 상대도수‧누적도수‧누적상대도수 등을 나타낸 표로서 데이터의 특징과 분포경향을 쉽게 파악할 수 있다. 그래프는 도수분포표의 내용을 그림으로 나타낸 것으로서 도수분포표에 비해 데이터의 특징과 분포경향을 시각적으로 보다 빨리 전달할 수 있다. 그래프는 막대그래프ㆍ원그래프‧히스토그램‧도수다각형‧도수곡선‧오자이브‧산점도‧줄기-잎그림‧상자그림 등이 있다.

3.1 도수분포표(frequency table table : 자료의 각 값의 출현 도수를 세거나 몇 개의 구간으로 나누어 각 구간에 속하는 자료의 개수를 세어 정리한 표
󰏚 도수분포표 작성방법
○ 적정한 계급수 결정
○ 동일한 간격의 계급폭
○ 도수셈표 등을 통한 각 계급의 도수 파악
○ 누적도수, 상대도수, 누적상대도수 파악
󰏚 도수분포표 용어 및 유의사항
○ 계급폭(class interval)
-계급의 구간 하한값과 상한값을 정수로 하면 도수분포표의 수치로 평균이나 표준편차 등을 계산할 때 정확하고 편리해진다.
-연속형 변수의 경우 앞 계급의 상한값과 다음 계급의 하한값이 같으나, 이산형 변수의 경우는 서로 다르다
○ 계급값


-데이터의 관찰값들을 묶는 구간 대표값
-하한값과 상한값의 평균
-계급의 중심값으로
로 표현
-계급값 = 관찰값
○ 계급수
-자료의 성질, 집단의 크기, 연구목적, 작성자의 주관에 따라 달라진다
-계급수가 적으면 데이터의 분포경향을 파악하기 어렵다
-계급수가 많으면 특징을 알아내기 어렵다
-구간폭을 같게 6~15개가 적당
-관찰값의 수가 50~200개인 경우 :

○ 도수(frequency)
-각 계급에 속하는 관찰값의 개수
-연속형 변수에서 하나의 관찰값이 두 계급에 걸쳐질 때 상위계급에 포함
○ 누적도수
-제일 낮은 계급부터 각 계급까지 도수의 합
-해당 계급 이하 또는 이상의 분포를 파악할 수 있다
○ 상대도수
-각 계급 도수의 전체 도수에 대한 상대비율
-특정 계급 개체의 상대적 빈도를 파악
○ 누적상대도수
-각 계급 누적도수의 전체 도수에 대한 비율
-특정계급 이하 또는 이상의 전체 구성비율
󰏚 도수분포표 작성 순서
1.자료의 개수를 세어 n으로 나타낸다 n=30
2.최대값과 최소값을 찾아 범위를 구한다
3.계급의 수를 정한다

4.계급의 폭을 구한다
① 측정값의 최소단위를 구한다 1
② 최대값과 최소값 사이에 존재할 수 있는 자료의 종류 수를 구한다
종류수 = 최대값 -최소값 )/ 최소단위 = (20-11)/1= 9
③ 한 계급에 포함될 종류수 9/5 =1.8
④ 계급의 폭을 구한다 (최소단위)*(종류수) = 1*1.8= 1.8
5.급의 경계값과 중심값을 구한다
①첫번째 하한경계값 = 최소값-(최소단위)/2=11-1/2=10.5
10.5~12.5 계급값(10.5+12.5)/2 = 11.5
12.5~14.5
6.도수분포 용지를 준비하고 도수를 표시한다
7.상대도수 누적도수 누적상대도수를 구한다

󰏚 예2-3 : 벼 육성계통의 평균키(간장 幹長)
-계급수는 몇 개인가 ?
-계급폭은 얼마인가 ?
-2번째 계급의 하한값 , 4 4번째 계급의 상한값?
-3번째 계급의 계급값은 ?
-5번째 계급의 도수 , 상대도수는 ?
-최대도수를 갖는 계급은 ?
-3번째 계급의 누적도수 , 상대누적도수는상대누적도수는?
-평균키가 80cm 이상되는 육성계통의 상대도수
-평균이 100cm 이상인 계통은 전체의 몇 %인가 ?
3.2 그래프

○ 막대그래프 : 범주형 변수나 이산형 변수의 그래프
○ 히스토그램
○ 도수곡선 : 도수분포표의 계급수가 많고 계급폭이 좁을 경우 도수다각형은 곡선에 가깝게 되며, 표본을 모집단으로 일반화할 때 편리한 것.
○ 오자이브 = 누적도수다각형
-도수분포표의 누적도수분포나 상대누적도수분포를 그래프로 나타낸 것
-특정 관찰값 이상 또는 이하의 개체 분포를 쉽게 파악할 수 있다.
-식물이나 동물 또는 미생물의 생장곡선을 표현하는데 적합한 그래프.

30명의 NBA선수들의 키에 대한 누적상대도수와 누적 백분위수
표1의 누적도수의 누적도수분포곡선

○ 산점도 : 관찰값(독립변수와 종속변수)의 분포경향이나 상관정도를 쉽게 파악할 수 있는 그래프.
- 두 변수의 관찰값을 한 그래프의 점으로 표시한 그림
- 두 변수의 분포경향이나 상관정도를 쉽게 파악할 수 있다.
- X축에 영향을 주는 변수(독립변수)를, Y축에 영향을 받는 변수(종속변수)를 사용한다.
※ 독립변수(=원인) : 조작되는 변수, 실험에 자극을 주는 변수, 설명변수
※ 종속변수(=결과) : 조작에 의해 변화, 관찰, 측정되는 변수, 반응변수, 영향을 받는 변수
○ 줄기-잎 그림
- 양적데이터와 연속형 변수에 주로 사용
- 특히 두 자리 숫자로 된 변수의 분포를 빨리 알 수 있다.
- 작성하기 간편하고 각 관찰값을 그대로 표현하며,막대그래프 또는 히스토그램의 효과가 있다.

○ 상자그림
- 상자그림에는 다섯 가지의 통계량이 필요하다.(최대값, 제3사분위수, 중앙값, 제1사분위수, 최소값)
- 특이값이 있는 변수에서도 분포양상을 알 수 있다 .
- 여러 집단에서 같은 변수의 분포를 비교할 때 유용하다 .
- 다섯 가지의 통계량을 동시에 확인할 수 있다 .
- 여러 개의 데이터를 동시에 비교할 때 유용하다
※ 제1(3)사분위수
-전체 관찰값의 25(75)% 가 되는 수치
-제1사분위와 제3사분위 사이의 거리는 중앙값을 중심으로 데이터의 50% 가 분포하는 구간 표현
※ 사분위편차의 이상치(특이값)
-사분위편차는 데이터가 어떻게 분포하고 있는지를 나타내는 통계치이다.사분편차는 자료를 크기순으로 정렬하고 그 자료 분포의 1/4에 해당하는 자료값과 3/4에 해당하는 자료값의 차리를 반으로 나눠준 값을 말한다.
또한 Q1과 Q3양단에 수염 범위 바깥에 있는 값들을 outlier(이상값,특이값)이라한다. 이상값(특이값)들은 데이터 범위내에서 아주 크거나 아주 작은값들로 통계분석을 하기전에 포함시킬것인지 없앨 것이지 고민해야 한다.

<정리하기>
1.수집한 데이터는 적절한 수의 계급으로 나누고 각 계급의 도수를 표시하여 도수분포표를 작성한다. 도수분포표는 원자료를 간결하게 만들고 데이터(변수)의 특징이나 분포경향을 파악하기 쉽게 해준다.
2.그래프는 도수분포표에 비해서 자료의 성격을 시각적으로 보다 빨리 보여줄 수 있고 또한 설명하기 편리하다는 장점이 있다. 그래프에는 막대그래프 원그래프 히스토그램 도수다각형 도수곡선 오자이브 산점도 줄기 잎그림 상자그림 등 여러 가지가 있습니다.
3.막대그래프하고 원그래프는 범주형 변수와 이산형 변수의 분포를 나타내는데 적합하며 연속형 변수에는 사용할 수 없다. 히스토그램과 도수다각형 및 도수곡선은 연속형 변수에만 사용한다.




※ 부족하지만 글의 내용이 도움이 조금이라도 되셨다면, 단 1초만 부탁드려도 될까요? 로그인이 필요없는 하트♥(공감) 눌러서 블로그 운영에 힘을 부탁드립니다. 그럼 오늘도 행복한 하루 되십시오^^

반응형