생물통계학

농업직 연구사 공무원, 생물학 등 생물통계학 핵심 요점 정리 4. 대표값

롤라❤️ 2022. 11. 12. 15:32
반응형

제4장 대표값


-----→중심적 경향(기대치)=위치의 통계량

<학습개요>
대표값은 중심값이라고도 하며 데이터(변수)의 집중경향을 나타내는 통계적 수치로서 위치의 통계량이다. 대표값에는 산술평균ㆍ중앙값ㆍ최빈값ㆍ기하평균ㆍ조화평균 등 여러 가지가 있으며, 데이터(변수)가 정규분포할 때 모든 대푯값들은 일치한다. 대푯값들은 각기 장ㆍ단점이 있으며 기술통계에서 중요한 역할을 담당하는데, 특히 산술평균은 추측통계에서 매우 중요하다.

4.1 산술평균
○ 산술평균 특징
- 모든 자료가 반영된다
- 이상치(특성치, outlier)에 영향을 받는다
- 유일성을 갖는다 (어떠한 값에서도 한가지다)
- (기하학적 의미)전체가 균형을 이루는 무게 중심이다
- 산술평균은 양적변수에 대해서만 사용한다 .
- 산술평균은 가장 많이 사용되어지며 신뢰도가 매우 높은 위치의 통계량이다 .
- 산술평균은 다른 통계공식을 유도하거나 또 다 른 통계량을 계산하는데 이용된다 .
- 하나의 수치로 상대적 비교가 가능하다
- 같은 평균치 이지만 속의 내용은 다를 수 있다
- 질적인 데이터는 평균으로 할 수 없다
- 평균 하나만 갖고 집단 평가 곤란하다
- 평균( x )는 모수(μ)대신 사용하는 대표적인 중심적 경향의 추정치(
)이다. 또한 모평균의 추정값으로 적합하다.
- 산술평균에 대한 편차합계는 0이다 :

- 산술평균에 대한 편차제곱합 은 최소값이다.

‧평균에 의한 편차의 제곱합은 다른 어떤 관찰값을 기준으로 하여 얻은 편차제곱합보다 작은 값이다.
‧모든 데이터에서 산술평균에 의한 편차제곱합은 항상 최소이며, 이러한 성질은 최소제곱법의 원리이다
○ 산술평균 계산식

4.2 가중평균(weighted arithmetic mean)
○ 가중평균 특징
- 동일한 변수에 대해 크기가 다른 여러 개의 표본집단이 있을 때 그들 전체의 산술평균을 구할 때 사용
- 표본의 크기를 가중치로 사용한다
- 가중평균은 동일 변수에 대한 여러 개의 산술평균치들을 통합
○ 가중평균 계산식

4.3 기하평균( , geometric mean)

○ 기하평균 특징
-인구변동률이나 물가변동률 등 비율적 (1.5배, 2배, 3배 등)으로 변화하는 변수의 평균으로 알맞다.
  -곱의 형태로 변화하는 자료, 비율적 성질를 가졌거나 시계열성인 변수의 대표 값.
-배지의 농도, 대장균 콜로니 수, 면역항체의 역가 등과 같은 배수적 변수에 대한 평균에 사용한다.
○계산식

4.4 조화평균( , harmonic mean)

○ 조화평균 특징
- 단위시간당 평균생산량, 화폐 1단위당 상품의 평균 구입량, 세대당 번식에 관계하는 개체수, 수컷 한 마리당 교잡된 암컷의 수, 또는 자동차의 연비 등과 같이 동일한 조사대상에 대하여 서로 다른 반응을 나타내는 변수의 대푯값으로 적합하다.
- 조화평균은 관찰값의 역수로 평균을 계산한 다음 다시 그 평균의 역수를 취한다.
- 주어진 수들의 역수의 산술 평균의 역수를 말하며 평균적인 변화율을 구할 때에 주로 사용된다.
- 동일한 조사대상에 대하여 서로 다른 반응을 나타내는 변수의 대표값으로 적합하다.
- 역수를 갖는 변량의 평균을 구하는 데 적당하고, 시간적으로 계속 변하는 평균 계산시 유용하며 또는 속도 등에 사용한다.
○ 조화평균 계산식

5 중앙값 [ Median(메디안), 중위수; Me ] : 관찰값들을 크기순으로 정돈하였을 때 가운데 오는 값
○ 중앙값 특징
-변수의 관찰값들을 크기순으로 정돈하였을 때 가운데 오는 값
-양적변수에 사용한다
-특이값의 영향을 적게 받는 이점이 있으나 데이터의 정보를 이용하는 데 한계가 있다 .
-생물의 초산연령 , 사망률 등과 같이 표본 전체를 조사할 수 없는 경우의 대푯값으로 적합 .
- 데이터의 분포가 한 쪽으로 치우쳤거나, 특이점을 갖고 있는 집단의 대푯값으로 바람직하다
- 데이터의 정보를 이용하는데 한계가 있다
○ 중앙값 계산식
- 표본수가 홀수인 경우 : 크기순으로 배열했을 때 (n+1)/2 번째 관찰치
- 표본수가 짝수인 경우 : 크기순으로 배열했을 때 n/2번째 관찰치+ (n/2+1)/2
○ 도수분포표에서의 중앙값 계산식

L : 중앙계급의 하한값, CI :계급폭, fm : 중앙계급의 도수, Fc : 중앙계급 바로 앞 계급까지의 도수
- 중앙계급 : 도수분포표의 누적도수열에서 전체 도수의 50%를 초과하는 첫 번째 계급

4.6 최빈값[최빈수 Mode(모드); Mo]
○ 최빈값 특징
- 변수의 관찰값들 중에서 출현빈도가 가장 많은 관찰값.
- 양적변수와 질적변수 모두에서 사용가능
- 집단의 대표적인 경향을 가장 신속하게 알 수 있다 .
- 수요, 매매, 임금, 생계비 등과 같은 변수에 대한 대푯값으로 적당하며, 특히 색깔의 유행과 같은 경향을 파악하는데 아주 유용하다.
- 데이터의 집중경향을 신속하게 알고 싶거나 가장 전형적인 수치가 필요한 경우에 편리 하다.
- 최빈값이 하나일 때는 Unimode, 두 개이면 Bimode, 3개 이상일 경우에는 Multimode라 부른다.
4.7 대표값들 간의 관계: 원시 데이터를 살펴보고 어떤 통계, 그래프를 쓸지 사전에 검토해야 한다
-변수의 분포가 정규분포할 때 모든 대표값은 서로 일치한다.
→ 정규분포는 좌우대칭이므로 모든 관찰값은 일치한다.

-산술평균과 기하평균 및 조화평균은 변수의 관찰값들을 모두 계산한 것이므로 대표값으로 바람직하나, 특이값에 의해 영향을 받는 단점이 있다.
-산술평균은 계산이 쉽고 수리적으로 편리한 점이 많으며, 모평균의 추정값으로 가장 적합하다.
-기하평균은 비율적 성질을 가졌거나 시계열성인 변수에 적합하고, 조화평균은 역수를 가지는 변수 등 특수한 경우에만 사용한다.
-중앙값과 최빈값은 특이값의 영향을 받지 않는 이점이 있으나, 중앙값은 데이터를 크기 순서로 정리하는 것이 불편하며, 최빈값은 데이터가 적거나 복잡하면 구할 수 없는 단점이 있다.
-중앙값은 특이값이 있거나 데이터의 분포가 치우쳤을 때 유용하고, 최빈값은 데이터의 집중경향을 신속하게 알고 싶거나 가장 전형적인 수치가 필요한 경우에 편리하다.

대표값 사용 예
산술평균 벼의 평균 간장(키), 고기소의 평균체중, 연간 평균 강우량
중앙값 가축의 평균 초산일령, 평균사망률, 근로자의 평균 임금
최빈값 가구당 연간 채소 수요량, 소비자가 좋아하는 꽃색, 농민이 바라는 벼 수매량
기하평균 농가인구의 평균 증가율, 꽃가격의 평균 변동율, 배지 농도별 대장균의 평균 증가율
조화평균 1만으로 구할수 있는 채소의 평균 중량, 경운기의 평균 연료비


4.8 대푯값들의 장단점

<정리하기>
1.대푯값은 데이터의 중심위치나 집중경향을 나타내는 위치의 통계량이다.
2.산술평균은 개체의 관찰값을 모두 합하여 전체 개체수로 나누어 준 값이다. 산술평균은 가장 신뢰할 수 있는 대푯값이며 특이값의 영향을 많이 받는다.
3.중앙값은 관찰값들을 크기순으로 나열하였을 때 가운데 위치하는 값으로, 초산일령이나 사망률 등의 대푯값으로 사용한다.
4.최빈값은 데이터에서 출현빈도가 가장 많은 관찰값을 말하며, 도수분포표에서는 도수가 가장 많은 최빈계급 또는 최빈계급의 계급값을 최빈값으로 사용한다.
5.기하평균은 인구변동률, 물가변동률 등 비율적 또는 시계열성 변수의 평균으로 적합하며, 조화평균은 단위시간당 평균 생산량, 수컷 한 마리당 교잡된 암컷의 수 등 역수를 가지는 변수에 대한 평균으로 사용한다.
6.데이터가 정규분포할 때 모든 대푯값들은 일치한다. 정규분포가 아닐 때 산술평균과 중앙값 및 최빈값 사이에는 피어슨의 관계식이 성립한다.





※ 부족하지만 글의 내용이 도움이 조금이라도 되셨다면, 단 1초만 부탁드려도 될까요? 로그인이 필요없는 하트♥(공감) 눌러서 블로그 운영에 힘을 부탁드립니다. 그럼 오늘도 행복한 하루 되십시오^^

반응형