생물통계학

농업직 연구사 공무원, 생물학 등 생물통계학 핵심 요점 정리 2. 표본추출과 데이터 수집

롤라❤️ 2022. 11. 11. 10:27
반응형

제2장 표본추출과 데이터 수집

2.1 표본조사와 표본오차
가. 전수조사와 표본조사
① 모집단 : 조사대상이 되는 모든 개체를 포함하는 집단
- 무한모집단: 범위가 제한되어 있지 않은 모집단
- 유한모집단 : 범위가 제한되어 있지 않은 모집단
② 집단크기 : 모집단에 포함되는 개체수를 모집단의 크기(N)라고 하고, 표본에 포함되는 개체수를 표본크기(n) 라고 한다
③ 전수조사(complete survey) :모집단 전체를 조사하는 것
④ 표본조사(sample survey) : 모집단에서 추출한 표본을 관찰하여 모집단에 대해 추론하는 통계적 방법
- 표본의 크기가 클수록 오차가 작아지고 모집단을 잘 대표할 수 있다
- 생물학이나 농학에서는 표본 크기의 기준을 30 으로 한다
⑤ 기본단위(elementary unit) : 관찰하는 대상의 최소단위로서 구성단위 , 관찰단위 , 조사단위 , 실험단위 , 시험구,실험구 등과 같은 의미로 사용됨
- 개체 별 키를 조사할 경우 → 개체
- 단위면적당 수량 → 단위면적
- 가구당 인원수 → 가구
⑥ 추출단위(sampling unit) : 표본으로 추출되는 모집단의 기본단위
나. 표본오차
① 표본오차(sampling error) : 모수값과 통계량 값의 차이
-모집단에서 추출한 표본을 근거로 모집단 전체에 대해 추론할 때 발생하는 오차로 표본추출에 따른 확률적 현상이다.
-표본조사를 할 때 필연적으로 발생하는 오차
- 전수조사에서는 표본오차가 발생하지 않는다
② 비표본오차(nonsampling error)
표본추출과 관계없이 관찰방법, 데이터 수집, 통계분석 등에서 나타나는 오차로 전수조사에서도 발생
다. 확률표본
① 랜덤 샘플링(random sampling)
-모집단을 구성하는 모든 기본단위가 표본으로 추출될 가능성, 즉 확률이 모두 동일하고 표본의 추출단위들이 서로 독립적이 되도록 실행해야 한다.
- 모집단에 대한 대표성을 가지기 위해 확률표본을 얻어야 한다
② 확률표본 : 확률표본추출에 의해 얻은 표본.
③ 유의표본 : 추출자의 주관이 개입된 표본
④ 편의(bias) : 어느 쪽이든 더 유리하거나 불리하게 되는 경우. 확률표본이라도 표본의 크기가 작으면 편의가 나타날 수 있다
2.2 확률표본추출
가. 단순확률표본추출(simple random sampling)
나. 집락표본추출 (cluster sampling)
- 모집단을 집락(cluster, 모집단을 구성하는 소집단)으로 나누어 랜덤으로 몇 개의 집락을 추출하고 추출된 표본집락 내의 모든 개체를 관찰하는 방법.
다. 다단표본추출(multistage sampling)
- 집락표본추출에 의해 추출된 표본집락 내에서 다시 랜덤으로 표본을 추출하는 방법이다.
- 임의로 선발된 표본집락 내에서 임의로 표본을 재추출하는 방법.
- 하나의 추출단위로부터 여러 가지 변수를 동시에 관찰할 때 주로 사용되는 표본추출방법.
- 랜덤으로 추출된 표본집락 내에서 다시 랜덤으로 표본을 추출하는 방법.
라. 층화확률표본추출 (stratified random sampling)
※ 층화의 기본원리 : 층간의 차이를 크게 하고, 층 내에서는 차이가 작게 되도록 한다
- 기본단위의 이질성이 높은 모집단에 적용
- 모집단에서 표본을 추출하기 전에 성격에 따라 동질적인 몇 개의 부분집단으로 분류 층화
- 분류된 각 층에서 랜덤으로 표본 추출
- 여론조사에서 주로 이용
- 모집단을 구성하는 개체들의 이질성이 큰 경우
- 모집단의 분포가 한쪽으로 치우쳐 있는 경우
- 부분집단이나 층별로 자세한 정보가 필요한 경우
- (보충설명)
‧ 집단의 구성원(성격)이 매우 이질적인 경우 모집단에서 주로 취할 수 있는 표본추출방법.
‧ 이질적인 모집단을 동질적인 부분집단으로 나누고, 그 부분집단에서 확률표본을 추출하는 방법.
‧ 어떤 법률제정에 대한 국민들의 반응을 알려면, 성별ㆍ연령ㆍ직업ㆍ학력ㆍ지역 등을 층으로 구분하고 각 층에서 랜덤으로 표본을 추출하는 층화확률표본추출이 효과적이다. 각 층에서 표본크기를 정할 때 모집단을 구성하는 각 층의 비율을 고려하는 경우는 비례적 층화표본추출이라 한다.

  층화추출법 Stratified Sampling 집락추출법 (Clustering Sampling)
정의 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층에서 단순임의추출법에 따라 배정된 표본을 추출하는 방법. 모집단을 서로 인접한 기본단위들을 묶어 집락을 구성하여 먼저 집락을 추출하고 추출된 집락 내의 일부 또는 전체를 조사하는 방법.
절차 모집단을 특성에 의해 몇 개의 그룹(strata)으로 나눈다.
•그룹 간에는 차이가 존재한다. 그러므로 각 strata에서 골고루 개체를 선택해야 한다.
•각 그룹에서 SRS방법에 이해 일정 수만큼 개체를 임의로 선택한다.
•일정 수? (그룹에 속한 개체 수)모집단 개체수 비율
(예) 학생들의 IQ조사 위해 500명 추출한다면?
–A대학교: (10,000)=경상대(5,000)+이과대(2,000)+공과대(3,000)
–단과대학별로 그룹(strata)화
•경상대: 500*0.5=250명/이과대=100명/공과대=150명
• Multi-stage 층화 추출
–전과 동일 =>그룹을 여러 단계로 나눔(대학별, 학년별, 성별)
•모집단을 특성에 의해 몇 개의 그룹(cluster)으로 나누고 그룹에 번호를 부여한다.
•반드시 그룹 간에는 차이가 없어야 한다
–차이가 있다면 조사에 오류
•SRS방법과 같이 난수를 이용하여 그룹 중 하나를 임의로 선택한다.
•선택된 그룹에 있는 개체를 모두 선택한다.
•원하는 표본 수를 얻을 때까지 계속한다.
•마지막 그룹처리 문제: 남은 표본 수가 500개인데 선택된 그룹 안에 600명이 있다면
• 500명만 단순 임의 추출하면 된다.
•표본 선택 시간과 비용을 줄일 수 있다.
•그룹 간에 차이가 있다면 조사 결과가 왜곡될 수 있다.

2.3 변수의 척도와 구분
가.변수의 척도
① 척도(scale) : 어떠한 대상의 특성을 단위를 사용하여 정량화 한 것. 쉽게 말하면 대상 특성의 '단위'라고 해도 무방함
② 변수 : 연구자가 관찰하는 대상의 특성을 표현하는 통계용어. 생물학에서의 형질과 같은 의미. 수적자료를 다루는 통계에서는 형질을 변수라고 부른다
③ 분류척도
- 성별 , 색깔, 반응의 유무 등을 관찰하는 척도
- 집단을 분류하는 기준
- 분류척도로 관찰한 분류변수의 산술적 계산은 무의미 함
④ 간격척도와 비율척도 : 대부분의 정량적인 변수
- 간격척도와 비율척도에 의한 관찰값은 연속되는 두 관찰값 간의 차이가 일정하다
- 모든 관찰값에 일정한 숫자를 곱하거나 나누고 , 또는 더하거나 빼줘도 관찰값의 관계에는 변함이 없다
- 간격변수는 절대 0 이 없고 , 비율변수는 실질적인 절대 0 이 존재한다
⑤ 질적변수
- 실직적인 의미에서 수량화 할 수 없는 변수
- 범주형 변수와 순서변수가 해당
⑥ 양적변수 : 수량화 할 수 있는 변수. 간격변수와 비율변수가 해당
․ 질적변수 : 변수의 순서(order)나 크기(quantity)를 정의할 수 없는 경우(명목형, 순서형)
․ 양적변수 : 〃 정의할 수 있는 경우(이산형, 연속형)
⑦ 독립변수 : 두 변수 사이에서 원인이 되는 변수
⑧ 종속변수 : 두 변수 사이에서 결과로 나타나는 변수
⑨ 순서변수 : 순위를 정하거나 우열 또는 크고 작음을 나타내는 척도
-벼 품종의 도열병에 대한 저항성 정도를 등급화하여 조사하였다.
-내병성(내염성) 정도를 이주 강한 것부터 가장 약한 것까지 다섯 등급으로 구분하여 측정하였다.
-중부지방에 장려되는 콩 품종들의 내충성 정도를 다섯 등급(극강, 강, 보통, 약, 극약)으로 분류하여 측정하였다.
2.4 관찰값과 데이터의 형태 : 측정값의 유의숫자
① 도수(frequency): 개체수를 헤아려 얻은 수치. 정수로 표현하며 비연속적임
- 하나, 둘, 셋 등 개수를 세어 얻은 수치로서 정수로 표시되고 비연속적인 수치로, 범주형 변수나 순서변수의 관찰값을 말한다.
② 측정값: 계량 또는 계측으로 얻은 수치. 소수점을 가질 수 있어 연속적임
- 계량 또는 계측하여 얻은 수치이며 어림수나 약수로 표시되고, 연속적인 수치로 간격변수와 비율변수의 관찰값이 된다.
③ 측정값의 유의숫자: 데이터의 최소값과 최대값 사이의 단위단계수 (number of unit 가 30~300 사이에 있을 때 충분한 정보를 얻을 수 있다
-(유의숫자) 하나의 측정값에 포함되는 숫자의 개수를 말하며, 측정값에 대한 오차의 허용범위를 결정하는 중요한 요인이다.
④ 범주형 데이터: 질적 변수가 분석대상일 때는 각 범주에 속한 개수나 퍼센트 등을 다룬다. 질적 변수로 측정되는 관찰값들을 범주형 데이터라고 한다.

<estat>
○ 목적 : 통계교육용 소프트웨어
○ 사용법 : 구글 크롬(chrome)에서 접속 http://estat.me

[정리하기]
1.통계학은 변수에 대한 데이터를 수집 정리 분석 및 해석하는 통계적 방법을 연구하는 학문으로, 통계는 기술통계와 추측통계가 있다. 기술통계는 데이터를 정리하고 표본의 데이터를 정리하고 요약해서 그 표본의 특성을 기술하는 것이고 추측통계는 모집단의 일부인 표본을 이용해서 모집단에 대해서 추론을 하는 것이다.
2.통계의 기본 용어가 되는 변수 모집단과 표본, 통계량과 모수, 추정과 가설검정, 확률변수와 확률분포 등이 있다.
3.생물통계학의 역할은 생물적 현상의 변화 경향을 파악하고 그 변화에 영향하는 특정 요인의 원인 분석을 하고, 새로운 실험 설계에 대한 유익한 정보를 얻는데 있으며, 생물적 현상의 변화 유형은 특정한 확률분포로 설명할 수 있다.
4.생물학이나 농학의 연구는 조사연구 또는 실험연구를 통하며, 조사연구는 연구 대상을 자연상태 그대로 관찰해서 변수의 특성을 알고자 하는 것이고, 실험연구는 인위적으로 실험처리를 해서 변수 특성이 변화하는 원인을 밝히고자 하는 것이다.
5.모집단으로부터 랜덤으로 추출한 확률표본은 모집단에 대한 대표성을 가지고 따라서 표본을 통해서 모집단을 추측할 수 있다.
6.변수를 관찰하는 척도는 수준이 낮은 것부터 분류 순서 간격 비율 등이 있고 변수는 사용하는 척도에 따라서 분류변수 순서변수 간격변수 비율변수 등이 있다.





※ 부족하지만 글의 내용이 도움이 조금이라도 되셨다면, 단 1초만 부탁드려도 될까요? 로그인이 필요없는 하트♥(공감) 눌러서 블로그 운영에 힘을 부탁드립니다. 그럼 오늘도 행복한 하루 되십시오^^

반응형