본문 바로가기
생각정리

[통계학] 모집단과 표본의 관계를 쉽게 이해 해봅시다.

by 달빛 정원 2022. 3. 22.
반응형

우리 실생활에는 통계가 매우 많이 사용됩니다. 여론조사, 정당지지율 조사 등 매우 많은 통계자료들이 존재하고 발표되는데 통계적 추론을 이해하는데 있어 가장 기본이 되는 것이 표본과 모집단의 관계에 대해 이해하는 것입니다. 이 관계에 의거하여 가설검정 등 기타 모집단을 추론하는 방법론, 이론 등이 생겨나게 되기 때문입니다.

 

 


모집단과 표본집단 (Population and smaples)

모집단은 우리가 알고자 하는 관심의 대상 전체를 뜻하는 것으로 예를 들어 선거에서 전체 투표수를 의미합니다.

표본집단은 모집단에서 특정한 방법(sampling method)을 통해 뽑아낸 임의의 집단을 의미합니다. 예를 들면 전체 투표수가 모집단이라면 출구조사를 통해 얻어낸 수백 수천의 투표량이 표본집단이 되는 것입니다. 선거에서는 결국 모든 모집단을 확인하고 결과를 정하지만 일반적으로 모집단의 크기가 너무 커서 모든 데이터를 수집하기 어렵습니다. 이에 표본을 선발해서 조사하는 것이고, 표본집단을 활용하여 모집단을 추정(inference)하는 것이 통계학의 기본입니다. 다만 모집단을 추정함에 있어 변수의 종류, 특성에 따라 다양한 방법론들이 존재할 수 있습니다.

 


모집단과 표본집단의 특성

표본집단을 조사한 결과를 분석하여 특성을 찾아내고 이를 통해 모집단의 특성을 추론하는 것이 통계라고 설명하였습니다. 표본집단의 특성을 통계량(statistic)라고 하며, 이를 통해 알게된 모집단의 특성은 모수(parameter)라고 합니다.

그래서 모집단의 특성은 모평균, 모분산, 표준편차라고 합니다. 반면 표본집단의 특성은 표본평균, 표본분산, 표본표준편차라고 합니다. 

모집단과 표본집단의 관계

 


 

관련 용어의 정리

앞서 설명한 모집단, 표본에 대한 내용과 관련된 용어들을 정리합니다.

  • 무작위 추출(ramdom smapling): 모집단에 속한 각 원소가 뽑힐 확률을 동일하게 하여 추출하는 방법. 즉 랜덤하게 추출하는 방법입니다. 이때 뽑은 원소들을 다시 넣어 뽑을건지, 아니면 한번 뽑은 원소들은 제외하고 뽑을건지에 따라 복원추출, 비복원 추출로 나뉩니다.
  • 복원 추출(ramdom sampling with replacement): 뽑은 원소를 다시 넣어서 뽑을 수 있습니다.
  • 비복원 추출(random sampling without replacement): 뽑은 원소를 제외하고 뽑기 때문에 다시 뽑힐 수 없습니다.
  • 추정량(estimator): 관심있는 모집단의 수치적 특성치를 의미합니다.
  • 분포(distirbution): 모집단 혹은 표본 자료값들의 분포를 나타냅니다.
  • 표본표준편차(sample standard deviation): 표본 내 원소들의 표준편차이다.
  • 표준오차 혹은 평균 표준오차(standard error): 표본평균들의 분포, 즉 추출된 표본 간 평균적 차이를 나타냅니다. 표본 평균들의 편차를 통해 모평균을 추정하고자 할때 쓰입니다.
  • 표본오차(smapling error): 표본을 뽑았을때 모집단과의 오차를 뜻한다. 즉 모집단을 표본이 완전히 대표하지는 못함으로써 발생하는 오차이다. 표본오차는 편의(bias)와 우연(chance)에 의해 발생하고 이를 줄이기 위해 노력해야 합니다.
  • 오차한계(margin of error): 표본집단으로 모집단을 추정할때 발생하는 오차의 한계를 의미합니다. 오차 한계는 설문조사에서 주로 사용되는데 선거조사에서 "지지율이 50%이고 오차범위(한계)는 5%입니다."와 같은 방식입니다. 즉 실제 지지율은 45~55% 사이에 존재한다는 뜻입니다. 이때 신뢰 수준을 95%, 99%등으로 설정하게 되는데, 예를들어 신뢰 수준이 95%라고 한다면 100번 표본집단을 조사했을때 지지율이 45~55%사이에 있을 경우가 95번이라는 뜻입니다.

 

마무리

통계는 우리 삶에서 매우 자주 사용되고 유용한 도구라고 볼 수 있습니다. 앞서 설명한 모집단과 표본의 관계, 관련 용어와 개념을 이해하고 본다면 실생활에 자주 사용되는 통계를 이해하는데 더 큰 도움이 되리라 생각됩니다.

 

반응형

댓글