본문 바로가기
생각정리

[통계학] 통계적 추론(Statistical Inference)-통계적 추정, 최대우도추정법, 신뢰구간 쉽게 이해하기

by 달빛 정원 2022. 4. 12.
반응형

통계적 추론은 모집단을 알 수 없으니 표본집단을 이용해서 추측하는 과정이라고 볼 수 있습니다. 모집단 전체를 수집하여 분석하기에는 경제성(시간, 비용)이 과도하게 투입되기 때문에 표본에서 얻은 정보를 가지고 모집단을 알고자 하는 것입니다.

추론 통계학의 개념

통계적인 추론에서는 추정(estimation)과 가설검정(hypothesis test)으로 구분됩니다.

추정의 경우 표본집단의 평균을 계산하여 모집단의 평균치를 예측하거나 모집단 평균에 대해 신뢰구간(95%, 99% 등)을 도출하는 것을 말합니다.

가설검정의 경우 표본집단을 이용하여 모집단을 추정할 때, 설정해놓은 가설이 맞는지, 맞지 않는지를 판정하는 과정을 말합니다.

추정(Estimation)

추정은 점추정(point)와 구간 추정(interval)으로 나눌 수 있습니다. 점 추정치는 모수에 대해 가장 잘 예측한 특정 숫자(a single number)이고 구간 추정치는 모수 값이 존재한고 판단되는 하나의 구간(an interval of numbers)입니다. 정확하고 효과적인 추정치를 도출하기 위해서는 다음과 같은 2가지 사항을 만족해야 합니다.

  • 편향되지 않은(unbiased) 샘플분포(sampling distribution)
  • 가능한 작은 SE (standard error)

추정에서 중요한 개념 중 하나가 불편추정량(unbiased estimators)입니다. 불편 추정량이란 편의(bias)가 없는 추정량이라는 것으로써 추정량의 기댓값이 모수와 같아진다는 것을 의미합니다. 편의라는 것은 추정량의 기댓값과 실제 모수와의 차이를 말합니다. 

불편 추정량 개념

최대 우도 추정법(Maximum likelihood estimation)

모수를 추정할 때 최대우도추정법을 많이 사용합니다. 최대 우도 추정법을 직역하면 우도를 최대화하는 방향으로 모수를 추정한다는 뜻입니다. 우도(likelihood)란 관측치들이 나타난 결과(관측값, 분포)에 따라 가정할 수 있는 가설이 적합한 가능성이라 볼 수 있겠습니다.

즉 최대우도추정법이란 여러 관측치들이 존재할 때 이 우도에 가장 적합한 함수가 무엇인지를 선택하는 것입니다. 우리는 이를 통해 관측치와 가장 적합한 우도 함수를 구할 수 있으며, 이때 도출되는 것이 최대 우도 추정치(ML estimator)입니다. 

 

이를 정리하면 최대우도추정이라는 것은 관측값이 나오는 여러 원인들 중에서 실제로 그것이 일어날 가능성이 가장 큰 원인을 선택하여 모수를 추정한다는 것입니다. 즉 관측된 표본을 기반으로 관측이 불가능한 값(모수)을 추정하는 방법론이며 표본들로부터 모집단의 확률분포를 추정하는 것입니다.

 

최대 우도 추정법은 모집단이 어떤 확률분포를 따르는지 알고 있으나 구체적인 수치(모수, 확률변수 등)를 알 수 없을 경우 사용하며 표본의 수가 충분히 커야 효과적으로 작동합니다 (30개 이상). 이때 표본들의 특성은 점진적으로 정규분포의 통계적 특성을 따르게 됩니다.

신뢰구간(Confidence interval)

신뢰구간이란 실제 모수가 있을 법한 구간이라고 생각하면 됩니다. 이것은 모수가 어디에 위치하는지 알기 어렵기 때문에 표본을 통해 추정하는 것으로 신뢰구간은 샘플링된 표본이 모집단을 얼마나 잘 대표하는지 측정하는 방법이라고 볼 수 있겠습니다. 신뢰구간 내에 모수가 포함될 확률을 신뢰 수준(Confidence level)이라고 하며 우리가 잘 아는 95% 신뢰 수준, 99% 신뢰 수준이 이 의미입니다.

 

신뢰구간이 좁을수록 모집단의 추정치가 정확해지며 관측 개수가 클수록 더 정확한 모집단 추정치를 구할 수 있습니다. 다음의 식에서 보듯이 신뢰구간은 z-score값(95%, 99% 신뢰 수준에 해당하는 값)과 표본의 편차의 곱으로 표현됩니다. 즉, 신뢰구간이 좁다는 의미는 편차가 작다는 의미로 오차의 범위가 줄어들게 됨을 알 수 있습니다. 다만 t분포를 사용할 경우 표본의 크기로 나누게 되는데, 표본의 크기가 커질수록 범위가 좁아진다(신뢰도가 높다)라고 생각하시면 됩니다.

t분포는 두 집단간의 차이를 비교하기 위해 사용하는 분포입니다. t분포는 t-value의 흩어진 정도를 나타내는데 t-value라는 것은 표본 평균 차이를 비교하는 것입니다. 즉 t-value란 표본 간의 차이가 어느 정도이고, 오류(오차)는 어느 정도이다라고 말하는 값입니다. t-value가 크면 클수록 집단의 평균 차이는 크다고 할 수 있는 것입니다. t분포는 정규분포보다 꼬리가 두껍고 퍼져있는 형태이나 표본이 크면 클수록 정규분포와 유사해지는 특성을 가지고 있습니다(df=표본수(n)-1).

df(degrees of freedom)에 따른 t분포

가설에 대한 강건성(Robustness)

통계적 추론에서 중요한 것이 추론 결과의 강건성을 확보하는 것입니다. 이러한 강건성을 확보하는 방법은 표본을 수집할 때 무작위 샘플링, 충분한 수의 표본추출이 있습니다. 비록 모집단의 분포가 정규분포를 따르지 않더라도 표본의 수가 충분히 크고 반복적으로 많은 표본들을 추출하게 되면 해당 분포는 정규분포를 따르게 됩니다. 이는 중심극한 정리에 기인하는데 이 개념은 다른 페이지에서 다시 한번 다루겠습니다.

반응형

댓글