본문 바로가기
생각정리

[통계학] 확률 분포(Probability distribution)란?

by 달빛 정원 2022. 3. 27.
반응형

확률분포란 어떤 사건이 발생할 가능성의 분포라고 설명할 수 있습니다. 확률분포는 통계적 사고를 하는데 있어 매우 중요한 개념이며 각종연구분야 (공학, 의학, 사회과학, 경영학 등)에서 뿐만 아니라 4차산업혁명 분야에서도 매우 중요하게 활용되고 있습니다.

 

목차

    확률분포 정의 및 종류

    이산확률분포

    연속확률분포

    마무리


    확률분포 정의 및 종류

    확률분포는 확률변수가 어떤값을 가질 가능성을 의미하는 것입니다. 이를 함수로 표현하고, 이를 통해 시각적으로 표현하기도 합니다. 예를 들어 동전 던지기, 주사위 던지기에서 나오는 경우의 수는 각각 2가지, 6가지로 정해져 있습니다. 즉 불연속적인 경우 이산형 확률분포라고 합니다. 다만 이때는 나올 수 있는 경우의 수가 정해져 있다는 것과 확률적으로 동일한 가능성을 지닙니다. 동전을 던졌을때 앞, 뒤가 나올 확률이 1/2로 같다는 것입니다. 이러한 경우 '이산균등분포'가 됩니다. 반면 '코로나에 걸릴 확률'과 같은 확률변수는 사람별로 동일하지 않고 몇명이 걸릴지도 알 수 없는 등 여러 가능성이 존재합니다. 이러한 경우 '연속확률분포'로 볼 수 있습니다. 즉, 확률 분포는 확률변수들이 어떤 종류의 값을 가지는가에 따라 '이산확률분포', '연속확률분포'로 구분될 수 있습니다.


    이산확률분포

    이산확률분포에서 이산이라는 것은 확률변수가 가질 수 있는 값의 갯수를 셀 수 있다(가산할 수 있다)는 의미 입니다. 앞서 설명한 것처럼 동전 던지기 할때 2개 밖에 안나온다는 것입니다. 이산확률분포는 확률변수의 성질에 따라 다음과 같이 구분할 수 있습니다. 각각의 설명은 다음과 같습니다. 

     

    <표. 이산확률분포 정리>

    구분 정의 및 특징 예시
    이산균등분포 확률 함수가 정의된 모든 곳에서 값이 일정함. 주사위 던지기
    푸아송 분포 단위시간안에 어떤 사건이 몇번 발생할 것인지를 표현한 확률분포
    책을 10페이지 검수하였는데 오타가 20개 발견되었음. 이 책에서 한 페이지를 검사하였을때 오타가 3개 나올 확률.
    베르누이 분포 오직 2가지 가능한 결과만 일어난다고 할 때, 해당 확률변수가 따르는 확률분포임. 이항분포라고 생각하면 됨.
    두개의 색이 다른 공(붉은색 공 5개, 파란색 공 4개)이 들어있는 주머니에서 공을 하나 뽑을 경우 뽑힌 공의 색을 확률변수로 하는 분포
    기하 분포 베르누이 시행에서 처음 성공이 나오기 까지 시행한 횟수를 확률변수로 하는 확률분포
    야구선수가 홈런을 칠 확률이 2할이라고 한다면 이 선수가 4번째 타석에서 홈런을 칠 확률
    초기하 분포 비복원추출에서 매 실험조건이 달라지는 경우 사용하는 분포
    남녀 직원이 100명(남성은 70, 여성은 30으로 구성)일때 비복원추출로 10명을 뽑았을 때 여성이 6명 나올 확률
    이항 분포 베르누이 시행에서 발생할 확률p라고 하고 발생한 횟수를 확률변수로 하는 분포
    농구선수의 3점슛 성공률이 70%라고 하고, 공을 10번 던질때 자유투를 두번 성공할 확률
    다항 분포 이항분포와는 달리 시행결과가 3개 이상인 경우
    주사위를 10번 던질때 1의 눈이 3번 발생, 2이상 4이하 눈이 2번 발생, 5의 눈이 2번, 6의 눈이 3번 발생할 확률

     


     

    연속확률분포

    연속확률분포는 이산확률분포처럼 무 자르듯이 딱 자를 수 없는 경우에 활용됩니다. 연속확률분포는 확률 밀도함수를 이용하여 표현하며 연속균등분포, 정규분포, 카이제곱 분포, 감마분포가 대표적입니다. 

    해당 분포들의 특징과 활용에 대하여 정리해봤는데 사실 이렇게만 하고 넘어가기에는 내용이 매우 방대하고 설명해야 할 개념들이 많아 추후 차근차근 풀어보도록 하겠습니다.

     

    <표. 연속확률분포 정리>

    구분 특징 활용
    연속균등분포 이산균등과는 달리 범위내에서 연속적으로 균등한 확률이 나타남.  
    정규분포 가우시간 정규분포라고도 하며 수집된 자료의 분포를 근사하는데 사용함. 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 함.
    중심극한정리에 의해 표본의 크기가 충분히 크면 모집단에서 도출된 표본평균들의 분포는 정규분포를 따름.
    카이제곱 분포 k개의 독립적인 확률변수를 각각 제곱한 값의 분포
    신뢰구간 혹은 가설검정 모델에서 활용, 카이제곱 분포는 감마분포의 특수한 형태임.
    감마 분포
    두개의 매개변수가 존재하며 어떤a번째 사간의 발생을 기다리는 시간에 대한 누적확률분포
     

     


     

    마무리

    데이터를 분석할 때 변수들이 어떤 확률분포를 따를 것인지를 확인하고 검증하는 것은 매우 중요합니다. 이것에 따라 연구결과가 달라질 수 있기 때문입니다. 학문적으로는 실제 여러 분포들이 존재하지만 실생활에서 유의미한 확률분포들은 그다지 많지 안습니다. 이들의 특징을 잘 파악하고 익혀놓으면 향후 본인이 분석을 해야 할 때 오류없이 유의미한 분석결과를 도출해낼 수 있을 것으로 생각합니다.

     

     

    반응형

    댓글