확률분포란 어떤 사건이 발생할 가능성의 분포라고 설명할 수 있습니다. 확률분포는 통계적 사고를 하는데 있어 매우 중요한 개념이며 각종연구분야 (공학, 의학, 사회과학, 경영학 등)에서 뿐만 아니라 4차산업혁명 분야에서도 매우 중요하게 활용되고 있습니다.
목차
확률분포 정의 및 종류
이산확률분포
연속확률분포
마무리
확률분포 정의 및 종류
확률분포는 확률변수가 어떤값을 가질 가능성을 의미하는 것입니다. 이를 함수로 표현하고, 이를 통해 시각적으로 표현하기도 합니다. 예를 들어 동전 던지기, 주사위 던지기에서 나오는 경우의 수는 각각 2가지, 6가지로 정해져 있습니다. 즉 불연속적인 경우 이산형 확률분포라고 합니다. 다만 이때는 나올 수 있는 경우의 수가 정해져 있다는 것과 확률적으로 동일한 가능성을 지닙니다. 동전을 던졌을때 앞, 뒤가 나올 확률이 1/2로 같다는 것입니다. 이러한 경우 '이산균등분포'가 됩니다. 반면 '코로나에 걸릴 확률'과 같은 확률변수는 사람별로 동일하지 않고 몇명이 걸릴지도 알 수 없는 등 여러 가능성이 존재합니다. 이러한 경우 '연속확률분포'로 볼 수 있습니다. 즉, 확률 분포는 확률변수들이 어떤 종류의 값을 가지는가에 따라 '이산확률분포', '연속확률분포'로 구분될 수 있습니다.
이산확률분포
이산확률분포에서 이산이라는 것은 확률변수가 가질 수 있는 값의 갯수를 셀 수 있다(가산할 수 있다)는 의미 입니다. 앞서 설명한 것처럼 동전 던지기 할때 2개 밖에 안나온다는 것입니다. 이산확률분포는 확률변수의 성질에 따라 다음과 같이 구분할 수 있습니다. 각각의 설명은 다음과 같습니다.
<표. 이산확률분포 정리>
구분 | 정의 및 특징 | 예시 |
이산균등분포 | 확률 함수가 정의된 모든 곳에서 값이 일정함. | 주사위 던지기 |
푸아송 분포 | 단위시간안에 어떤 사건이 몇번 발생할 것인지를 표현한 확률분포 |
책을 10페이지 검수하였는데 오타가 20개 발견되었음. 이 책에서 한 페이지를 검사하였을때 오타가 3개 나올 확률.
|
베르누이 분포 | 오직 2가지 가능한 결과만 일어난다고 할 때, 해당 확률변수가 따르는 확률분포임. 이항분포라고 생각하면 됨. |
두개의 색이 다른 공(붉은색 공 5개, 파란색 공 4개)이 들어있는 주머니에서 공을 하나 뽑을 경우 뽑힌 공의 색을 확률변수로 하는 분포
|
기하 분포 | 베르누이 시행에서 처음 성공이 나오기 까지 시행한 횟수를 확률변수로 하는 확률분포 |
야구선수가 홈런을 칠 확률이 2할이라고 한다면 이 선수가 4번째 타석에서 홈런을 칠 확률
|
초기하 분포 | 비복원추출에서 매 실험조건이 달라지는 경우 사용하는 분포 |
남녀 직원이 100명(남성은 70, 여성은 30으로 구성)일때 비복원추출로 10명을 뽑았을 때 여성이 6명 나올 확률
|
이항 분포 | 베르누이 시행에서 발생할 확률p라고 하고 발생한 횟수를 확률변수로 하는 분포 |
농구선수의 3점슛 성공률이 70%라고 하고, 공을 10번 던질때 자유투를 두번 성공할 확률
|
다항 분포 | 이항분포와는 달리 시행결과가 3개 이상인 경우 |
주사위를 10번 던질때 1의 눈이 3번 발생, 2이상 4이하 눈이 2번 발생, 5의 눈이 2번, 6의 눈이 3번 발생할 확률
|
연속확률분포
연속확률분포는 이산확률분포처럼 무 자르듯이 딱 자를 수 없는 경우에 활용됩니다. 연속확률분포는 확률 밀도함수를 이용하여 표현하며 연속균등분포, 정규분포, 카이제곱 분포, 감마분포가 대표적입니다.
해당 분포들의 특징과 활용에 대하여 정리해봤는데 사실 이렇게만 하고 넘어가기에는 내용이 매우 방대하고 설명해야 할 개념들이 많아 추후 차근차근 풀어보도록 하겠습니다.
<표. 연속확률분포 정리>
구분 | 특징 | 활용 |
연속균등분포 | 이산균등과는 달리 범위내에서 연속적으로 균등한 확률이 나타남. | |
정규분포 | 가우시간 정규분포라고도 하며 수집된 자료의 분포를 근사하는데 사용함. 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 함. |
중심극한정리에 의해 표본의 크기가 충분히 크면 모집단에서 도출된 표본평균들의 분포는 정규분포를 따름.
|
카이제곱 분포 | k개의 독립적인 확률변수를 각각 제곱한 값의 분포 |
신뢰구간 혹은 가설검정 모델에서 활용, 카이제곱 분포는 감마분포의 특수한 형태임.
|
감마 분포 |
두개의 매개변수가 존재하며 어떤a번째 사간의 발생을 기다리는 시간에 대한 누적확률분포
|
마무리
데이터를 분석할 때 변수들이 어떤 확률분포를 따를 것인지를 확인하고 검증하는 것은 매우 중요합니다. 이것에 따라 연구결과가 달라질 수 있기 때문입니다. 학문적으로는 실제 여러 분포들이 존재하지만 실생활에서 유의미한 확률분포들은 그다지 많지 안습니다. 이들의 특징을 잘 파악하고 익혀놓으면 향후 본인이 분석을 해야 할 때 오류없이 유의미한 분석결과를 도출해낼 수 있을 것으로 생각합니다.
'생각정리' 카테고리의 다른 글
[통계학] 가설검정 (Statistical hypothesis test)및 유의수준(Level of significance)의 개념 (0) | 2022.04.15 |
---|---|
[통계학] 통계적 추론(Statistical Inference)-통계적 추정, 최대우도추정법, 신뢰구간 쉽게 이해하기 (0) | 2022.04.12 |
[통계학] 기술통계학(descriptive statistics) (0) | 2022.03.24 |
[통계학] 변수(variable)의 정의 (0) | 2022.03.23 |
[통계학] 모집단과 표본의 관계를 쉽게 이해 해봅시다. (0) | 2022.03.22 |
댓글