본문 바로가기
생각정리

[통계학] 기술통계학(descriptive statistics)

by 달빛 정원 2022. 3. 24.
반응형

기술통계(학)은 측정 혹은 실험을 통해 수집한 자료를 정리, 요약, 해석하는 것으로 자료의 특성을 나타내는 방법입니다. 

자료를 설계, 수집, 검증, 분석하는 일련의 과정이 포함되어 있으며 이를 통해 도출된 평균, 표준편차 등과 같은 집단의 특성을 파악하는데 도움을 줍니다. 통계적 추론을 위한 준비과정이라고 볼 수 있습니다.

 

기술통계 방법

기술통계는 말그대로 자료를 기술하는 것으로 관찰 및 측정된 자료의 속성을 요약합니다. 자료의 분포, 집중 등의 경향을 파악할 수 있습니다. 기술통계치는 불연속 변수일 경우 비율로 나타낼 수 있으며, 연속 변수의 경우 집중경향, 산포도, 표준점수와 같은 자료로 나타날 수 있습니다. 

 


중심경향 (central tendency)

중심경향치는 자료의 전체를 대표하는 대푯값을 의미합니다. 중심 경향을 보여주는 자료는 평균값, 중앙값, 최빈값이 있으며 이들간의 수치비교를 통해 어느정도 집단의 분포를 알 수 있습니다. 실제로 우리는 평균값, 그중에 산술평균을 주로 사용하는데 중심경향은 산술평균으로만으로는 알 수 없습니다. 평균값, 중앙값, 최빈값이 모두 같은 경우에는 분포가 아주 높은 대칭성을 보이고 정 가운데 중심경향치가 존재합니다. 그러나 세 값이 다를 경우 좌우로 치우치게 되어 약간 기울어진 분포를 보이게 됩니다. 이때 자료에 따라 평균값은 산술평균, 기하평균, 조화평균 등으로 하는 것이 필요할 때도 있습니다.

자료의 분표 유형(출처: Dugar, D. 2020. Skew and Kurtosis: 2 Important Statistics terms you need to know in Data Science.Medium. Accessed March 24, 2022. https://codeburst.io/2-important-statistics-terms-you-need-to-know-in-data-science-skewness-and-kurtosis-388fef94eeaa.)
위의 그림은 

실제 우리가 수집하는 자료는 완벽하게 세 값이 동일하게 나타나는 경우는 극히 드물기 때문에 평균, 중앙, 최빈값을 모두 비교하여 중심경항에 대한 검토를 반드시 수행해야 합니다.


 

기술통계 분석

기술통계는 평균, 표준편차와 같은 수치데이터에서 산점도, 그래프 같은 그래픽 표현까지를 의미합니다.어떤 자료가 수집되었다면, 범위(range), 편차(deviation)이 도출될 수 있습니다. 범위는 관측자료의 최대값과 최소값의 차이를 의미하며 편차는 각 개별 관측치와 평균간의 차이입니다. 편차의 합과 평균은 항상 0입니다. 평균값에서 떨어져 있는 정도가 편차라고 한다면 평균보다 높은 데이터, 평균보다 낮은 데이터가 있을 수 있습니다. 그들을 모두 더한 값은 결국 0으로 수렴할 수 밖에 없습니다. 이때 문제는 표본들에 따라 평균값이 같을지라도 데이터의 분포는 다를 수 있다는 것입니다. 그런데 편차의 합은 항상 0이니까 이것만으로는 어떤 정보를 더 얻을 수 없는 것입니다. 이때 등장하는 개념이 분산과 표준편차입니다. 분산은 편차를 제곱하여 평균을 낸 것으로 음의 값이 나올 수 없게 되어 거리의 평균치를 그대로 표현할 수 있게 해줍니다. 표준편차는 분산을 다시 제곱근(square root)한 것으로 분산이 제곱하면서 늘어난 거리를 다시 원상복귀 한다고 생각하면 됩니다. 이 표준편차를 통해 편차들의 평균적인 거리를 측정할 수 있게 되었으며 이를 통해 표본들의 평균이 같다고 할지라도 분포가 다름을 비교할 수 있게 되었습니다.

분산과 표준편차의 개념


 

빈도분석 및 산점도

빈도분석이란 표본에 포함된 개별 데이터들이 어떤 분포를 보이는지 알기 위해 수행하는 것입니다. spss와 같은 프로그램을 활용하면 빈도분석을 수행하면서 각종 통계량(평균, 표준편차, 왜도 등)을 함께 도출할 수 있습니다.

산점도는 직교좌표계에서 좌표상에 점들을 표시함으로써 두 변수간의 관계를 나타낸 그래프입니다. 즉 변수들간의 상관관계를 볼 수 있는데 점들이 어떤 선형관계를 이루게 되면 관계성이 높다고 볼 수 있으며 무작위로 퍼져있다면 상관관계는 다소 낮다고 볼 수 있습니다. 이러한 산점도는 상관분석에서 수치를 활용해 자세히 다뤄보도록 하겠습니다.

반응형

댓글