이 글은 책 데이터 분석가가 반드시 알아야 할 모든 것을 참고하여 작성하였습니다.
1. 기술통계
기술통계는 주어진 데이터를 사실에 근거하여 설명하고 묘사하는 기법입니다. 이 과정에서는 데이터를 쉽고 직관적으로 이해할 수 있는 대푯값을 계산하는 것이 핵심입니다.
- 예시: 예를 들어, 한 반의 수학 시험 점수를 가지고 평균, 최댓값, 최솟값 등을 계산한다고 가정해 봅시다. 평균 점수는 해당 반의 일반적인 성취도를 나타내고, 최댓값과 최솟값은 학생들의 점수 범위를 확인할 수 있게 해줍니다. 이렇게 계산된 대푯값들은 데이터를 직관적으로 이해하는 데 큰 도움이 됩니다.
기술통계는 탐색적 데이터 분석(EDA)의 중요한 부분으로, 데이터를 분석하고 해석하는 첫걸음입니다.
여기서 사용되는 주요 통계 지표로는 평균, 최댓값, 최솟값, 왜도, 첨도, 분산, 표준편차, 범위, 사분위수 등이 있습니다.
이러한 지표들을 시각화하면 데이터를 훨씬 더 잘 이해할 수 있습니다. 예를 들어:
- 범주형 자료는 원그래프나 막대그래프, 꺾은선 그래프.
- 연속형 자료는 박스 플롯(Boxplot), 히스토그램, 밀도 플롯(Density Plot), 바이올린 플롯(Violin Plot)
이러한 시각화 자료들은 연구 논문에서도 Table 1이나 Figure 1으로 자주 사용되며, 데이터를 더욱 명확하게 표현하는 데 유용합니다.
2. 추론 통계
추론 통계의 목적은 표본 집단을 통해 모집단의 특성을 추론하는 것입니다.
- 모집단은 연구자가 관심 있는 대상 전체 집합을 의미합니다. 예를 들어, 전국의 고등학생을 대상으로 한 연구라면, 이들이 바로 모집단이 됩니다.
- 표본은 모집단에서 일부를 추출한 부분집합입니다. 예를 들어, 서울 지역 고등학생만을 추출하여 연구를 진행할 수도 있습니다.
- 예시: 연구자가 서울의 10개 고등학교에서 50명의 학생을 선정하여 설문조사를 실시했다고 가정해 보겠습니다. 이 50명의 학생들이 표본이 되며, 이 데이터를 바탕으로 전국 고등학생의 학습 태도나 성적 분포를 추론하는 것이 바로 추론 통계의 목적입니다.
추론 통계는 모집단의 특성을 추정하고, 이를 바탕으로 가설을 검정하거나 모집단에 대한 예측을 수행합니다. 이를 통해 우리가 전체 집단에 대해 알지 못하는 정보를 표본 데이터를 통해 추론할 수 있게 됩니다.
'데이터 분석 > 통계' 카테고리의 다른 글
1. 통계학 이해하기 (1) | 2025.03.19 |
---|