이 글은 책 데이터 분석가가 반드시 알아야 할 모든 것을 참고하여 작성하였습니다.

 

1. 기술통계

기술통계는 주어진 데이터를 사실에 근거하여 설명하고 묘사하는 기법입니다. 이 과정에서는 데이터를 쉽고 직관적으로 이해할 수 있는 대푯값을 계산하는 것이 핵심입니다.

 

  • 예시: 예를 들어, 한 반의 수학 시험 점수를 가지고 평균, 최댓값, 최솟값 등을 계산한다고 가정해 봅시다. 평균 점수는 해당 반의 일반적인 성취도를 나타내고, 최댓값과 최솟값은 학생들의 점수 범위를 확인할 수 있게 해줍니다. 이렇게 계산된 대푯값들은 데이터를 직관적으로 이해하는 데 큰 도움이 됩니다.

기술통계는 탐색적 데이터 분석(EDA)의 중요한 부분으로, 데이터를 분석하고 해석하는 첫걸음입니다.

여기서 사용되는 주요 통계 지표로는 평균, 최댓값, 최솟값, 왜도, 첨도, 분산, 표준편차, 범위, 사분위수 등이 있습니다.

 

이러한 지표들을 시각화하면 데이터를 훨씬 더 잘 이해할 수 있습니다. 예를 들어:

  • 범주형 자료원그래프막대그래프, 꺾은선 그래프.
  • 연속형 자료박스 플롯(Boxplot), 히스토그램, 밀도 플롯(Density Plot), 바이올린 플롯(Violin Plot)

이러한 시각화 자료들은 연구 논문에서도 Table 1이나 Figure 1으로 자주 사용되며, 데이터를 더욱 명확하게 표현하는 데 유용합니다.

 

2. 추론 통계

추론 통계의 목적은 표본 집단을 통해 모집단의 특성을 추론하는 것입니다.

  • 모집단은 연구자가 관심 있는 대상 전체 집합을 의미합니다. 예를 들어, 전국의 고등학생을 대상으로 한 연구라면, 이들이 바로 모집단이 됩니다.
  • 표본은 모집단에서 일부를 추출한 부분집합입니다. 예를 들어, 서울 지역 고등학생만을 추출하여 연구를 진행할 수도 있습니다.
  • 예시: 연구자가 서울의 10개 고등학교에서 50명의 학생을 선정하여 설문조사를 실시했다고 가정해 보겠습니다. 이 50명의 학생들이 표본이 되며, 이 데이터를 바탕으로 전국 고등학생의 학습 태도나 성적 분포를 추론하는 것이 바로 추론 통계의 목적입니다.

추론 통계는 모집단의 특성을 추정하고, 이를 바탕으로 가설을 검정하거나 모집단에 대한 예측을 수행합니다. 이를 통해 우리가 전체 집단에 대해 알지 못하는 정보를 표본 데이터를 통해 추론할 수 있게 됩니다.

 

기술 통계와 추론 통계 개념 예시

 

'데이터 분석 > 통계' 카테고리의 다른 글

1. 통계학 이해하기  (1) 2025.03.19

이 글은 책 데이터 분석가가 반드시 알아야 할 모든 것을 참고하여 작성하였습니다.

 

1.1 왜 통계학을 알아야 할까?

데이터 과학은 기초 통계로부터 발전해 왔으며, 그 의미를 해석함에 있어서 통계 이론에 기반해야 합니다.

데이터 분석을 통해 얻은 결과가 진정으로 의미가 있는 것인지, 혹은 잘못된 부분이 없는지 파악하고, 개선점을 찾아내는 데 통계학의 기초가 필수적입니다.

 

예를 들어, 주식 가격 예측 모델을 만들 때, 과거의 데이터를 기반으로 예측하는 것은 단순한 예측일 뿐입니다. 

여기서 중요한 점은 예측이 실제 시장에서 잘 맞는지, 즉 모델이 '과연 실용적인가'를 검증하는 것입니다.

 

데이터 과학의 프로세스

  • 탐색적 데이터 분석: 데이터의 패턴과 분포를 이해하고 해석하는 과정입니다. 
    • 모델을 설계하기 전에 데이터를 이해하고 전처리하는 데 중요한 역할을 합니다.

 

1.2 머신러닝과 전통적 통계학의 차이

  통계학 머신러닝
접근 방식 확률변수를 통해 자료생성과정(Data Generating Process: DGP)을 파악. 알고리즘 모델을 생성
기반 수학, 이론 비선형 데이터 피팅(Data fiting)
목표 가설 검정, 현상 해석 예측 정확도 향상
변수(차원) 10개 이하의 소수 변수 활용 다차원의 변수 활용
활용 과거와 현재 데이터를 활용한 현상의 해석 과거와 현재 데이터를 활용한 미래 예측
접근 방향 가설 -> 데이터 데이터 -> 가설

 

통계학은 모델의 신뢰도를 중시하며, 데이터의 복잡성보다는 단순성을 추구합니다. 

확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둡니다.

반면, 머신러닝은 데이터를 학습하고 예측하는 데 초점을 두며, 예측 모델을 구축하는 과정 자체가 중요한 목표입니다. 

 

  • 예시 1: 전통적인 통계학에서는 로지스틱 회귀를 사용해 고객이 이탈할 확률을 계산할 수 있습니다. 이때 통계학은 변수들 간의 관계를 해석하고 가설을 검증하는 데 집중합니다. 하지만 머신러닝에서는 랜덤 포레스트나 SVM 같은 모델을 사용하여 더욱 복잡한 데이터 구조를 다루며 예측 정확도를 높이는 데 초점을 맞춥니다.
  • 예시 2: 주식 시장 예측에서도 통계학은 과거 주식의 가격 변화나 경제 지표를 통해 회귀 분석을 사용하여 예측하는 방식으로 접근할 수 있습니다. 반면, 머신러닝은 딥러닝을 활용해 수많은 변수를 처리하고, 시계열 분석을 통해 복잡한 시장의 변화를 예측할 수 있습니다.

 

 

'데이터 분석 > 통계' 카테고리의 다른 글

1. 통계학 이해하기(2): 기술통계, 추론통계  (0) 2025.03.19

+ Recent posts