이 글은 책 데이터 분석가가 반드시 알아야 할 모든 것을 참고하여 작성하였습니다.

 

1.1 왜 통계학을 알아야 할까?

데이터 과학은 기초 통계로부터 발전해 왔으며, 그 의미를 해석함에 있어서 통계 이론에 기반해야 합니다.

데이터 분석을 통해 얻은 결과가 진정으로 의미가 있는 것인지, 혹은 잘못된 부분이 없는지 파악하고, 개선점을 찾아내는 데 통계학의 기초가 필수적입니다.

 

예를 들어, 주식 가격 예측 모델을 만들 때, 과거의 데이터를 기반으로 예측하는 것은 단순한 예측일 뿐입니다. 

여기서 중요한 점은 예측이 실제 시장에서 잘 맞는지, 즉 모델이 '과연 실용적인가'를 검증하는 것입니다.

 

데이터 과학의 프로세스

  • 탐색적 데이터 분석: 데이터의 패턴과 분포를 이해하고 해석하는 과정입니다. 
    • 모델을 설계하기 전에 데이터를 이해하고 전처리하는 데 중요한 역할을 합니다.

 

1.2 머신러닝과 전통적 통계학의 차이

  통계학 머신러닝
접근 방식 확률변수를 통해 자료생성과정(Data Generating Process: DGP)을 파악. 알고리즘 모델을 생성
기반 수학, 이론 비선형 데이터 피팅(Data fiting)
목표 가설 검정, 현상 해석 예측 정확도 향상
변수(차원) 10개 이하의 소수 변수 활용 다차원의 변수 활용
활용 과거와 현재 데이터를 활용한 현상의 해석 과거와 현재 데이터를 활용한 미래 예측
접근 방향 가설 -> 데이터 데이터 -> 가설

 

통계학은 모델의 신뢰도를 중시하며, 데이터의 복잡성보다는 단순성을 추구합니다. 

확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둡니다.

반면, 머신러닝은 데이터를 학습하고 예측하는 데 초점을 두며, 예측 모델을 구축하는 과정 자체가 중요한 목표입니다. 

 

  • 예시 1: 전통적인 통계학에서는 로지스틱 회귀를 사용해 고객이 이탈할 확률을 계산할 수 있습니다. 이때 통계학은 변수들 간의 관계를 해석하고 가설을 검증하는 데 집중합니다. 하지만 머신러닝에서는 랜덤 포레스트나 SVM 같은 모델을 사용하여 더욱 복잡한 데이터 구조를 다루며 예측 정확도를 높이는 데 초점을 맞춥니다.
  • 예시 2: 주식 시장 예측에서도 통계학은 과거 주식의 가격 변화나 경제 지표를 통해 회귀 분석을 사용하여 예측하는 방식으로 접근할 수 있습니다. 반면, 머신러닝은 딥러닝을 활용해 수많은 변수를 처리하고, 시계열 분석을 통해 복잡한 시장의 변화를 예측할 수 있습니다.

 

 

'데이터 분석 > 통계' 카테고리의 다른 글

1. 통계학 이해하기(2): 기술통계, 추론통계  (0) 2025.03.19

+ Recent posts