이 글은 책 데이터 분석가가 반드시 알아야 할 모든 것을 참고하여 작성하였습니다.
1.1 왜 통계학을 알아야 할까?
데이터 과학은 기초 통계로부터 발전해 왔으며, 그 의미를 해석함에 있어서 통계 이론에 기반해야 합니다.
데이터 분석을 통해 얻은 결과가 진정으로 의미가 있는 것인지, 혹은 잘못된 부분이 없는지 파악하고, 개선점을 찾아내는 데 통계학의 기초가 필수적입니다.
예를 들어, 주식 가격 예측 모델을 만들 때, 과거의 데이터를 기반으로 예측하는 것은 단순한 예측일 뿐입니다.
여기서 중요한 점은 예측이 실제 시장에서 잘 맞는지, 즉 모델이 '과연 실용적인가'를 검증하는 것입니다.
- 탐색적 데이터 분석: 데이터의 패턴과 분포를 이해하고 해석하는 과정입니다.
- 모델을 설계하기 전에 데이터를 이해하고 전처리하는 데 중요한 역할을 합니다.
1.2 머신러닝과 전통적 통계학의 차이
통계학 | 머신러닝 | |
접근 방식 | 확률변수를 통해 자료생성과정(Data Generating Process: DGP)을 파악. | 알고리즘 모델을 생성 |
기반 | 수학, 이론 | 비선형 데이터 피팅(Data fiting) |
목표 | 가설 검정, 현상 해석 | 예측 정확도 향상 |
변수(차원) | 10개 이하의 소수 변수 활용 | 다차원의 변수 활용 |
활용 | 과거와 현재 데이터를 활용한 현상의 해석 | 과거와 현재 데이터를 활용한 미래 예측 |
접근 방향 | 가설 -> 데이터 | 데이터 -> 가설 |
통계학은 모델의 신뢰도를 중시하며, 데이터의 복잡성보다는 단순성을 추구합니다.
확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둡니다.
반면, 머신러닝은 데이터를 학습하고 예측하는 데 초점을 두며, 예측 모델을 구축하는 과정 자체가 중요한 목표입니다.
- 예시 1: 전통적인 통계학에서는 로지스틱 회귀를 사용해 고객이 이탈할 확률을 계산할 수 있습니다. 이때 통계학은 변수들 간의 관계를 해석하고 가설을 검증하는 데 집중합니다. 하지만 머신러닝에서는 랜덤 포레스트나 SVM 같은 모델을 사용하여 더욱 복잡한 데이터 구조를 다루며 예측 정확도를 높이는 데 초점을 맞춥니다.
- 예시 2: 주식 시장 예측에서도 통계학은 과거 주식의 가격 변화나 경제 지표를 통해 회귀 분석을 사용하여 예측하는 방식으로 접근할 수 있습니다. 반면, 머신러닝은 딥러닝을 활용해 수많은 변수를 처리하고, 시계열 분석을 통해 복잡한 시장의 변화를 예측할 수 있습니다.
'데이터 분석 > 통계' 카테고리의 다른 글
1. 통계학 이해하기(2): 기술통계, 추론통계 (0) | 2025.03.19 |
---|