라일락 꽃이 피는 날

[빅분기 실기] 머신러닝 프로세스 본문

데이터 분석/빅데이터 분석 기사

[빅분기 실기] 머신러닝 프로세스

eunki 2022. 5. 22. 22:33
728x90

1. 데이터셋 분할

학습(train) / 검증(validation) / 테스트(test) 셋으로 분할

학습(70~90%) / 검증(10~20%) / 테스트(10~20%) 비율로 분할

일반화가 가능한지 검증하고 적합한 모델인지 확인

 

 

 

2. 데이터 전처리

- 목적 변수(y)는 건드리지 않고 특성치(x)는 정규화 진행

  정규화는 모든 단위를 동일하게 만드는 과정

  ① 표준화 (standardization) : 평균 0, 표준편차 1

  ② 최대-최소 (Min-Max) 정규화 : 최댓값 1, 최솟값 0

- 범주형 자료는 데이터 셋을 나누기 전에 원 핫 인코딩 진행 (one-hot encoding)

- 고차원 자료의 경우 PCA로 차원 축소

 

 

 

3. 모델 학습

  3-1. 지도 학습

    ① 분류 - 로지스틱 회귀모델

    ② 회귀 - 선형 회귀모델, 릿지, 라소, 엘라스틱넷

    ③ 분류+회귀 - 최근접 이웃법, 나이브 베이즈, 인공신경망, 서포트 벡터 머신(SVM), 의사결정나무, 랜덤 포레스트

    ④ 앙상블 - 투표기반 앙상블, 배깅, 부스팅, 스태킹

 

  3-2. 비지도 학습

    군집분석, DBSCAN, 연관규칙분석

 

 

 

4. 하이퍼 파라미터 탐색과 모델 튜닝

① 그리드 탐색 : 몇 가지 임의의 파라미터 중 가장 좋은 정확도 선정

② 랜덤 탐색 : 일정 범위 내에서 무작위로 파라미터를 뽑아 최적 결과 도출

 

 

 

5. 모델 성능 평가

① 분류 - 오차행렬 (confusion matrix)

  실제 True 실제 False
예측 True T.P F.P
예측 False F.N T.N

 

- 정확도 (accuracy) = (TP+TN) / (TP+FN+TN+FP)

- 정밀도 (precision) = TP / (TP+FP)

- 재현율 (recall) = 민감도 = TP / (TP+FN)

- 특이도 (specificity) = TN / (TN+FP)

- F1 score = (2×precision×recall) / (precision+recall)

 

 

② 회귀

- SSE (오차 제곱합)

- AE (평균 오차)

- MSE (평균 제곱 오차)

- MAE (평균 절대 오차)

- RMSE (평균 제곱근 오차)

- MAPE (평균 절대 백분율 오차)

- R^2 (설명력) : 0과 1 사이의 값으로 1에 가까울수록 실제 값과 예측 값이 일치

 

728x90