일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- seaborn
- 프로그래머스
- SQL
- 데이터 분석
- Oracel
- pandas
- matplotlib
- 코딩테스트
- oracle
- 카카오
- 실기
- python3
- Kaggle
- R
- 빅분기
- level 2
- sklearn
- 오라클
- 머신러닝
- 빅데이터 분석 기사
- Numpy
- 파이썬
- Python
- 실습
- level 1
- 알고리즘
- 튜닝
- Today
- Total
라일락 꽃이 피는 날
[빅분기 실기] 머신러닝 프로세스 본문
1. 데이터셋 분할
학습(train) / 검증(validation) / 테스트(test) 셋으로 분할
학습(70~90%) / 검증(10~20%) / 테스트(10~20%) 비율로 분할
일반화가 가능한지 검증하고 적합한 모델인지 확인
2. 데이터 전처리
- 목적 변수(y)는 건드리지 않고 특성치(x)는 정규화 진행
정규화는 모든 단위를 동일하게 만드는 과정
① 표준화 (standardization) : 평균 0, 표준편차 1
② 최대-최소 (Min-Max) 정규화 : 최댓값 1, 최솟값 0
- 범주형 자료는 데이터 셋을 나누기 전에 원 핫 인코딩 진행 (one-hot encoding)
- 고차원 자료의 경우 PCA로 차원 축소
3. 모델 학습
3-1. 지도 학습
① 분류 - 로지스틱 회귀모델
② 회귀 - 선형 회귀모델, 릿지, 라소, 엘라스틱넷
③ 분류+회귀 - 최근접 이웃법, 나이브 베이즈, 인공신경망, 서포트 벡터 머신(SVM), 의사결정나무, 랜덤 포레스트
④ 앙상블 - 투표기반 앙상블, 배깅, 부스팅, 스태킹
3-2. 비지도 학습
군집분석, DBSCAN, 연관규칙분석
4. 하이퍼 파라미터 탐색과 모델 튜닝
① 그리드 탐색 : 몇 가지 임의의 파라미터 중 가장 좋은 정확도 선정
② 랜덤 탐색 : 일정 범위 내에서 무작위로 파라미터를 뽑아 최적 결과 도출
5. 모델 성능 평가
① 분류 - 오차행렬 (confusion matrix)
실제 True | 실제 False | |
예측 True | T.P | F.P |
예측 False | F.N | T.N |
- 정확도 (accuracy) = (TP+TN) / (TP+FN+TN+FP)
- 정밀도 (precision) = TP / (TP+FP)
- 재현율 (recall) = 민감도 = TP / (TP+FN)
- 특이도 (specificity) = TN / (TN+FP)
- F1 score = (2×precision×recall) / (precision+recall)
② 회귀
- SSE (오차 제곱합)
- AE (평균 오차)
- MSE (평균 제곱 오차)
- MAE (평균 절대 오차)
- RMSE (평균 제곱근 오차)
- MAPE (평균 절대 백분율 오차)
- R^2 (설명력) : 0과 1 사이의 값으로 1에 가까울수록 실제 값과 예측 값이 일치
'데이터 분석 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅분기 실기] 로지스틱 회귀 모델 (0) | 2022.06.16 |
---|---|
[빅분기 실기] 머신러닝 - 회귀문제 (0) | 2022.05.24 |
[빅분기 실기] 머신러닝 - 분류문제 (0) | 2022.05.22 |
[빅분기 실기] 데이터 정제 - 이상치, 결측치 처리 (0) | 2022.05.22 |
[빅분기 실기] 데이터 탐색 (0) | 2022.05.22 |