일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- Kaggle
- python3
- Numpy
- 빅데이터 분석 기사
- level 1
- Python
- oracle
- 코딩테스트
- SQL
- 오라클
- pandas
- R
- sklearn
- 알고리즘
- 데이터 분석
- 실기
- level 2
- 카카오
- 파이썬
- seaborn
- 프로그래머스
- 실습
- Oracel
- 튜닝
- 빅분기
- matplotlib
- Today
- Total
목록분류 전체보기 (324)
라일락 꽃이 피는 날
앙상블 배깅 (Boosting) 여러 개의 약한 학습기를 순차적으로 학습시켜 예측하면서 잘 못 예측한 데이터에 가중치를 부여하여 오류를 개선해 나가며 학습하는 앙상블 모델 배깅이 병렬식 앙상블인 반면, 부스팅은 순차적인 직렬식 앙상블이다. [주요 하이퍼파라미터] 1. AdaBoosting - base_estimator - n_estimator : 모델 수행횟수 2. GradientBoosting - learning_rate : 학습률 Part 1. 분류 (Classification) 1. 분석 데이터 준비 import pandas as pd # 암 예측 분류 데이터 data=pd.read_csv('breast-cancer-wisconsin.csv', encoding='utf-8') X=data[data...
앙상블 배깅 (Bagging) 학습 데이터에 대해 여러 개의 부트스트랩 (Bootstrap) 데이터를 생성하고 각 데이터에 하나 또는 여러 알고리즘을 학습시킨 후 산출된 결과 중 투표 (Voting) 방식에 의해 최종 결과를 선정하는 알고리즘 [주요 하이퍼파라미터] - n_estimators : 부트스트랩 데이터셋 수 Part 1. 분류 (Classification) 1. 분석 데이터 준비 import pandas as pd # 암 예측 분류 데이터 data=pd.read_csv('breast-cancer-wisconsin.csv', encoding='utf-8') X=data[data.columns[1:10]] y=data[["Class"]] 1-2. train-test 데이터셋 나누기 from skl..
투표기반 앙상블 (Voting Ensemble) 여러 분류기를 학습시킨 후 각각의 분류기가 예측하는 레이블 범주가 가장 많이 나오는 범주를 예측하는 방법 옵션으로 범주 기반일 경우 Hard Learner, 확률 기반일 경우 Soft Learner 를 선택한다. 범주 기반은 1, 2와 같이 결과가 범주로 많이 나타난 것을 선택하는 방법이고, 확률 기반은 예측 확률의 평균으로 0.5 이상인지 아닌지에 따라 범주를 선택하는 것이다. [주요 하이퍼파라미터] - voting : hard(범주), soft(확률) Part 1. 분류 (Classification) 1. 분석 데이터 준비 import pandas as pd # 유방암 예측 분류 데이터 data1=pd.read_csv('breast-cancer-wisc..
랜덤 포레스트 (Random Forest) 학습 데이터로 여러 의사결정나무를 구성하여 분석하고, 이를 종합하는 앙상블 기법 학습 데이터를 무작위로 샘플링해서 다수의 의사결정 트리를 분석하기 때문에 랜덤 포레스트라고 한다. ① 데이터에서 부트 스트래핑 과정을 통해 N개의 샘플링 데이터 셋 생성 ② 각 데이터 셋에서 임의의 변수를 선택 - 총 M개의 변수들 중 sqrt(M) 또는 M/3 개 ③ 의사결정트리들을 종합하여 앙상블 모델을 만들고 OOB error로 오분류율 평가 [주요 하이퍼파라미터] - n_estimators : 나무의 수 (default = 100) - max_features : 선택 변수의 수 ex) auto/sqrt, log2, none Part 1. 분류 (Classification) 1..
의사결정나무 (Decision Tree) 의사결정 규칙을 나무 구조로 도표화하여 관심 대상이 되는 집단을 몇 개의 소집단으로 분류하거나 특정 값을 예측하는 데에 활용되는 분석 방법 직관적으로 결과를 도식화하여 어떻게 분류되는지 알 수 있다. 그러나 분류되는 단계가 많을수록 이해하기 어렵고 데이터에 따라 결과가 안정적이 못하다. root node (뿌리 마디) = 레이블(y) intermediate node (중간 마디) terminal node (끝 마디) [주요 하이퍼파라미터] - max_depth : 최대 가지치기 수 - max_leaf_node : 리프 노드의 최대 개수 - min_sample_leaf : 리프 노드가 되기 위한 최소 샘플 수 Part 1. 분류 (Classification) 1. ..
서포트 벡터머신 (Support Vector Machine) 데이터 크기가 중간크기 이하로 여러 변수를 기준으로 분류하는 다소 복잡한 과제에 적합한 기법 레이블 범주를 선형/비선형적으로 분류하는 선/초평면을 찾는 것이 핵심 과제 마진 (margin) : 점들이 포함되지 않은 영역을 최대화하여 클래스를 분리할 수 있도록 하는 것 서포트 벡터 (support vector) : 결정 경계선에 가장 가까이 있는 각 클래스의 점 소프트 마진 (soft margin) : 잘못 분류된 데이터를 본래 속하는 카테고리로 비용을 들어 이동시킴 [주요 하이퍼파라미터] 1. 분류 - C : 작을수록 모델이 단순해지고, 커질수록 모델이 복잡해짐 (default = 1) - kernel : 커널 함수 ex) linear, pol..
인공신경망 인간의 뉴런구조와 활성화 작동원리를 이용하여 input(자극)과 output(반응)의 연관을 구현한 알고리즘 중간에 은닉층(hidden layers)과 노드(node)를 두어 특성치로부터 분류와 회귀를 더 잘할 수 있도록 함 [주요 하이퍼파라미터] - hidden_layer_sizes : 은닉층 개수 - activation : 활성화 함수 ex) linear, sigmoid, relu, tanh - solver : 옵티마이저 ex) sgd, adam - 노드 개수 - 학습율 (learning rate) Part 1. 분류 (Classification) 1. 분석 데이터 준비 import pandas as pd # 유방암 예측 분류 데이터 data1=pd.read_csv('breast-cance..
나이브 베이즈 (Naive Bayes) 사건 B가 주어졌을 때 사건 A가 일어날 확률인 P(A|B) 조건부 확률과 베이즈 정리를 이용한 알고리즘 나이브는 예측에 사용되는 특성치(X)가 상호 독립적이라는 가정하에 확률 계산을 단순화 즉, 모든 특성치들이 레이블을 분류/예측하는 데에 동등한 역할을 한다. 베이즈는 특성치(X)가 클래스 전체의 확률 분포에 대비하여 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산 [주요 하이퍼파라미터] 1. 분류 - var_smoothing : 안정적인 연산을 위해 분산에 더해지는 모든 특성치의 최대 분산 비율 (default = 0.000000001) 2. 회귀 - alpha_1 : 감마분포의 alpha 파라미터 사전 설정 (default = 1e-6) - lambda..