일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 튜닝
- Kaggle
- 데이터 분석
- 실기
- sklearn
- 빅분기
- 오라클
- Numpy
- 프로그래머스
- 카카오
- 알고리즘
- matplotlib
- oracle
- python3
- seaborn
- Oracel
- Python
- 파이썬
- level 1
- 빅데이터 분석 기사
- 머신러닝
- pandas
- level 2
- 코딩테스트
- R
- SQL
- 실습
- Today
- Total
목록빅분기 (23)
라일락 꽃이 피는 날

연관규칙분석 (Association Rule, Apriori Algorithm) 대용량의 트랜잭션 데이터로부터 'X이면 Y이다' 라는 형식의 연관관계를 발견하는 기법이다. 어떤 두 아이템 집합이 빈번히 발생하는가를 알려주는 일련의 규칙들을 생성하는 알고리즘이다. 흔히 장바구니 분석(Market Basket Analysis) 이라고도 한다. 연관규칙을 수행하기 위해서는 거래 데이터의 형식으로 되어 있어야 한다. 지지도 (Support) : 전체 거래 건수 중에서 항목집합 X와 Y를 모두 포함하는 거래 건수의 비율 X와 Y를 모두 포함하는 거래 수 / 전체 거래 수 = n(X∩Y) / N 신뢰도 (Confidence) : 항목집합 X를 포함하는 거래 중에서 항목집합 Y도 포함하는 거래 비율 X와 Y를 모두 ..

DBSCAN 밀도기반 클러스터링 기법 케이스가 집중되어 있는 밀도에 초점을 두어 밀도가 높은 그룹을 클러스터링 하는 방식이다. 중심점을 기준으로 특정한 반경 이내에 케이스가 n개 이상 있을 경우 하나의 군집을 형성한다. 이상값을 탐지하는 데에 많이 사용된다. [주요 하이퍼파라미터] - eps (ε, epsilon) : 근접 이웃점을 찾기 위해 정의 내려야 하는 반경 거리 - min_samples (minimum amount of points) : 하나의 군집을 형성하기 위해 필요한 최소 케이스 수 [데이터의 케이스(포인트)] - Core point : ε 반경 내에 최소점(minPts) 이상을 갖는 점 - Border point : Core point 의 ε 반경 내에 있으나, 그 자체로는 최소점(min..

군집 분석 (Cluster Analysis) 개체들의 특성을 대표하는 몇 개의 변수들을 기준으로 몇 개의 군집으로 세분화하는 방법 개체들을 다양한 변수를 기준으로 다차원 공간에서 유사한 특성을 가진 개체로 묶는다. 개체들 간의 유사성은 개체 간의 거리를 사용하고, 거리가 상대적으로 가까운 개체들을 동일 군집으로 묶는다. 개체 간의 거리를 행렬을 이용하여 계산한다. 대표적으로 유클리디안 거리를 계산한다. [주요 하이퍼파라미터] - n_cluster : 군집의 수 1. 군집분석 (Clustering) import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib.cm from sklearn.cluster impo..
엘라스틱넷 (Elasticnet) 릿지회귀와 라쏘회귀의 절충한 모델로, 맂시와 라쏘의 규제항을 단순히 더해서 사용한다. 두 규제항의 혼합정도를 혼합비율 r을 사용해 조절하게 된다. 만약 r=0 이면 릿지회귀와 같고, r=1 이면 라쏘회귀와 같게 된다. [주요 하이퍼파라미터] - alpha : 값이 클수록 계수를 0에 가깝게 제약하여 훈련 데이터의 정확도는 낮아지지만 일반화에 기여한다. (default = 1) 값이 0에 가까울수록 회귀계수를 아무런 제약을 하지 않은 선형회귀와 유사하게 적용한다. - l1_ratio : 릿지와 라쏘의 규제 비율에 대한 가중 정도 1. 분석 데이터 준비 # 주택 가격 데이터 data2=pd.read_csv('house_price.csv', encoding='utf-8') X..
728x90 라쏘 (Lasso) 릿지 회귀모델과 유사하게 특성의 계수값을 0에 가깝게 하지만 실제 중요하지 않은 변수의 계수를 0으로 만들어 불필요한 변수를 제거하는 모델 [주요 하이퍼파라미터] - alpha : 값이 클수록 계수를 0에 가깝게 제약하여 훈련 데이터의 정확도는 낮아지지만 일반화에 기여한다. (default = 1) 값이 0에 가까울수록 회귀계수를 아무런 제약을 하지 않은 선형회귀와 유사하게 적용한다. 1. 분석 데이터 준비 # 주택 가격 데이터 data2=pd.read_csv('house_price.csv', encoding='utf-8') X=data2[data2.columns[1:5]] y=data2[["house_value"]] 1-2. train-test 데이터셋 나누기 from ..
릿지 (Ridge) 선형회귀분석의 기본 원리를 따르나, 가중치(회귀계수) 값을 최대한 작게 만들어 모든 독립변수가 종속변수에 미치는 영향을 최소화하는 제약을 반영한 회귀모델 각 특성의 영향을 최소화하여 훈련 데이터에 과대적합되지 않도록 제약한 모델이다.미 선형 관계뿐만 아니라 다항 곡선 추정도 가능하다. [주요 하이퍼파라미터] - alpha : 값이 클수록 규제가 강하여 회귀 계수가 0에 근접하다. (default = 1) 값이 0에 가까울수록 규제를 하지 않아 선형 회귀와 유사한 결과를 보인다. 1. 분석 데이터 준비 # 주택 가격 데이터 data2=pd.read_csv('house_price.csv', encoding='utf-8') X=data2[data2.columns[1:5]] y=data2[[..
선형회귀모델 (Linear Regression Model) 연속형 원인 변수가 연속형 결과 변수에 영향을 미치는지를 분석하여 레이블 변수를 예측 가장 대표적인 오차 지표인 RMSE는 실제값과 예측값 간에 전 구간에 걸친 평균적인 오차 1. 분석 데이터 준비 # 주택 가격 데이터 data2=pd.read_csv('house_price.csv', encoding='utf-8') X=data2[data2.columns[1:5]] y=data2[["house_value"]] 1-2. train-test 데이터셋 나누기 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test=train_test_split(X, y, ..
앙상블 스태킹 (Stacking) 데이터셋이 아니라 여러 학습기에서 예측한 예측값으로 다시 학습 데이터를 만들어 일반화된 최종 모델을 구성하는 방법 [주요 하이퍼파라미터] - estimators Part 1. 분류 (Classification) 1. 분석 데이터 준비 import pandas as pd # 유방암 예측 분류 데이터 data1=pd.read_csv('breast-cancer-wisconsin.csv', encoding='utf-8') X=data1[data1.columns[1:10]] y=data1[["Class"]] 1-2. train-test 데이터셋 나누기 from sklearn.model_selection import train_test_split X_train, X_test, y_..