일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Numpy
- 파이썬
- 알고리즘
- 오라클
- Python
- seaborn
- 카카오
- 프로그래머스
- 코딩테스트
- 빅분기
- oracle
- 빅데이터 분석 기사
- level 2
- 머신러닝
- pandas
- sklearn
- Oracel
- level 1
- matplotlib
- 튜닝
- SQL
- Kaggle
- 실습
- 실기
- python3
- 데이터 분석
- R
- Today
- Total
목록R (26)
라일락 꽃이 피는 날
Hierarchical clustering (계층적 군집화) 가장 가까운 데이터끼리 순차적(계층적)으로 묶어 나가는 군집화 기법 Hierarchical clustering process 1. 모든 데이터들 간의 거리 행렬(유사도 행렬) 생성 - 유클리드 거리 / 맨하탄 거리 / Correlation 2. 군집을 구성할 방법 선택 - 최단거리법 (single) / 최장거리법 (complete) / 평균기준법 (average) / 중앙중심법 (median) / Ward’s method 3. 군집화 데이터 확인 df % arrange(desc('Rape')) %>% slice(-1:-2) %>% column_to_rownames('rname') boxplot(df.rm.outlier) 유사도 행렬 생성 (유클..
사진 데이터 불러오기 library(jpeg) img
Clustering (군집화) 유사한 성질을 가지는 데이터 끼리 cluster(군집)를 나누는 과정 K-means clustering (K-평균 군집화) K개의 중심을 정하고, 그 중심을 기반으로 clustering하는 기법 K-means process 1. 랜덤하게 K개의 점을 찍고 각 점을 중심으로 데이터들을 할당 2. 할당된 군집에서 다시 중심점을 찾고 해당 중심점에서 가장 가까운 데이터로 재군집화 3. 군집에 할당된 데이터들이 바뀌지 않을 때 까지 2번의 과정을 반복 K 개수를 선택하는 방법 1. 사전 정보(domain knowledge)를 바탕으로 설정 2. Within Sum of square(WSS) 그래프에서 Elbow point로 설정 3. Silhouette method : 군집 내 거..
사진 데이터 불러오기 install.packages("jpeg") library(jpeg) cat
PCA (주성분 분석) : Principal Component Analysis 데이터에서 가장 중요한 성분을 순서대로 추출하는 기법 - 분산을 가장 잘 설명해주는 축이 주성분1 (PC1) - PC1에 직교하는 축이 주성분2 (PC2) 주성분의 개수 설정 방법 1. 시각화를 위해 2~3개로 설정 2. Eigenvalue (주성분 분산) > 1 을 기준으로 설정 3. scree plot에서 elbow point로 설정 데이터 확인 head(iris) 결측치 확인 colSums(is.na(iris)) 변수별 기술통계 및 분포 summary(iris) boxplot(iris[,1:4]) pca 함수 적용 center = T, scale. = T : 평균 = 0, 분산 = 1 로 표준화 iris.pca
데이터 불러오기 rawdata
데이터 불러오기 rawdata
데이터 불러오기 rawdata