일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- level 2
- 빅데이터 분석 기사
- 데이터 분석
- Oracel
- matplotlib
- seaborn
- python3
- 카카오
- 실습
- SQL
- 알고리즘
- 코딩테스트
- Kaggle
- 프로그래머스
- Python
- 오라클
- 실기
- sklearn
- level 1
- R
- 빅분기
- Numpy
- pandas
- 머신러닝
- 튜닝
- 파이썬
- oracle
- Today
- Total
목록데이터 분석 (139)
라일락 꽃이 피는 날
1. 데이터 불러오기 raw_anova
1. 데이터 불러오기 (샘플 사이즈=30)(대표본) rawN30
1. 데이터 불러오기 (마케팅에 따른 판매액 차이) raw_d
모집단 : 관심대상 전체 집합 표본 : 모집단의 부분 집합 귀무가설 : 기존에 없던 가설로, 차이가 없거나 영향도 없다. 대립가설 : 분석가가 새롭게 제시한 가설로, 차이가 있거나 영향이 있다. p-value 귀무가설이 참이라고 했을 때, 표본데이터가 수집될 확률이다. 통상적으로 p-value < 0.05 이면 대립가설을 채택한다. 이때, 0.05를 유의 수준이라고 한다. 1. 데이터 불러오기 (샘플 사이즈=3)(소표본) rawN3
이상치 (Outlier) 정상범주에서 크게 벗어난 값을 의미한다. 이상치를 포함하면 분석 결과가 왜곡될 수 있다. 이상치의 종류로는 존재할 수 없는 값과 극단적인 값이 있다. 1. 이상치가 포함된 데이터 생성 outlier % group_by(sex) %>% summarise(mean_score = mean(score)) 1. 상자그림 생성 mpg % group_by(drv) %>% summarise(mean_hwy = mean(hwy, na.rm = T))
결측치 (Missing Value) 누락된 값 또는 비어있는 값을 의미한다. 함수 적용이 불가능하므로 분석 결과가 왜곡될 수 있다. 1. 결측치 생성 (NA) df
그래프 그리기 library(ggplot2) geom_point() 산점도 geom_col() 평균 막대 그래프 geom_bar() 빈도 막대 그래프 geom_line() 선 그래프 geom_boxplot() 상자 그림 1. 산점도(Scatter Plot) 데이터를 x축과 y축에 점으로 표현한 그래프로, 변수 간 관계를 표현할 때 사용한다. x축을 displ, y축을 hwy로 지정하여 배경 생성 ggplot(data = mpg, aes(x = displ, y = hwy)) 배경에 산점도 추가 ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() x축 범위 3~6으로 지정 ggplot(data = mpg, aes(x = displ, y = hwy)) + ..
데이터 전처리 (Preprocessing) filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 (열) bind_rows() 데이터 합치기 (행) library(dplyr) 1. filter %>% : 파이프 연산자 (pipe operator), chain operator RStudio 단축키 [Ctrl + Shift + M] 논리 연산자 산술 연산자 = 크거나 같다 / 나누기 == 같다 ^, ** 제곱 != 같지 않다 %/% 나눗셈의 몫 | 또는 %% 나눗셈의 나머지 & 그리고 %in% 매칭 확인 # 1반인 경우만 출력 exam %>% filte..