일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 코딩테스트
- 오라클
- R
- 빅분기
- Oracel
- seaborn
- level 1
- level 2
- SQL
- sklearn
- pandas
- 튜닝
- 빅데이터 분석 기사
- 파이썬
- 실기
- Python
- oracle
- 알고리즘
- 데이터 분석
- matplotlib
- 실습
- python3
- Numpy
- Kaggle
- 프로그래머스
- 머신러닝
- 카카오
- Today
- Total
목록R (26)
라일락 꽃이 피는 날
결측치 (Missing Value) 누락된 값 또는 비어있는 값을 의미한다. 함수 적용이 불가능하므로 분석 결과가 왜곡될 수 있다. 1. 결측치 생성 (NA) df
그래프 그리기 library(ggplot2) geom_point() 산점도 geom_col() 평균 막대 그래프 geom_bar() 빈도 막대 그래프 geom_line() 선 그래프 geom_boxplot() 상자 그림 1. 산점도(Scatter Plot) 데이터를 x축과 y축에 점으로 표현한 그래프로, 변수 간 관계를 표현할 때 사용한다. x축을 displ, y축을 hwy로 지정하여 배경 생성 ggplot(data = mpg, aes(x = displ, y = hwy)) 배경에 산점도 추가 ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() x축 범위 3~6으로 지정 ggplot(data = mpg, aes(x = displ, y = hwy)) + ..
데이터 전처리 (Preprocessing) filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기 (열) bind_rows() 데이터 합치기 (행) library(dplyr) 1. filter %>% : 파이프 연산자 (pipe operator), chain operator RStudio 단축키 [Ctrl + Shift + M] 논리 연산자 산술 연산자 = 크거나 같다 / 나누기 == 같다 ^, ** 제곱 != 같지 않다 %/% 나눗셈의 몫 | 또는 %% 나눗셈의 나머지 & 그리고 %in% 매칭 확인 # 1반인 경우만 출력 exam %>% filte..
1. 파생 변수 생성 df
1. 데이터 프레임 생성 df_raw
head() 데이터를 앞에서부터 6행까지 출력 tail() 데이터를 뒤에서부터 6행까지 출력 View() 뷰어 창에서 데이터 확인 dim() 데이터 차원(행과 열) 출력 str() 데이터 속성 출력 summary() 요약 통계량 출력 exam
1. 엑셀 파일 불러오기 이때, Working directory에 불러올 파일이 있어야 한다. read_excel("파일명", sheet, col_names) col_names : 첫번째 행을 변수명으로 로드할지(True), 안할지(False) install.packages("readxl") # readxl 패키지 설치 library("readxl") # readxl 패키지 로드 df_finalexam