일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 튜닝
- sklearn
- pandas
- R
- 코딩테스트
- Python
- 머신러닝
- level 1
- 파이썬
- SQL
- 빅데이터 분석 기사
- 실기
- 알고리즘
- Kaggle
- 카카오
- python3
- oracle
- matplotlib
- 실습
- Numpy
- seaborn
- 데이터 분석
- 빅분기
- level 2
- 프로그래머스
- Oracel
- 오라클
- Today
- Total
목록pandas (22)
라일락 꽃이 피는 날
결측값 (NaN) Null 값은 비어있는 값을 말한다. pandas에서는 NaN(Not a Number) 으로 표기한다. 결측 값 다루기 True가 return 되는 값이 결측값(NaN) 이다. 결측값이 하나라도 있는 row에 대하여 Boolean 인덱싱 NaN 값에 대하여 Boolean 인덱싱 NaN 값만 색출해내기 NaN이 아닌 값에 대하여 Boolean 인덱싱 NaN이 아닌 값만 색출해내기
1. 컬럼 선택 (Column Selection) ① 하나의 컬럼 선택 : df['컬럼명'] ② 복수의 컬럼 선택 : df[['컬럼명1', '컬럼명2', '컬럼명3']] 2. 범위 선택 (Range Selection) ① index에 대한 범위 선택 ② loc ★★★ (~이상 ~이하) ③ iloc (position으로 색인) (~이상 ~미만) 3. 조건을 활용한 색인 (Boolean Indexing) Numpy의 Boolean 인덱싱과 같은 원리 4. isin을 활용한 색인 내가 조건을 걸고자 하는 값이 내가 정의한 list에 있을 때만 색인하려는 경우에 사용
1. 오름차순 index 정렬 2. 내림차순 index 정렬 3. column별 오름차순 정렬 4. column별 내림차순 정렬 5. column별 오름차순 복수정렬 6. column별 내림차순 복수정렬
1. 기본 정보 알아보기 index(행) 출력 df.index column(열) 출력 df.columns column(열) 순서 재배치 df = df[['그룹', '이름', '성별', '소속사', '키', '생년월일', '브랜드평판지수', '혈액형']] df.columns column(열) 이름 재정의 new_col = ['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'] df.columns = new_col df.columns df = df.rename(columns={'이름':'name'}) df.columns shape(형태) 출력 df.shape 컬럼들의 dtypes(데이터타입) 출력 df.dtypes 기본 정보(info) 출력 기본적인 row(..
CSV 파일 Comma Separated Value의 약어로써, 쉼표로 구분된 파일 엑셀을 로딩할 수도 있지만, 쉼표로 구분된 파일이 훨씬 가볍다. 공공데이터 포털에서도 CSV 포맷의 파일을 제공한다. 1. 로컬에서 파일 읽어오기 from google.colab import files myfile = files.upload() import pandas as pd import io pd.read_csv(io.BytesIO(myfile['파일명'])) # csv 파일 읽기 pd.read_excel(io.BytesIO(myfile['파일명'])) # excel 파일 읽기 2. 구글 드라이브에 있는 샘플 파일 읽어오기 from google.colab import drive drive.mount('/content..
Pandas : 데이터 분석을 위한 패키지 import pandas as pd 1. Series 1차원으로 이루어진 데이터 배열, 1개의 column s1 = pd.Series([1, 2, 3]) s1 s2 = pd.Series(['a', 'b', 'c']) s2 s3 = pd.Series(np.arange(200)) s3 s4 = pd.Series([1, 2, 3], [100, 200, 300]) s4 2. DataFrame 2차원으로 이루어진 데이터 배열 list로 DataFrame 만들기 제목컬럼 만들기 (columns) dict로 DataFrame 만들기 index를 특정 column으로 지정하기 하나의 column 조회 column 타입 = Series