라일락 꽃이 피는 날

[Pandas] 파일 읽어오기 본문

데이터 분석/Python

[Pandas] 파일 읽어오기

eunki 2021. 4. 26. 16:16
728x90

CSV 파일

Comma Separated Value의 약어로써, 쉼표로 구분된 파일

엑셀을 로딩할 수도 있지만, 쉼표로 구분된 파일이 훨씬 가볍다.

공공데이터 포털에서도 CSV 포맷의 파일을 제공한다.

 

 

 


1. 로컬에서 파일 읽어오기

from google.colab import files
myfile = files.upload()

import pandas as pd
import io
pd.read_csv(io.BytesIO(myfile['파일명']))  # csv 파일 읽기
pd.read_excel(io.BytesIO(myfile['파일명']))  # excel 파일 읽기

 

 

2. 구글 드라이브에 있는 샘플 파일 읽어오기

from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
filename = '파일 경로'
pd.read_csv(filename)  # csv 파일 읽기
pd.read_excel(filename)  # excel 파일 읽기

# error_bad_lines="false" : 에러가 나는 줄은 무시
pd.read_csv(filename, engine="python", error_bad_lines="false")

# parse_dates : 컬럼을 시간 데이터 타입으로 변경
pd.read_csv(filename, parse_dates=['컬럼명'])

 

 

3. 파일 URL로 부터 바로 읽어오기

sep : 각 데이터 값을 구별하기 위한 구분자(separator) 설정

header : header를 무시할 경우 None 설정

index_col : index로 사용할 column 설정

usecols : 실제로 dataframe에 로딩할 columns만 설정

import pandas as pd
pd.read_csv('파일 URL')  # csv 파일 읽기
pd.read_excel('파일 URL')  # excel 파일 읽기
728x90

'데이터 분석 > Python' 카테고리의 다른 글

[Pandas] 정렬  (0) 2021.04.26
[Pandas] 기본 정보, 통계 정보  (0) 2021.04.26
[Pandas] Series, DataFrame  (0) 2021.04.26
[Numpy] matrix (행렬)  (0) 2021.04.23
[Numpy] sort, argsort  (0) 2021.04.23