일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- python3
- Numpy
- SQL
- pandas
- 머신러닝
- level 2
- 실기
- sklearn
- 데이터 분석
- Kaggle
- matplotlib
- Python
- 실습
- 파이썬
- R
- 오라클
- 빅데이터 분석 기사
- oracle
- seaborn
- 카카오
- Oracel
- level 1
- 빅분기
- 코딩테스트
- 튜닝
- 프로그래머스
- 알고리즘
- Today
- Total
목록데이터 분석/Python (72)
라일락 꽃이 피는 날
1. 기본 정보 알아보기 index(행) 출력 df.index column(열) 출력 df.columns column(열) 순서 재배치 df = df[['그룹', '이름', '성별', '소속사', '키', '생년월일', '브랜드평판지수', '혈액형']] df.columns column(열) 이름 재정의 new_col = ['name', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'] df.columns = new_col df.columns df = df.rename(columns={'이름':'name'}) df.columns shape(형태) 출력 df.shape 컬럼들의 dtypes(데이터타입) 출력 df.dtypes 기본 정보(info) 출력 기본적인 row(..
CSV 파일 Comma Separated Value의 약어로써, 쉼표로 구분된 파일 엑셀을 로딩할 수도 있지만, 쉼표로 구분된 파일이 훨씬 가볍다. 공공데이터 포털에서도 CSV 포맷의 파일을 제공한다. 1. 로컬에서 파일 읽어오기 from google.colab import files myfile = files.upload() import pandas as pd import io pd.read_csv(io.BytesIO(myfile['파일명'])) # csv 파일 읽기 pd.read_excel(io.BytesIO(myfile['파일명'])) # excel 파일 읽기 2. 구글 드라이브에 있는 샘플 파일 읽어오기 from google.colab import drive drive.mount('/content..
Pandas : 데이터 분석을 위한 패키지 import pandas as pd 1. Series 1차원으로 이루어진 데이터 배열, 1개의 column s1 = pd.Series([1, 2, 3]) s1 s2 = pd.Series(['a', 'b', 'c']) s2 s3 = pd.Series(np.arange(200)) s3 s4 = pd.Series([1, 2, 3], [100, 200, 300]) s4 2. DataFrame 2차원으로 이루어진 데이터 배열 list로 DataFrame 만들기 제목컬럼 만들기 (columns) dict로 DataFrame 만들기 index를 특정 column으로 지정하기 하나의 column 조회 column 타입 = Series
1-1. 덧셈 shape이 같아야 하고, 같은 position끼리 연산한다. a = np.array([[1, 2, 3], [2, 3, 4]]) b = np.array([[3, 4, 5], [1, 2, 3]]) a + b # array([[4, 6, 8], [3, 5, 7]]) 1-2. sum 행 sum: np.sum(arr, axis=0) 열 sum: np.sum(arr, axis=1) a = np.array([[1, 2, 3], [2, 3, 4]]) np.sum(a, axis=0) # array([3, 5, 7]) np.sum(a, axis=1) # array([6, 9]) 2. 뺄셈 shape이 같아야 하고, 같은 position끼리 연산한다. a = np.array([[1, 2, 3], [2, 3,..
1. sort (정렬) 1차원 오름차순 정렬: np.sort(arr) 1차원 내림차순 정렬: np.sort(arr)[::-1] arr = np.array([1, 10, 5, 8, 2, 4, 3, 6, 8, 7, 9]) np.sort(arr) # array([ 1, 2, 3, 4, 5, 6, 7, 8, 8, 9, 10]) np.sort(arr)[::-1] # array([10, 9, 8, 8, 7, 6, 5, 4, 3, 2, 1]) 하지만, 이렇게 정렬된 값들은 유지되지 않는다. 값을 정렬된 상태로 저장하려면 정렬된 값을 다시 배열에 저장하거나, 배열 자체에 sort를 해주면 된다. arr.sort() arr # array([ 1, 2, 3, 4, 5, 6, 7, 8, 8, 9, 10]) 2차원 열 정렬:..
arange (~이상~미만) 순서대로 리스트에 값을 생성하는 방법이다. 첫 번째 인자에는 start 값, 두 번째 인자에는 stop 값이 들어간다. keyword 인자는 파라미터의 keyword를 지정해줌으로써 순서 없이 지정해 줄 수 있다. arr = np.arange(10) arr # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) arr = np.arange(1, 11) arr = np.arange(start=1, stop=11) arr # array([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) 추가로 세 번째 인자에는 step 값을 넣어줄 수 있다. arr = np.arange(1, 11, 2) arr = np.arange(start=1, stop=11, ste..
1. index 지정 색인 arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) arr[0] # 0 arr[5] # 5 arr[-1] # 9 arr[-10] # 0 arr2d = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]) arr2d[0, 2] # 3 arr2d[2, 1] # 10 2. 범위 색인 (~이상~미만) arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) arr[1:] # array([1, 2, 3, 4, 5, 6, 7, 8, 9]) → index 1이상 arr[:5] # array([0, 1, 2, 3, 4]) → index 5미만 arr[1:5] # array([1, 2, 3..
Numpy : 수학, 과학 계산을 위한 패키지 (Numerical Python) import numpy as np ndarray : n차원 배열 (n dimension array) 1D array : 1차원 배열 numpy.array([1, 2, 3, 4]) shape: (4,) ⇒ 4×1의 배열 2D array : 2차원 배열 numpy.array([1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]) shape: (3, 4) ⇒ 3×4의 배열 3D array : 3차원 배열 shape: (2, 5, 3) ⇒ 2×5×3의 배열 1. ndarray 생성 arr = np.array([1, 2, 3, 4], dtype=int) arr # array([1, 2, 3, 4]) type(..