일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Oracel
- python3
- 프로그래머스
- 데이터 분석
- 코딩테스트
- 빅데이터 분석 기사
- 실기
- sklearn
- 오라클
- 튜닝
- seaborn
- oracle
- R
- matplotlib
- level 2
- 알고리즘
- 빅분기
- 파이썬
- pandas
- Python
- 머신러닝
- Numpy
- 카카오
- Kaggle
- level 1
- 실습
- SQL
- Today
- Total
목록데이터 분석/Python (72)
라일락 꽃이 피는 날
GroupBy (그룹으로 묶어 보기) groupby는 데이터를 그룹으로 묶어 분석할 때 활용한다. 소속사별 키의 평균, 그룹별 키의 평균 등 특정 그룹별 통계 및 데이터의 성질을 확인할 때 유용하다. 산술통계는 자동으로 산술통계가 가능한 열만 출력한다. df.groupby('컬럼명') df.groupby(['컬럼명1', '컬럼명2']) 1. count (개수) 2. sum (합계) 3. mean (평균) 4. aggregate (집계) 이외에도 var(분산), std(표준 편차), min(최솟값), max(최댓값) 을 출력할 수 있다. index를 이용한 GroupBy index가 있는 경우, groupby 함수에 level을 사용할 수 있다. level은 index의 depth를 의미하며 가장 왼쪽에서..
피벗 테이블 (pivot_table) 피벗 테이블은 엑셀의 피벗 테이블과 동일하다. 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 의미한다. 왼쪽에 나타나는 인덱스를 행 인덱스, 상단에 나타나는 인덱스를 열 인덱스라고 부른다. index: 행 인덱스 columns: 열 인덱스 values: 조회하고 싶은 값 중복되는 모호한 값이 있을 경우, aggregation 함수를 사용하여 값을 채운다. aggfunc=np.mean : 조회하는 값을 평균 값으로 계산 (기본) aggfunc=np.sum : 조회하는 값을 총 합계로 계산
통계값 보기 (describe) 통계값은 data type이 float이나 int형인 column만을 다룬다. 1. min(최솟값), max(최댓값) df['키'].min() # 157.0 df['키'].max() # 181.5 2. sum(합계), mean(평균) df['키'].sum() # 2557.3 df['키'].mean() # 170.48666666666668 3. var, variance(분산) / std, standard deviation (표준 편차) 분산과 표준 편차는 데이터가 평균으로부터 얼마나 떨어져 있는지 정도를 나타낸다. data_01 = np.array([1, 3, 5, 7, 9]) data_02 = np.array([3, 4, 5, 6, 7]) data_01.var(), dat..
1. row 추가 dictionary 형태의 데이터를 만들어 준 다음 append() 함수를 사용하여 row를 추가한다. 이 때, ignore_index=True 옵션을 같이 추가해 주어야 에러가 안 난다. append() 함수로 추가한 데이터를 다시 dataframe에 대입해줘야 변경한 값이 유지된다. 2. column 추가 ① [] 사용하여 추가하기 단순히 새로운 column을 만들고 값을 대입해주면 자동으로 생성된다. 전부 동일한 값이 추가되면서 column도 추가된다. ② insert 함수를 사용하여 원하는 위치에 추가하기 3. row 제거 drop()을 활용하여 row를 제거할 수 있다. row를 제거할 때는 제거하고자하는 index와 axis=0 옵션을 준다. inplace=True 옵션을 통..
df를 새로운 변수(new_df)에 대입하고, '이름' 컬럼의 값을 0으로 변경한다. df를 다시 조회하면, 원래의 df 값도 같이 변경된 것을 볼 수 있다. 이렇게 되는 이유는 df와 new_df가 같은 메모리 주소를 참조하기 때문이다. 원본 데이터를 유지시키고, 새로운 변수에 df를 복사할 때는 copy() 함수를 사용한다. df를 다시 조회하면, 이번에는 값이 변경되지 않은 것을 볼 수 있다. df와 copy() 를 통해 복사한 copy_df의 메모리 주소는 다르다는 것을 알 수 있다.
결측값 (NaN) Null 값은 비어있는 값을 말한다. pandas에서는 NaN(Not a Number) 으로 표기한다. 결측 값 다루기 True가 return 되는 값이 결측값(NaN) 이다. 결측값이 하나라도 있는 row에 대하여 Boolean 인덱싱 NaN 값에 대하여 Boolean 인덱싱 NaN 값만 색출해내기 NaN이 아닌 값에 대하여 Boolean 인덱싱 NaN이 아닌 값만 색출해내기
1. 컬럼 선택 (Column Selection) ① 하나의 컬럼 선택 : df['컬럼명'] ② 복수의 컬럼 선택 : df[['컬럼명1', '컬럼명2', '컬럼명3']] 2. 범위 선택 (Range Selection) ① index에 대한 범위 선택 ② loc ★★★ (~이상 ~이하) ③ iloc (position으로 색인) (~이상 ~미만) 3. 조건을 활용한 색인 (Boolean Indexing) Numpy의 Boolean 인덱싱과 같은 원리 4. isin을 활용한 색인 내가 조건을 걸고자 하는 값이 내가 정의한 list에 있을 때만 색인하려는 경우에 사용