데이터 분석/Python

[Sklearn] Training Set, Test Set

eunki 2021. 5. 11. 17:00
728x90

scikit-learn

https://scikit-learn.org/stable/

 

scikit-learn: machine learning in Python — scikit-learn 0.24.2 documentation

Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, metrics, and more...

scikit-learn.org

 

 

from sklearn.linear_model import LinearRegression

모델 선언: model = LinearRegression()

학습: model.fit(x, y)

예측: prediction = model.predict(x2)

 

 

 

x

features 라고 불린다.

x_train, x_test

학습을 위한 데이터 세트이므로 예측할 값은 빠져있다.

예) 지역, 평형 정보, 층수 정보, 동네, 거주민 평균 나이 등

 

 

y

labels 라고 불린다.

y_train, y_test

예측해야 할 값이므로 예측값만 존재한다.

예) 집값

 

 

 

학습을 위한 데이터 (Training Set)

Training Set 80% + Validation Set 20%

모델이 학습하기 위해 필요한 데이터 + 검증을 위한 데이터

학습할 때 검증을 위한 데이터가 관여되면 안 된다.

feature/label 모두 존재 (x_train, y_train)

 

 

예측을 위한 데이터 (Test Set)

모델이 예측하기 위한 데이터

feature만 존재 (x_test)

 

 

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x_train, y_train)
prediction = model.predict(x_test)
728x90