[데이콘 1-3] 따릉이 데이터를 활용한 데이터 분석 입문 (모델링)
·
✏️ Study/🐍 Python
앞서 전처리를 통해 데이터셋의 결측값을 없애 모델링이 가능하도록 만들었다. 이제 본격적으로 모델링을 실습해본다. 모델링은 쉽게 y = ax + b 방정식의 가장 정확한 y값을 예측해낼 수 있는 a, x, b를 찾는 과정이라 할 수 있다. 먼저 몇개의 x를 사용할지 결정해야 한다. count와 상관성이 가장 높은 아래의 3가지 변수를 x1, x2, x3로 사용할 것이다. 1) 시간2) 1시간 전 온도3) 1시간 전 풍속 그리고 변수를 지정해 준다. features = ['hour', 'hour_bef_windspeed', 'hour_bef_windspeed']x_train = train[features]y_train = train['count']x_test = test[features] 데이터의 크기를 ..