
[데이콘 1-2] 따릉이 데이터를 활용한 데이터 분석 입문 (전처리)
·
🤓 기술 학습 & 공부 기록/Python
앞서 EDA를 통해 데이터셋을 전체적으로 살펴보았다.그리고 count값에 크게 영향을 미치는 변수 2가지를 상관계수가 높은 순으로 선정했다. 1. 1시간 전 온도 (상관계수 0.62)2. 1시간 전 풍속 (상관계수 0.48) 이제 본격적인 모델링에 앞서 데이터를 정제하는 전처리를 해본다. 참고로 파이썬에서는 Null 값과 NA 값을 따로 구분하지 않고 NaN이라고 통일하여 결측값으로 표현한다. 먼저 훈련용 데이터의 결측값를 찾아본다. train.isna().sum() isna() 함수는 결측치 확인하여 결측치면 True (1), 아니면 False (0)로 나타내준다.여기에 sum을 사용해서 결측치의 갯수를 확인할 수 있다. 온도와 풍속 데이터에 각각 2개, 9개의 결측값이 있는 것을 확인할 수 있다.이..