[데이콘 1-3] 따릉이 데이터를 활용한 데이터 분석 입문 (모델링)
·
✏️ Study/🐍 Python
앞서 전처리를 통해 데이터셋의 결측값을 없애 모델링이 가능하도록 만들었다. 이제 본격적으로 모델링을 실습해본다. 모델링은 쉽게 y = ax + b 방정식의 가장 정확한 y값을 예측해낼 수 있는 a, x, b를 찾는 과정이라 할 수 있다. 먼저 몇개의 x를 사용할지 결정해야 한다. count와 상관성이 가장 높은 아래의 3가지 변수를 x1, x2, x3로 사용할 것이다. 1) 시간2) 1시간 전 온도3) 1시간 전 풍속  그리고 변수를 지정해 준다. features = ['hour', 'hour_bef_windspeed', 'hour_bef_windspeed']x_train = train[features]y_train = train['count']x_test = test[features] 데이터의 크기를 ..
[데이콘 1-2] 따릉이 데이터를 활용한 데이터 분석 입문 (전처리)
·
✏️ Study/🐍 Python
앞서 EDA를 통해 데이터셋을 전체적으로 살펴보았다.그리고 count값에 크게 영향을 미치는 변수 2가지를 상관계수가 높은 순으로 선정했다. 1. 1시간 전 온도 (상관계수 0.62)2. 1시간 전 풍속 (상관계수 0.48) 이제 본격적인 모델링에 앞서 데이터를 정제하는 전처리를 해본다. 참고로 파이썬에서는 Null 값과 NA 값을 따로 구분하지 않고 NaN이라고 통일하여 결측값으로 표현한다. 먼저 훈련용 데이터의 결측값를 찾아본다. train.isna().sum() isna() 함수는 결측치 확인하여 결측치면 True (1), 아니면 False (0)로 나타내준다.여기에 sum을 사용해서 결측치의 갯수를 확인할 수 있다.  온도와 풍속 데이터에 각각 2개, 9개의 결측값이 있는 것을 확인할 수 있다.이..
[데이콘 1-1] 따릉이 데이터를 활용한 데이터 분석 입문 (EDA)
·
✏️ Study/🐍 Python
개인적으로 데이터 분석 프로젝트를 해보고 싶어 찾아보던 중에 데이콘이라는 사이트를 알게 되었다. https://dacon.io/ 데이터사이언티스트 AI 컴피티션3만 AI팀이 협업하는 인공지능 플랫폼dacon.io 언젠가 캐글에서 직접 프로젝트를 해보리라 생각했었는데 한국 플랫폼이 있어 쉽게 접근할 수 있을 것 같다. 대회 뿐만 아니라 기초부터 연습할 수 있는 코너도 마련되어 있어서 친숙해보이는 따릉이 관련 주제를 골랐다.  회원가입 후 연습 프로젝트에 참여했고 데이터셋을 다운받았다.  주제는 특정 기간동안의 따릉이 대여 데이터와 기상 데이터를 가지고 1시간 후의 따릉이 대여 수를 예측하는 모델을개발하는 것이다. 다행히도 입문자들을 위한 교육용 유튜브 강의가 제공된다. 1. EDA2. 전처리3. 모델링 이..