[선형회귀] 고객별 연간 지출액 예측하기 - 3
·
🤓 기술 학습 & 공부 기록/Python
▶ 이전글2021.09.28 - [데이터 분석/Ecommerce] - [선형회귀] 고객별 연간 지출액 예측하기 - 2 [선형회귀] 고객별 연간 지출액 예측하기 - 2▶ 이전글 2021.09.28 - [데이터 분석/Ecommerce] - [선형회귀] 고객별 연간 지출액 예측하기 - 1 [선형회귀] 고객별 연간 지출액 예측하기 - 1 ▶ 강의명 ▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데ggarden.tistory.com ▶ 강의명▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데이터 분석 ▶ 주제▷ ch2. 고객별 연간 지출액 예측 (Linear Regression) -- 강의 내용 -- 09-1. 파이썬 Tip ①. Numpy와 Pandas numpy array는 일반 리스트와 약간 다르다 a = [1,..
[선형회귀] 고객별 연간 지출액 예측하기 - 2
·
🤓 기술 학습 & 공부 기록/Python
▶ 이전글2021.09.28 - [데이터 분석/Ecommerce] - [선형회귀] 고객별 연간 지출액 예측하기 - 1 [선형회귀] 고객별 연간 지출액 예측하기 - 1▶ 강의명 ▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데이터 분석 ▶ 주제 ▷ ch2. 고객별 연간 지출액 예측 (Linear Regression) -- 강의 내용 -- 01. 분석의 목적 선형회귀분석을 통해 고객체류ggarden.tistory.com ▶ 강의명▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데이터 분석 ▶ 주제▷ ch2. 고객별 연간 지출액 예측 (Linear Regression) -- 강의 내용 -- 06. 선형 회귀 모델 만들기 선형 회귀모델을 만들기 위해 모듈을 불러온다 import statsmodels.api as sm..
[선형회귀] 고객별 연간 지출액 예측하기 - 1
·
🤓 기술 학습 & 공부 기록/Python
▶ 강의명▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데이터 분석 ▶ 주제▷ ch2. 고객별 연간 지출액 예측 (Linear Regression) -- 강의 내용 -- 01. 분석의 목적 선형회귀분석을 통해 고객체류시간 등과 같은 독립변수로 고객별 연간 지출액을 예측하는 모델을 개발한다. 02. 모듈 및 데이터 로딩 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns >> 선형회귀, 그래프에 라인 그리기, 로데이터 읽어오기 등을 위한 모듈을 불러온다.pd, np 등과 같은 약어는 일반적으로 자주 쓰는 약어이기 때문에 잘 알아두자 data = pd.read_csv('eCommerce.csv') >>..
[패스트캠퍼스] Python을 활용한 이커머스 데이터 분석 - Intro
·
🤓 기술 학습 & 공부 기록/Python
▶ 강의명▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데이터 분석 ▶ 주제▷ ch1. Intro -- 강의 내용 -- 01. 강의 소개 및 Tips02. 머신 러닝이란 ▶ 머신 러닝1. 지도 학습(supervised learning)- 선행적으로 데이터라벨링 수행 2. 비지도 학습(unsupervised learning)- 클러스터링 등 3. 강화 학습(reinforcement learning)- 고난이도의 분석03. Jupyter Notebook 설치 ▶ 주피터 노트북이란?▷ 데이터 분석에 최적화된 파이썬 에디터 (구글 코랩과 비슷)▷ 파이썬 에디터 중에서 파이참이 개발용 에디터라면 주피터 노트북은 데이터 분석용 에디터이다04. Jupyter Notebook 기본 사용법 ▶ 단축키셀 누르고 a 입력 :..
[데이콘 1-3] 따릉이 데이터를 활용한 데이터 분석 입문 (모델링)
·
🤓 기술 학습 & 공부 기록/Python
앞서 전처리를 통해 데이터셋의 결측값을 없애 모델링이 가능하도록 만들었다. 이제 본격적으로 모델링을 실습해본다. 모델링은 쉽게 y = ax + b 방정식의 가장 정확한 y값을 예측해낼 수 있는 a, x, b를 찾는 과정이라 할 수 있다. 먼저 몇개의 x를 사용할지 결정해야 한다. count와 상관성이 가장 높은 아래의 3가지 변수를 x1, x2, x3로 사용할 것이다. 1) 시간2) 1시간 전 온도3) 1시간 전 풍속  그리고 변수를 지정해 준다. features = ['hour', 'hour_bef_windspeed', 'hour_bef_windspeed']x_train = train[features]y_train = train['count']x_test = test[features] 데이터의 크기를 ..
[데이콘 1-2] 따릉이 데이터를 활용한 데이터 분석 입문 (전처리)
·
🤓 기술 학습 & 공부 기록/Python
앞서 EDA를 통해 데이터셋을 전체적으로 살펴보았다.그리고 count값에 크게 영향을 미치는 변수 2가지를 상관계수가 높은 순으로 선정했다. 1. 1시간 전 온도 (상관계수 0.62)2. 1시간 전 풍속 (상관계수 0.48) 이제 본격적인 모델링에 앞서 데이터를 정제하는 전처리를 해본다. 참고로 파이썬에서는 Null 값과 NA 값을 따로 구분하지 않고 NaN이라고 통일하여 결측값으로 표현한다. 먼저 훈련용 데이터의 결측값를 찾아본다. train.isna().sum() isna() 함수는 결측치 확인하여 결측치면 True (1), 아니면 False (0)로 나타내준다.여기에 sum을 사용해서 결측치의 갯수를 확인할 수 있다.  온도와 풍속 데이터에 각각 2개, 9개의 결측값이 있는 것을 확인할 수 있다.이..