Brightics 서포터즈 3기

[삼성 SDS Brightics_개인 분석 프로젝트(2)] 03.비행기✈️ 가격 예측 모델링 with 다중선형회귀✨

눈뚜덩이 2022. 7. 2. 23:45

안녕하세요!

지난 포스팅에서

비행기✈️ 가격 예측 EDA 했던거 기억하시나요?

↓↓↓

비행기✈️가격 예측 EDA

아직 못 보신 분들은

위의 링크에서 보고 오시면 좋을 것 같아요!

이번 포스팅에서는

여기서 더 나아가

비행기 가격 예측 모델링&평가

해보도록 하겠습니다!

분석 프로세스

지난 시간에는 radom sampling 함수를 통해

추출된 데이터들을 가지고

시각화를 해보았는데요!

오늘은 이 데이터들을 전처리하여

다중선형회귀를 이용한

가격 예측 모델링 & 평가를 실시하려고 합니다!

그전에 잠깐!!

.

.

.

다중선형회귀가 무엇일까요?

 

다중선형회귀는 아래와 같이,

독립변수가 두 개 이상인 선형회귀모형을 이용한 회귀분석입니다!

현재 분석하고 있는 데이터의 경우에

비행기 가격(종속변수)에 영향을 미치는

다양한 독립변수들(ex. 항공사, 시간.. etc)이 있죠!

그렇기 때문에 다중선형회귀분석

실시하려고 합니다!

다중선형회귀분석을 이용한

오늘의 분석프로세스는 다음과 같습니다!


가격 예측 모델링&평가 시작✨

 

1. 전처리 (Pre-processing)

지난 시간에 null 값이 없는 걸 확인했으니

데이터 형태를 분석에 알맞은 형태로

변환해보겠습니다!

One Hot Encoder 함수를 이용하여

데이터 형태를 변환해볼 건데요!

One Hot Encoder 함수는

범주형 데이터숫자로 표현해서

텍스트 형태의 데이터를

분석할 수 있게 하는 함수입니다~

이 함수를 왜 사용하냐구요?

 

범주형 데이터를

컴퓨터가 계산할 수 있도록

변환하기 위해서 사용하는 것입니다!

짜잔~✨

이렇게 표를 보시면

이해가 더 잘 될거에요!

제가 분석하고 있는 데이터에서는

"source_city', 'departure_time', 'stops',

'arrival_time', 'destination_city', 'class', 'airline' 열을

One Hot Encoder 함수를 통해

type을 변환해 주었어요~

표를 보시면 왼쪽의 airline이

숫자형으로 변환된 거 보이시죠?

 

2. 모델링(Modeling)

이제 데이터를

train 데이터와 test 데이터로

나눌 차례에요!

저는 Split Data 함수를 활용하여

train 70%, test 30%로

데이터를 분할하였습니다!

그다음에 종속변수와 독립변수를 선택한 후,

Linear Regression Train 함수를 통해

회귀 분석을 실시할 거예요!

저는 price 이외의 열들을

모두 독립변수로 설정하고,

price를 종속변수로 설정하였습니다~

R-squared(결정계수)회귀식을 통해서

계산된 예측값이 실제 y 값을 얼마나 설명하는지

알려주는 값인데요~

1에 가까울수록 좋은 모형으로 판단됩니다!

지금 결과를 보았을 때

R-squared는 91.7%의 설명력

나타내고 있다는 것을 알 수 있습니다!

또한 F-statistic 대한 p-value가 0.05보다 작아

5% 유의수준에서 유의하다는 것도 알 수 있죠!

또한 Q-Q plot이 대각선에 가깝고,

히스토그램이 종 모양에 가까워

정규성을 만족시킨다고 볼 수 있습니다.

 

이를 바탕으로

Linear Regression Predict 함수를 이용해

test 데이터를 예측해보았습니다!

위에 파란색 네모 박스 보이시죠? ㅎㅎ

이게 바로 예측값입니다!

3. 평가(Evaluation)

예측값이 나왔다고 끝이 아니죠~~ㅎㅎ

이제 이 예측값이 얼마나 정확한지

모델을 평가해볼거에요!

Evaluate Regression 함수를 활용해

모델의 정확도를 평가해볼게요~

이번에는 r2 score(결정계수)가

약 91%의 설명력을 나타내고 있어

양호한 예측 결과를 보이고 있네요!


이로써 다중선형회귀분석

활용한 비행기 가격 예측 프로젝트가

마무리되었는데요~

다음 포스팅에서는

새로운 데이터와 분석 방식으로

찾아오겠습니다~

 

(많관부!!!!)

※ 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.

#삼성SDSBrightics #BrighticsStudio #브라이틱스 #모델링 #데이터분석

#Brightics서포터즈 #브라이틱스서포터즈 #다중선형회귀 #선형회귀