
안녕하세요~
이번에는 팀 분석 미션으로 돌아왔습니다!

저희 팀은 데이터를 결정하기 위해
머리를 맞대고 회의를 했어요 ㅎㅎ
회의 결과....!
.
.
.
두둥✨
Kaggle의 "Medical Cost Personal Dataset" 데이터를
활용한 개인 의료비 예측 프로젝트를
하기로 했습니다!
데이터는 아래 링크를 참고해주세요!
https://www.kaggle.com/datasets/mirichoi0218/insurance
01. 프로젝트 주제 선정 및 목표
프로젝트 주제를 선정할 때는
1.공공데이터이며
2. Brightics의 다양한 모델 활용하는 것을
보여줄 수 있으면서
3. 분석 목표가 명확하며
4. 복잡하지 않은 데이터인지를
중점적으로 살펴보았어요!

(꽤나 까다롭게 선정했죠? ㅎㅎ)
이 프로젝트를 활용해
영상을 제작하기 때문에
처음 보는 사람들도
쉽게 이해할 수 있도록 구성하는 것을
중요하게 생각하였답니다~
프로젝트의 목표는

위와 같아요!
+) 참고로 3주에 걸쳐서 계획을 세웠고,
포스팅도 이에 따라서 진행될 예정이에요!

(J들의 모임..ㅎㅎ 일이 착착 진행되고 있답니다~)
02. 데이터 소개
이제 간단히 데이터에 대하여 살펴볼게요!

데이터는 7가지의 열로
구성되어 있습니다~~

저희팀은 age, sex, bmi, children, smoker, region 열을 활용하여
charges를 예측하는 회귀 모델을 만들어 평가하고자 합니다!

(사용할 모델, 평가 지표 등은 다음 포스팅에서 자세히 다룰 예정이에요!)
03. 전처리 I
이번 포스팅에서는 Brightics Studio를 활용해
데이터를 살펴보고 EDA를 실시해 볼건데요~
먼저 Profile 함수를 활용해서
데이터를 살펴보고
결측치가 있는지 확인해보겠습니다!
📍상관관계


두둥~ ✨
숫자형으로 된 자료들의 상관관계를
먼저 확인해보았어요!
📍결측치
아래 사진에 나온 것과 같이 결측치는 존재하지 않았어요!

나머지 전처리 과정은
다음 포스팅에서 계속됩니다~
To be continued!!
04. EDA
이제 EDA를 실시해 보겠습니다!

먼저, 각 열별로 간단하게 분포를 살펴보시죠~~
📍Charges

Charges 열은 중심에서 왼쪽으로 치우친 형태이기 때문에
정규분포에서 벗어나 있습니다!
정규분포로 변환하기 위해 로그 변환을 적용할 수 있겠죠!
📍Age

18세부터 64세까지의 연령이 분포하고 있습니다.

연령대로 나누어서 본 결과,
20~50대의 비율이 10대와 60대의 비율보다 높습니다!
📍Sex

성별의 비율은 거의 비슷하다는 것을 알 수 있네요~
📍Children

자녀가 4명 이상일 경우의 수가 현저히 낮습니다.
📍Smoker

이 데이터에서는 비흡연자의 수가 흡현자의 수보다
현저히 높다는 것을 알 수 있어요!
📍Region

지역에 따른 분포의 차이가 거의 없습니다!
다음으로는 각 열 간의 관계를 살펴보겠습니다!
📍Charges
아래 4가지 Box plot을 통해서,
연령, 지역, 성별, 부양 자녀 수가
의료 비용에 미치는 영향이 크지 않다는 것을 알 수 있습니다!


northwest와 southwest 지역의 사람들이
더 많은 의료비를 지출하네요!


자녀가 5명인 사람들의 경우 평균적으로 다른 그룹보다
더 적은 의료 비용을 지출합니다!
반대로, 흡연 여부는 의료 비용에
큰 영향을 미친다는 것을 알 수 있어요!

이 데이터에서, 흡연자의 경우 비흡연자보다 4배 가까이
많은 의료 비용을 지출합니다.
📍BMI




BMI 같은 경우에도 성별, 나이, 흡연 여부, 부양 자녀 수에 따른
영향이 거의 없음을 알 수 있네요!
📍Age


성별, 지역에 따른 연령대 분포를 보았을 때,
연령대에 따른 분포 차이가 크지 않아 보입니다!
📍BMI & Charges
이번에는 BMI와 Charges 간의 관계와
더 나아가 다른 열들과의 관계도 알아보았어요!


저는 bmi가 너무 낮거나 너무 높을 경우에
더 많은 의료비를 지출할 것이라고 생각했는데,
큰 상관관계가 없어 보입니다!




Scatter plot을 활용하여
각 열들간의 관계를 다양하게 시각화 해보았어요!
다음주에는 전처리와 모델링에 대한
포스팅으로 돌아올게요~

※ 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.
#삼성SDSBrightics #BrighticsStudio #브라이틱스 #모델링 #데이터분석
#Brightics서포터즈 #브라이틱스서포터즈 #데이터시각화 #EDA #회귀분석