본문 바로가기
Brightics 서포터즈 3기

삼성 SDS Brightics_팀 분석 프로젝트(2)] 06. 개인 의료비🏥 예측 프로젝트✨ (피어슨 vs. 스피어만 상관계수)

by 눈뚜덩이 2022. 8. 22.

안녕하세요~

이번 주에는 지난 포스팅에 이어서

팀 분석 관련 내용을 적어보려고 합니다!

 

지난주 포스팅을 아직 못 보셨다면

아래 링크를 클릭해 주세요~🖱

https://blog.naver.com/noonddudung2/222849341179

01. 팀 분석 프로젝트 역할

이번 주 저의 역할은....!

두둥✨

바로 상관분석입니다ㅎㅎ

지난번 포스팅에서는

상관분석 표만 보여드리고

자세한 설명을 하지 않아서

추가 분석을 해보려고 합니다~

사실 이 부분은

저도 공부가 필요할 것 같아서

이 역할을 맡기 잘했다는 생각이 들었어요! ㅎㅎ

제가 이해한 것을

정리도 할 겸

열심히 포스팅을 해보겠습니당~✏️

02. 상관분석

상관분석은

두 변수 간의 관련성을 확인하기 위한 것이죠!

이를 확인하기 위해서는

"상관계수"를 살펴보아야 하는데요~

상관계수는 대표적으로

피어슨 상관계수 (Pearson's correlaton coefficient)

스피어만 상관계수 (Spearman's correlation coefficient)

있습니다.

 

이게 뭐냐고요? ㅎㅎ

.

.

.

두 가지 방식은

아래와 같은 특징들이 있답니다!

Pearson 방식모수적인 방법으로

데이터 분포가 정규성을 가진다는 가정이 있을 때 적용하기 적당합니다.

Spearman 방식비모수적 방법론으로

정규성을 만족하지 않을 경우

숫자의 크기 자체보다는

크기의 순위 기준으로 상관관계를 조회하게 됩니다.

03. 상관분석 적용

팀 분석 프로젝트에서 상관분석을 적용할 때는

먼저 데이터의 정규성을 확인하고

분석 방식을 설정하고자 합니다!

 

 

만약 정규성을 만족한다면 피어슨 방식을,

만족하지 않는다면 스피어만 방식을 통해

상관관계를 살펴보고자 합니다~🧐

 

아래는 Brightics Studio를 통해

상관분석을 한 프로세스입니다!

📍Profile Summary

Profile Summary 함수를 활용하면

피어슨과 스피어만 상관계수를 활용한

히트맵을 보여주는데요~

 

숫자형 변수인 age, bmi, children, charges 열은

대체적으로 양의 상관관계를 띄고 있네요.

📍Normality Test

이제 정규성을 확인할 차례에요!

저는 데이터가 1000개 이상이기 때문에

Kolmogorov-Smimov test를 활용하여

정규성을 확인해 보았는데요!

4개의 변수 모두 p_value < 0.05이기 때문에

정규성을 만족하지 않네요!

위의 프로세스에 따라서

스피어만 상관계수를 활용한 상관분석을

진행해 보겠습니다~!

📍Correlation

스피어만 방식을 통해 Correlation 함수를 활용하면,

다음과 같은 결과를 보여줍니다!

대각선에는 변수에 대한 히스토그램이 표현되고,

산점도와 상관계수를 출력하여 보여줍니다!

종합적으로 보았을 때,

age와 charges 간의 상관관계가 가장 크다는 것을 알 수 있네요!

 

조금 더 나아가

성별·흡연 여부·지역에 따른

상관분석도 진행해 보았는데요~

📍성별에 따른 상관관계

 
 

성별에 따라 상관관계를 분석한 결과

여성과 남성 모두

원래의 데이터와 큰 차이가 없음을 알 수 있네요!

📍흡연 여부에 따른 상관관계

 
 

비흡연자의 경우에는 age와 charges 간의 상관계수인 0.82가

그룹을 나누지 않고 구한 상관계수 0.53보다

약 1.5배 정도 커진 것을 알 수 있습니다.

흡연자의 경우에는 bmi와 charges 간의 상관계수인 0.83이

그룹을 나누지 않고 구한 상관계수 0.12보다

약 4배 정도 커진 것을 알 수 있습니다.

age와 charges는 비흡연자일 경우,

bmi와 charges는 흡연자일 경우에

흡연 여부에 따른 결과는 그룹을 나누지 않고 본

상관계수가 큰 차이가 나네요!

📍지역에 따른 상관관계

 
 
 
 

지역에 따라 상관관계를 분석한 결과

원래의 데이터와 큰 차이가 없음을 알 수 있네요!

04. 팀 프로젝트를 하면서 느낀 점

아직 부족하지만

잘 모르는 부분도 공부해나가면서

프로젝트를 진행해서 뿌듯함도 느껴지고

배워가는 것도 많은 것 같아서

다행이라는 생각이 들어요! ㅎㅎ

이론으로 배우는 것과

실제로 적용하는 것 사이에서

헷갈리는 부분도 많이 생기는데요!

그럴 때마다 멘토님이 정말 정말

이해하기 쉽게 자세히 알려주셔서

너무 감사해요!🤭

팀원 언니 오빠들이랑

역할을 열심히 하면서 돕기도 하구

팀 프로젝트를 하니까 너무 좋네요 ㅎㅎ

언니 오빠들이 능력치 만렙이라

너무 든든합니다 ㅎㅎ

(막내라서 행복해요~💖)

다음 주면 팀 분석 프로젝트가

끝이 날 텐데요!

마지막까지 기대해 주세요~~

안녕!