[삼성 SDS Brightics] 01. 코딩 없는 쉽고 빠른 데이터 분석 프로그램, 아직도 안 써봤어? Brightics Studio 다운로드 방법 & 체험 후기

안녕하세요!
삼성SDS 브라이틱스 서포터즈 3기로
처음 포스팅을 작성하게 되었네요~

대학생인 저는...
요즘 가장 많이 듣는 이야기가
'데이터 분석 능력은 필수다!'라는 말인데요!
공부해야 한다는 걸 알지만
'코딩 잘해야 하는 거 아닌가?',
'너무 어려워 보여 ㅠㅠ'

라는 생각에 선뜻 도전하기
어려운 분야이기도 한 것 같아요!
그래서 오늘은
코딩없이도 쉽고 빠르게
데이터 분석을 할 수 있는 오픈소스 프로그램!!
'Brightics Studio'를 다운로드하는 방법과
저의 체험 후기를 소개하는 포스팅을 작성하려고 합니다!

Brightics Studio 다운로드 방법 (for Windows & Mac)
Brightics Studio는
Windows, Mac, Linux를 지원하고 있어,
운영체제에 맞는 버전을
다운로드받아주시면 됩니다!

참고로 Brightics Studio의 사양은
위와 같아요😉

먼저, Windows에서 다운로드받는 방법을
설명해드릴게요!
(너무 간단해서 머쓱하지만 ㅎㅎ)
1.아래 링크에 접속하여 회원가입 후,
로그인해주세요!
2. 'Downloads' 탭으로 들어가
Brightics Studio의
Windows 버튼을 클릭해
다운로드 해 주세요!

3. 다운로드받은 파일을 열면,
이런 창이 뜹니다!

'Start' 버튼을 클릭하여
다운로드받아주세요~
4. 그다음 Brightics Studio Launcher에서
'Start All Services of ML/DL'을 클릭하면
됩니다!

ML은 Machine Learning,
DL은 Deep Learning의 약자입니다!
필요에 따라서 ML과 DL 중 선택하신 후
아래 버튼을 눌러주시면 설치 완료!

이제 Mac에서 다운로드받는 방법을
설명해드리도록 하겠습니다!
1.아래 링크에 접속하여 회원가입 후,
로그인해주세요!
2. 'Downloads' 탭으로 들어가
Brightics Studio의 Mac 버튼을 클릭해
다운로드 해 주세요!

3. Terminal을 실행시켜
설치파일이 존재하는 경로까지 이동한 뒤,
아래 코드를 입력하여
파일을 실행시켜줍니다!
$ sh 파일명.sh
설치가 완료되었다면,
다음 코드들을 작성하여
Brightics Studio를 실행시켜봅시다!
$ cd~
$ cd downloads
$ cd brightics-studio
$ sh start-brightics.sh
저는 download 폴더에 넣어놨기 때문에,
이동 경로를 아래과 같이 설정하였어요🤗

실습을 해보자 (친절한 Tutorial을 곁들인...!)
다운로드를 받았으니!
이제 간단한 실습을 해보겠습니다~
처음 들어가는데 어떻게 혼자 하냐구요??

바로바로 Brightics AI 웹사이트에서
실습 데이터와 함께 튜토리얼을
제공하고 있답니다!
아래 링크를 참고해주세요!
↓↓↓
저는 위의 튜토리얼에서
계층적 군집분석을 통한
질병 유형 분석을 해보았어요!
1.프로젝트 생성
먼저 '+' 버튼을 눌러서
프로젝트와 모델을 생성하였습니다!



2. 데이터 로드(Data Load)
'Load' 함수를 클릭하여
다운로드받은 데이터를 로드하였습니다~

성별, 연령, 상병 코드 별 진료 빈도를
열로 갖는 데이터네요~
3. 전처리(Pre-Processing)
클러스터링 함수를 이용하기 위해서
데이터 형태를 변형하였는데요!
frequency_A~frequentcy_Z컬럼 중
NaN 값의 데이터를 0으로 변경하기 위해
'Replace Missing Number' 함수를
사용하였습니다!

짜잔! ✨
이렇게 데이터 형태가
쉽게 변경되었습니다~
Heirarchial Clustering 함수를 사용하려면
한 개의 컬럼만 Key Column으로 지정할 수 있는데요!
여기서는 성별과 연령을
군집화 기준으로 하기 위해
'Add Fuction Column' 함수를 사용해
하나의 컬럼으로 병합하였습니다!

그다음에 'Normalization' 함수를 사용해
데이터를 표준화해주었어요!

4.모델링(Modeling)
'Hierachial Clustering 함수를 이용하여
상병코드를 기준으로
성별-연령을 군집화하였는데요!
Brightics Studio에서 자동으로
dendrogram을 이용하여
군집화 결과를 표현해주었어요!

dendrogram에서는 4가 가장 합리적으로 보이네요!
이제 'Hiercarchial Clustering Post Process' 함수를 활용하여
Number of Clusters를 4로 설정하였어요!

그 결과....!

Cluster 1은 40~60세의 연령층이 포함되어
이 연령층과 관련된 상병의 빈도가 높을 것으로 예상되었어요!
Cluster 2는 모두 60세 이상의 고령자들이 포함되어
노년기 연령대에 유사한 상병 빈도가 나타난다는 걸 알 수 있죠!
Cluster 3는 5세 미만의 어린이만 포함되어 있어서
유아기와 관련된 발병을 예측해 볼 수 있습니다!
Cluster 4는 Cluster 1,2에 속하지 않는 전 계층이 포함되어
성별에 관계없이 다양한 연령대가 결합되었네요!
이렇게 쉽고 빠르게
데이터 분석 실습을 끝냈습니다~

Brightics Studio 사용 후기😘
원래의 저였다면
우당탕탕 체험기가 돼야 맞는건데...!
친절한 Tutorial 덕분에
아주 스무스하게 사용해보았습니다!
사용하면서 어떤 점이 좋았는지!
이야기해볼게요~ㅎㅎ

1.매우 직관적이다
코드 없이 원하는 결과를 만들 수 있다니...
아주 신기하더군요!
저는 주피터 노트북&구글 콜랩으로
데이터 분석을 공부해보았는데요!
이와 비교했을 때,
아래 사진처럼

데이터 분석 프로세스를 시각화해서
볼 수 있다는 점이 좋았습니다!
또한, 화면 왼쪽과 오른쪽으로 나누어
함수 사용 전과 후를 직관적으로
볼 수 있어서 좋았습니다!

2. 원하는 함수를 검색만 하면 끝!
애증의 import ~ as~을
사용하지 않고 검색만 하면 된다는 것이
너무 좋았습니다!!

여러분 모두 Brightics 하세요...!

앞으로 Brightics 서포터즈로 활동하면서
데이터 분석과 관련한
다양한 콘텐츠들을 제작할 예정이니
기대 많이 많이 해주세요~
그럼 안녕~
다음 포스팅에서 만나요!

※ 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.