본문 바로가기
프로젝트 및 공모전 찍어먹기/팀 프로젝트

[데이터 분석 및 시각화 프로젝트] 통신사 고객데이터를 활용한 고객이탈예측 모델 생성

by dbdbdeeep 2024. 11. 13.

📉 Kaggle - 미국 통신사 고객 데이터를 활용한 고객이탈예측모델 구축

 

☑️프로젝트 개요

프로젝트 명 통신사 고객데이터를 통해, 고객이탈을 예측할 수 있는 모델을 개발
프로젝트 기간 2024.08.21 - 2024.09.10
사용 언어 및 개발환경  Python(GoogleCorab,JupyterNotebook), VastAI(GPU 서버)
사용 데이터 Kaggle - 미국 통신사 고객 공개 데이터 
https://www.kaggle.com/competitions/telecom-churn-case-study-hackathonc62/
분석 목적 제공된  데이터를 통해 고객이 이탈할 것인지 아닌지를 분류
역할 데이터 전처리, 분석, 시각화, 발표
주요기능 및 구현과정 -  캐글에서 제공되는 2014년도 미국 통신사 데이터는 우리나라와는 다른 방식인
   선불충전방식임을 숙지하고 데이터를 바라보았으며, 이탈할 것인지 아닌지를 분류
-  이탈 방지를 통해 고객 유지 강화 및 수익 감소를 방지하기 위한 프로젝트
-  이탈예측을 위해, 마지막 충전일을 기준으로 이탈기준으로 삼음
-  리더보드 점수 향상을 위해 기존데이터에 EDA를 통해 얻은 인사이트를 기반으로 
   약 50개의 파생변수를 추가했으며, 피처 간 상관관계를 통해 적절한 파생변수 선택  
-  샘플링, 원-핫 인코딩, 스케일링 등 피쳐엔지니어링을 통해 최적의 데이터셋 선정
-  훈련 데이터와 검증 데이터를 나누어 훈련 데이터를 통해 학습하고 검증 데이터로 모델   
   검증 계획 수립
-  다양한 머신러닝모델에 Optuna[AutoML]를 적용해, 최적의 하이퍼파라미터를 가진 
   우수한 성능의 모델 선정
-  최적의 모델들의 예측결과를 조합하여, 최고 점수달성을 위해 앙상블 기법 중 보팅과 
   스태킹을 진행
-  일반적으로 소프트보팅이 하드보팅보다 성능이 더 좋아 자주 사용되지만, 
   하드보팅의 점수가 가장 높았음
성과 및 느낀점 -  Kaggle 경진대회 2등 수상(2위/117팀)
-  우리나라와는 다른 선불충전요금제 방식을 이해하고, 인사이트를 도출해내는 과정에서  
   주어진 데이터를 이해하는 단계에서부터 시행착오를 겪으며 팀원들과 함께 어떤  
   피처를 사용할지와 어떠한 모델이 적합할지 고민하고 실험하는 시간을 가지며  
   성장하게 된 계기
-  프로젝트를 진행하면서, 단일모델의 성능이 좋지 않은 문제점이 발생하였는데, 
   앙상블기법을 공부하여 모델의 성능을 높일 방법을 모색하였고
   그 결과, 경진대회에서 2등을 하게 되었음