📉 Kaggle - 미국 통신사 고객 데이터를 활용한 고객이탈예측모델 구축
☑️프로젝트 개요
프로젝트 명 | 통신사 고객데이터를 통해, 고객이탈을 예측할 수 있는 모델을 개발 |
프로젝트 기간 | 2024.08.21 - 2024.09.10 |
사용 언어 및 개발환경 | Python(GoogleCorab,JupyterNotebook), VastAI(GPU 서버) |
사용 데이터 | Kaggle - 미국 통신사 고객 공개 데이터 https://www.kaggle.com/competitions/telecom-churn-case-study-hackathonc62/ |
분석 목적 | 제공된 데이터를 통해 고객이 이탈할 것인지 아닌지를 분류 |
역할 | 데이터 전처리, 분석, 시각화, 발표 |
주요기능 및 구현과정 | - 캐글에서 제공되는 2014년도 미국 통신사 데이터는 우리나라와는 다른 방식인 선불충전방식임을 숙지하고 데이터를 바라보았으며, 이탈할 것인지 아닌지를 분류 - 이탈 방지를 통해 고객 유지 강화 및 수익 감소를 방지하기 위한 프로젝트 - 이탈예측을 위해, 마지막 충전일을 기준으로 이탈기준으로 삼음 - 리더보드 점수 향상을 위해 기존데이터에 EDA를 통해 얻은 인사이트를 기반으로 약 50개의 파생변수를 추가했으며, 피처 간 상관관계를 통해 적절한 파생변수 선택 - 샘플링, 원-핫 인코딩, 스케일링 등 피쳐엔지니어링을 통해 최적의 데이터셋 선정 - 훈련 데이터와 검증 데이터를 나누어 훈련 데이터를 통해 학습하고 검증 데이터로 모델 검증 계획 수립 - 다양한 머신러닝모델에 Optuna[AutoML]를 적용해, 최적의 하이퍼파라미터를 가진 우수한 성능의 모델 선정 - 최적의 모델들의 예측결과를 조합하여, 최고 점수달성을 위해 앙상블 기법 중 보팅과 스태킹을 진행 - 일반적으로 소프트보팅이 하드보팅보다 성능이 더 좋아 자주 사용되지만, 하드보팅의 점수가 가장 높았음 |
성과 및 느낀점 | - Kaggle 경진대회 2등 수상(2위/117팀) - 우리나라와는 다른 선불충전요금제 방식을 이해하고, 인사이트를 도출해내는 과정에서 주어진 데이터를 이해하는 단계에서부터 시행착오를 겪으며 팀원들과 함께 어떤 피처를 사용할지와 어떠한 모델이 적합할지 고민하고 실험하는 시간을 가지며 성장하게 된 계기 - 프로젝트를 진행하면서, 단일모델의 성능이 좋지 않은 문제점이 발생하였는데, 앙상블기법을 공부하여 모델의 성능을 높일 방법을 모색하였고 그 결과, 경진대회에서 2등을 하게 되었음 |
'프로젝트 및 공모전 찍어먹기 > 팀 프로젝트' 카테고리의 다른 글
[데이터 분석 및 시각화 프로젝트] 화재 및 화재대응 취약지역 (0) | 2024.11.13 |
---|