본문 바로가기

분류 전체보기13

[데이터 분석 및 시각화 프로젝트] RFM 고객세분화 분석 📉 데이콘 - 이커머스 고객 세분화 분석 아이디어 경진대회  ☑️프로젝트 개요프로젝트 명RFM 고객 세분화 분석 프로젝트 기간2024.05.14 - 2024.05.21사용 언어Python사용 데이터데이콘 - 이커머스 고객 세분화 분석 아이디어 경진대회https://dacon.io/competitions/official/236222/data분석 목적제공된 이커머스 데이터를 통해, 고객들을 효과적으로 세분화하고, 결과를 시각화   역할데이터 전처리, 분석, 시각화, 발표  새로 준비한 본격적으로 데이터 분석에 있어서 기초가 되는 여러가지를 배운 상태에서 시작한 프로젝트이다.이전 프로젝트 보다 시간적 여유가 많아 프로젝트라고 생각을 했다. 이전과 다르게, 데이콘에서 제공되는 데이터를 갖고 분석을 한 경험이.. 2024. 7. 22.
5일차 - 데이터 다뤄보기[그래프_8장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다.☑️R 그래프 R을 선호하는 이유 : 우수한 그래프 기능제공 ggplot2library(ggplot2)그래프를 만들 때 가장 많이 사용하는 패키지기본 그래프 레이어 구조 1) 배경 설정(축)2) 그래프 추가(점, 막대, 선)3) 설정 추가(축 범위, 색, 표식)🔍 배경 설정ggplot(data = mpg, aes(x = displ, y = hwy))그래프를 그릴 배경 설정data : 사용할 데이터aes : x축과 y축에 사용할 변수 지정🔍 산점도geom_point()데이터를 x축과 y축에 점으로 표현한 그래프 연속값으로 된 두 변수의 관계를 표현할 때 사용ggplot(data = mpg, aes(x = di.. 2024. 7. 19.
4일차 - 데이터 다뤄보기 [정제-7장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다.  ☑️결측치 정제🔍 결측치 찾기  0) df1) is.na()# 논리형으로 반환(참, 거짓)is.na(df) # True -> na 존재 2) table(is.na(df))# 참, 거짓 -> 개수 반환table(is.na(df))# 결측치 : 2개 🔍 결측치 제거결측치가 있으면, 평균 및 여러 연산에 있어 사용이 불가하다. 그러므로 결측치는 제거를 해야한다. 1) !is.na(filter()) !is na()를 filter에 적용# NA 제거하는 방법df %>%  filter(!is.na(score)) %>%  summarise(mean(score))score에 결측치가 있어, 평균연산이 안되었지만결측치를.. 2024. 7. 18.
3일차 - 데이터 다뤄보기 [가공_6장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다. ☑️데이터 가공🔍 파이프라인 %>% "파이프 연산자"라고 불리며, 수도관처럼 함수들을 연결하는 기능을 한다.단축키 : ctrl + shift + m 🔍 데이터 전처리함수명특징1. filter()행 추출2. select()열 (변수)추출3. arrange()정렬4. mutate()변수 추가 = 파생변수5. group_by()집단별로 나누기 6. summarise() 통계치 산출7. left_join()데이터 합치기(열) / 가로 = 열 + 열 = cbind8.bind_rows()데이터 합치기(행) / 세로 = 행 + 행 = rbind유의할 점 : group_by 와 summarise는 항상 같이 많이 쓴다 .. 2024. 7. 12.