본문 바로가기

데이터분석 찍어먹기/R6

6일차 - 데이터 분석 [실습_9장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다. ☑️ 한국복지패널데이터 분석 🔍 데이터 준비# install.packages("foreign")library(foreign) # SPSS 파일 불러오기library(dplyr)    # 전처리library(ggplot2)# 시각화library(readxl)  # 엑셀 파일 불러오기 🔍 데이터 불러오기raw_data data # 데이터 전처리 과정 중에 데이터에 문제가 생기면 여기서부터 다시 시작 (= 백업파일)🔍 변수명 변경# 변수 이름 변경welfare                   sex = h10_g3,                                        birth_year = .. 2024. 7. 24.
5일차 - 데이터 다뤄보기[그래프_8장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다.☑️R 그래프 R을 선호하는 이유 : 우수한 그래프 기능제공 ggplot2library(ggplot2)그래프를 만들 때 가장 많이 사용하는 패키지기본 그래프 레이어 구조 1) 배경 설정(축)2) 그래프 추가(점, 막대, 선)3) 설정 추가(축 범위, 색, 표식)🔍 배경 설정ggplot(data = mpg, aes(x = displ, y = hwy))그래프를 그릴 배경 설정data : 사용할 데이터aes : x축과 y축에 사용할 변수 지정🔍 산점도geom_point()데이터를 x축과 y축에 점으로 표현한 그래프 연속값으로 된 두 변수의 관계를 표현할 때 사용ggplot(data = mpg, aes(x = di.. 2024. 7. 19.
4일차 - 데이터 다뤄보기 [정제-7장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다.  ☑️결측치 정제🔍 결측치 찾기  0) df1) is.na()# 논리형으로 반환(참, 거짓)is.na(df) # True -> na 존재 2) table(is.na(df))# 참, 거짓 -> 개수 반환table(is.na(df))# 결측치 : 2개 🔍 결측치 제거결측치가 있으면, 평균 및 여러 연산에 있어 사용이 불가하다. 그러므로 결측치는 제거를 해야한다. 1) !is.na(filter()) !is na()를 filter에 적용# NA 제거하는 방법df %>%  filter(!is.na(score)) %>%  summarise(mean(score))score에 결측치가 있어, 평균연산이 안되었지만결측치를.. 2024. 7. 18.
3일차 - 데이터 다뤄보기 [가공_6장] "Do it! 쉽게 배우는 R 데이터 분석" 책을 참고하여 R을 공부했으며, 글을 작성했습니다. ☑️데이터 가공🔍 파이프라인 %>% "파이프 연산자"라고 불리며, 수도관처럼 함수들을 연결하는 기능을 한다.단축키 : ctrl + shift + m 🔍 데이터 전처리함수명특징1. filter()행 추출2. select()열 (변수)추출3. arrange()정렬4. mutate()변수 추가 = 파생변수5. group_by()집단별로 나누기 6. summarise() 통계치 산출7. left_join()데이터 합치기(열) / 가로 = 열 + 열 = cbind8.bind_rows()데이터 합치기(행) / 세로 = 행 + 행 = rbind유의할 점 : group_by 와 summarise는 항상 같이 많이 쓴다 .. 2024. 7. 12.