본문 바로가기
데이터분석 찍어먹기/R

5일차 - 데이터 다뤄보기[그래프_8장]

by dbdbdeeep 2024. 7. 19.

"Do it! 쉽게 배우는 R 데이터 분석" 

책을 참고하여 R을 공부했으며, 글을 작성했습니다.



☑️R 그래프 

R을 선호하는 이유 : 우수한 그래프 기능제공

 

ggplot2
library(ggplot2)

그래프를 만들 때 가장 많이 사용하는 패키지

기본 그래프 레이어 구조 

1) 배경 설정(축)

2) 그래프 추가(점, 막대, 선)

3) 설정 추가(축 범위, 색, 표식)

🔍 배경 설정

ggplot(data = mpg, aes(x = displ, y = hwy))

그래프를 그릴 배경 설정

data : 사용할 데이터

aes : x축과 y축에 사용할 변수 지정

실행화면

🔍 산점도

geom_point()

데이터를 x축과 y축에 점으로 표현한 그래프 

연속값으로 된 두 변수의 관계를 표현할 때 사용

ggplot(data = mpg, aes(x = displ, y = hwy)) + # 1) 데이터 축
  geom_point() + #2) 그래프 종류
  xlim(3,6) + ylim(20,40) #3) 세부 설정

실행화면

qplot

기능은 많지 않지만, 문법이 간단해 전처리 단계에서 탐색적으로 데이터를 확인해보는 용도로 활용 

🔍 막대 그래프

geom_col() 

데이터의 크기를 막대의 길이(=높이)로 표현한 그래프 

집단 간 차이를표현할 때 사용

reorder()

막대를 값의 크기순으로 정렬 해주는 함수

reorder() 에 x축 변수정렬 기준으로 삼을 변수를 지정

ggplot(data = drv_hwy, aes(x = reorder(drv, -hwy_mean), y = hwy_mean))+
  geom_col()+
  xlab("drv")

위와 같이 정렬 기준 변수 앞에 - 기호를 붙이면, 내림차순 정렬 

실행화면

🔍 빈도 막대 그래프

값의 개수(빈도)로 막대의 길이를 표현

y축 없이, x축만 지정하고, geom_col() 대신 geom_bar() 사용

geom_bar()
ggplot(data = mpg, aes(x= drv)) + geom_bar()
# x 축 변수의 빈도수 확인 

실행화면

🔍 선 그래프

시간에 따라 달라지는 데이터를 표현할 때 주로 선 그래프 이용

시계열 데이터 + 선 그래프 => 시계열 그래프

economics()

실행화면

geom_line()

선 그래프 표현

ggplot(data = economics, aes(x = date, y = unemploy))+
  geom_line()

실행화면

🔍 상자 그림(박스플롯)

데이터의 분포(퍼져있는정도)를 직사각형 상자 모양으로 표현

집단 간 분포 차이 표현하는데 유용하며, 데이터의 특징을 더 자세히 파악할 수 있다.

geom_boxplot()

상자그림 표현 

실행화면

상자 그림에서  '사분위수'를 이용해 데이터의 특징을 파악 할 수 있다.