"Do it! 쉽게 배우는 R 데이터 분석"
책을 참고하여 R을 공부했으며, 글을 작성했습니다.
☑️R 그래프
R을 선호하는 이유 : 우수한 그래프 기능제공
ggplot2
library(ggplot2)
그래프를 만들 때 가장 많이 사용하는 패키지
기본 그래프 레이어 구조
1) 배경 설정(축)
2) 그래프 추가(점, 막대, 선)
3) 설정 추가(축 범위, 색, 표식)
🔍 배경 설정
ggplot(data = mpg, aes(x = displ, y = hwy))
그래프를 그릴 배경 설정
data : 사용할 데이터
aes : x축과 y축에 사용할 변수 지정
🔍 산점도
geom_point()
데이터를 x축과 y축에 점으로 표현한 그래프
연속값으로 된 두 변수의 관계를 표현할 때 사용
ggplot(data = mpg, aes(x = displ, y = hwy)) + # 1) 데이터 축
geom_point() + #2) 그래프 종류
xlim(3,6) + ylim(20,40) #3) 세부 설정
+
qplot
기능은 많지 않지만, 문법이 간단해 전처리 단계에서 탐색적으로 데이터를 확인해보는 용도로 활용
🔍 막대 그래프
geom_col()
데이터의 크기를 막대의 길이(=높이)로 표현한 그래프
집단 간 차이를표현할 때 사용
reorder()
막대를 값의 크기순으로 정렬 해주는 함수
reorder() 에 x축 변수와 정렬 기준으로 삼을 변수를 지정
ggplot(data = drv_hwy, aes(x = reorder(drv, -hwy_mean), y = hwy_mean))+
geom_col()+
xlab("drv")
위와 같이 정렬 기준 변수 앞에 - 기호를 붙이면, 내림차순 정렬
🔍 빈도 막대 그래프
값의 개수(빈도)로 막대의 길이를 표현
y축 없이, x축만 지정하고, geom_col() 대신 geom_bar() 사용
geom_bar()
ggplot(data = mpg, aes(x= drv)) + geom_bar()
# x 축 변수의 빈도수 확인
🔍 선 그래프
시간에 따라 달라지는 데이터를 표현할 때 주로 선 그래프 이용
시계열 데이터 + 선 그래프 => 시계열 그래프
economics()
geom_line()
선 그래프 표현
ggplot(data = economics, aes(x = date, y = unemploy))+
geom_line()
🔍 상자 그림(박스플롯)
데이터의 분포(퍼져있는정도)를 직사각형 상자 모양으로 표현
집단 간 분포 차이 표현하는데 유용하며, 데이터의 특징을 더 자세히 파악할 수 있다.
geom_boxplot()
상자그림 표현
상자 그림에서 '사분위수'를 이용해 데이터의 특징을 파악 할 수 있다.
'데이터분석 찍어먹기 > R' 카테고리의 다른 글
6일차 - 데이터 분석 [실습_9장] (0) | 2024.07.24 |
---|---|
4일차 - 데이터 다뤄보기 [정제-7장] (0) | 2024.07.18 |
3일차 - 데이터 다뤄보기 [가공_6장] (0) | 2024.07.12 |
2일차 - R 데이터 다뤄보기 [기초_1장] (0) | 2024.07.10 |
1일차 - R 이랑 친해지기 [1-4장] (0) | 2024.07.05 |