본문 바로가기
공부/R & Python

6-2. 데이터의 기술통계치요약

by 드인 2020. 2. 15.

6-2. 데이터의 기술통계치요약


1) 데이터 기술통계치요약

- 데이터 : 학생들의 학업성취도* (포루투칼의 고등학생 수학점수)

- http://archive.ics.uci.edu/ml/datasets/Student+Performance 

 

http://archive.ics.uci.edu

 

archive.ics.uci.edu

 

- 데이터 설명 (stud_math_desc.doc참고)

- 데이터 : 학생들의 학업성취도* (포루투칼의 고등학생 수학성적)

stud<-read.csv("stud_math.csv")

head(stud)
dim(stud)
str(stud)

stud 데이터는 n=395관측치와 33개의 변수


attach(stud)

 

- summary(데이터이름) : 각 변수별로 요약통계량 제공

summary(stud)

문자변수에 대해서는 빈도를 주고, 숫자변수에 대해서는 (최소값, 25%, 중위값, 75%, 최대값)을 제공

 

- mean(변수) : 평균

mean(G3) 

 

- sd(변수) : 표준편차 (분산의 제곱근)

sd(G3) 

 

- var(변수) : 분산

sqrt(var(G3))

 

- 특정변수들에 대한 요약통계량 : var<-c("변수1", 변수2", "변수3")

vars<-c("G1", "G2", "G3")
head(stud[vars])
summary(stud[vars])

stud데이터는 33개의 변수를 가짐!!

=> 특정변수들에 대해 탐색하고자 할때

 

- 함수 describe를 사용한 데이터요약통계량 (psych 패키지 필요)

install.packages("psych")
library(psych)

describe(stud[vars])

 

- sapply함수를 사용

sapply(stud[vars], mean)

 

- 범주형 변수의 요약 : table(변수이름)

table(health)

 

- 막대그림 (이름주기)

health_freq<-table(health)
names(health_freq) <- c ("very bad", "bad", "average", "good", "very good")
barplot(health_freq, col=3)

 

- 범주형 변수의 요약 : table(변수1, 변수2)

table(health,studytime)

2*2 분할표