6-2. 데이터의 기술통계치요약
1) 데이터 기술통계치요약
- 데이터 : 학생들의 학업성취도* (포루투칼의 고등학생 수학점수)
- http://archive.ics.uci.edu/ml/datasets/Student+Performance
- 데이터 설명 (stud_math_desc.doc참고)
- 데이터 : 학생들의 학업성취도* (포루투칼의 고등학생 수학성적)
stud<-read.csv("stud_math.csv")
head(stud)
dim(stud)
str(stud)
stud 데이터는 n=395관측치와 33개의 변수
attach(stud)
- summary(데이터이름) : 각 변수별로 요약통계량 제공
summary(stud)
문자변수에 대해서는 빈도를 주고, 숫자변수에 대해서는 (최소값, 25%, 중위값, 75%, 최대값)을 제공
- mean(변수) : 평균
mean(G3)
- sd(변수) : 표준편차 (분산의 제곱근)
sd(G3)
- var(변수) : 분산
sqrt(var(G3))
- 특정변수들에 대한 요약통계량 : var<-c("변수1", 변수2", "변수3")
vars<-c("G1", "G2", "G3")
head(stud[vars])
summary(stud[vars])
stud데이터는 33개의 변수를 가짐!!
=> 특정변수들에 대해 탐색하고자 할때
- 함수 describe를 사용한 데이터요약통계량 (psych 패키지 필요)
install.packages("psych")
library(psych)
describe(stud[vars])
- sapply함수를 사용
sapply(stud[vars], mean)
- 범주형 변수의 요약 : table(변수이름)
table(health)
- 막대그림 (이름주기)
health_freq<-table(health)
names(health_freq) <- c ("very bad", "bad", "average", "good", "very good")
barplot(health_freq, col=3)
- 범주형 변수의 요약 : table(변수1, 변수2)
table(health,studytime)
2*2 분할표
'공부 > R & Python' 카테고리의 다른 글
6-4. 데이터의 정규성검정과 신뢰구간 (0) | 2020.02.15 |
---|---|
6-3. 그래프를 이용한 데이터 탐색 (0) | 2020.02.15 |
6-1. 데이터 탐색-데이터 다루기 (데이터 결합, 분할, 정렬) (0) | 2020.02.15 |
5-4. R그래픽-공간지도분석 (0) | 2020.02.15 |
5-3. R 그래픽-3D, 히트맵 (0) | 2020.02.15 |