7. R을 이용한 통계 분석
7-1. 두그룹간 평균비교(t-test)
- 모수 : 분포가 알려져있을때 사용
- 비모수 : 분포가 알려져있지 않을때 사용
- t-test : 두 집단간 비교
- ANOVA : 세 집단간 비교
1) 단일표본의 평균검정
- 단일표본의 평균검정 : t.test(변수, mu=검정하고자 하는 평균값)
가설 1 : G3(최종성적)의 평균은 10인가? H0(null Hypothesis : 귀무가설) : mu=10)
setwd("D:/R files/week7_1")
stud<-read.csv("stud_math.csv")
attach(stud)
t.test(G3, mu=10)
[t-test 검정통계량에 의한 결과]
One Sample t-test
data: G3
t = 1.8011, df = 394, p-value = 0.07245 t검정통계량, 자유도, p-value
결론 : a=0.05에서는 G3의 평균이 10이라고 할 수 있는 근거 有
alternative hypothesis: true mean is not equal to 10 Ha 대립가설 : 모평균은 10이 아니다.
95 percent confidence interval: 95% 신뢰구간 : (9.96, 10.86)
9.961992 10.868388
sample estimates:
mean of x 표본평균값 : 10.415
10.41519
2) 두 집단의 평균검정 (두평균의 차이에 대한 비교)
- 두집단 표본평균 비교검정 : t.test(타겟변수~범주형변수, data= )
가설2 : 거주지역(R, U)에 따른 G3(최종성적) 평균에 차이가 있는가?
t.test(G3~address, data=stud) 양측검정
boxplot(G3~address, boxwex = 0.5, col = c("yellow", "coral"))
p-value=0.03으로 유의수준 0.05 (a=0.05)에서 거주지역에 따라 G3는 유의한 차이 有
- 두집단 표본평균 비교검정 : t.test(연속변수~범주형변수, data= )
단측검정 : 기각역이 한쪽에만 있는 경우, alternative=c("less") 혹은 alternative=c("greater")
t.test(G3~address, data=stud, alternative = c("less"))
p-value=0.018로 유의수준을 0.05로 했을때 성적(Rural)<성적(Urban)이라고 할 수 있다.
- 두집단 표본평균 비교 도움말 보기 : help(t.test)
- 두집단 표본평균 비교검정 : t.test(타겟변수~범주형변수, data= )
가설3 : 방과후 활동여부(yes, no)에 따른 G3(최종성적) 평균에 차이가 있는가?
t.test(G3~activities, data=stud)
boxplot(G3~activities, boxwex = 0.5, col = c("blue", "red"))
상자그림(Boxplot)에서 보면 방과후 활동여부는 G3(성적)과 뚜렷한 차이를 볼수 없음
[t-test 검정통계량에 의한 결과]
Welch Two Sample t-test
data: G3 by activities
t = -0.31944, df = 392.98, p-value = 0.7496
alternative hypothesis: true difference in means is not equal to 0 양측검정
95 percent confidence interval:
-1.0542623 0.7595503
sample estimates:
mean in group no mean in group yes
10.34021 10.48756
p-value=0.75는 유의수준 0.05보다 큽니다.
즉 검정통계량의 값이 기각역에 있지 않다.
=> 귀무가설(평균이 같다)를 기각할 수 없음
=> 방과후활동여부는 G3에 유의한 영향이 없다!
평균(G3(방과후활동없음)-G3(방과후활동)) 차이에 대한 신뢰구간 = (-1.05, 0.79)
신뢰구간 사이에 0값이 있다는 것은 차이無
- 두 모집단의 비모수적 방법 (Wilcoxon rank sum Test) : wilcox.test(x,y)
wilcox.test는 타켓변수가 등간척도(통증정도, 만족도, ..)일때 사용할 수 있다
wilcox.test(G3~address)
wilcox.test(타겟변수~범주형변수)
[결과]
Wilcoxon rank sum test with continuity correction
data: G3 by address
W = 11278, p-value = 0.01776
alternative hypothesis: true location shift is not equal to 0
help(wilcox.test)
'공부 > R & Python' 카테고리의 다른 글
7-3. 분산분석 (ANOVA) (Analysis or Variance) (0) | 2020.02.16 |
---|---|
7-2. 짝을 이룬 그룹간 비교 (paired t-test) (0) | 2020.02.16 |
6-4. 데이터의 정규성검정과 신뢰구간 (0) | 2020.02.15 |
6-3. 그래프를 이용한 데이터 탐색 (0) | 2020.02.15 |
6-2. 데이터의 기술통계치요약 (0) | 2020.02.15 |