본문 바로가기
공부/R & Python

7-1. R을 이용한 통계 분석-두그룹간 평균비교(t-test)

by 드인 2020. 2. 16.

7. R을 이용한 통계 분석

7-1. 두그룹간 평균비교(t-test)


 

- 모수 : 분포가 알려져있을때 사용

- 비모수 : 분포가 알려져있지 않을때 사용

- t-test : 두 집단간 비교

- ANOVA : 세 집단간 비교

 

1) 단일표본의 평균검정

- 단일표본의 평균검정 : t.test(변수, mu=검정하고자 하는 평균값)

가설 1 : G3(최종성적)의 평균은 10인가? H0(null Hypothesis : 귀무가설) : mu=10)

setwd("D:/R files/week7_1")
stud<-read.csv("stud_math.csv")
attach(stud)

 

t.test(G3, mu=10)

 

[t-test 검정통계량에 의한 결과]

One Sample t-test

data:  G3
t = 1.8011, df = 394, p-value = 0.07245  t검정통계량, 자유도, p-value

                                                      결론 : a=0.05에서는 G3의 평균이 10이라고 할 수 있는 근거 有
alternative hypothesis: true mean is not equal to 10  Ha 대립가설 : 모평균은 10이 아니다.
95 percent confidence interval:     95% 신뢰구간 : (9.96, 10.86)
9.961992 10.868388
sample estimates:
mean of x      표본평균값 : 10.415
10.41519 

 

2) 두 집단의 평균검정 (두평균의 차이에 대한 비교)

- 두집단 표본평균 비교검정 : t.test(타겟변수~범주형변수, data= )

가설2 : 거주지역(R, U)에 따른 G3(최종성적) 평균에 차이가 있는가?

t.test(G3~address, data=stud)  양측검정
boxplot(G3~address, boxwex = 0.5, col = c("yellow", "coral"))

p-value=0.03으로 유의수준 0.05 (a=0.05)에서 거주지역에 따라 G3는 유의한 차이 有

 

- 두집단 표본평균 비교검정 : t.test(연속변수~범주형변수, data= )

단측검정 : 기각역이 한쪽에만 있는 경우, alternative=c("less") 혹은 alternative=c("greater")

t.test(G3~address, data=stud, alternative = c("less"))

p-value=0.018로 유의수준을 0.05로 했을때 성적(Rural)<성적(Urban)이라고 할 수 있다.

 

- 두집단 표본평균 비교 도움말 보기 : help(t.test)

 

- 두집단 표본평균 비교검정 : t.test(타겟변수~범주형변수, data= )

가설3 : 방과후 활동여부(yes, no)에 따른 G3(최종성적) 평균에 차이가 있는가?

t.test(G3~activities, data=stud)
boxplot(G3~activities, boxwex = 0.5, col = c("blue", "red"))

상자그림(Boxplot)에서 보면 방과후 활동여부는 G3(성적)과 뚜렷한 차이를 볼수 없음

 

[t-test 검정통계량에 의한 결과]

Welch Two Sample t-test

data:  G3 by activities
t = -0.31944, df = 392.98, p-value = 0.7496
alternative hypothesis: true difference in means is not equal to 0  양측검정
95 percent confidence interval:
-1.0542623  0.7595503
sample estimates:
mean in group no mean in group yes 
10.34021          10.48756 

p-value=0.75는 유의수준 0.05보다 큽니다.

즉 검정통계량의 값이 기각역에 있지 않다.

=> 귀무가설(평균이 같다)를 기각할 수 없음

=> 방과후활동여부는 G3에 유의한 영향이 없다!

 

평균(G3(방과후활동없음)-G3(방과후활동)) 차이에 대한 신뢰구간 = (-1.05, 0.79)

                                                                                 신뢰구간 사이에 0값이 있다는 것은 차이無

 

- 두 모집단의 비모수적 방법 (Wilcoxon rank sum Test) : wilcox.test(x,y)

wilcox.test는 타켓변수가 등간척도(통증정도, 만족도, ..)일때 사용할 수 있다

wilcox.test(G3~address)

wilcox.test(타겟변수~범주형변수)

 

[결과]
Wilcoxon rank sum test with continuity correction

data:  G3 by address
W = 11278, p-value = 0.01776
alternative hypothesis: true location shift is not equal to 0

 

 

help(wilcox.test)