본문 바로가기

공부/R & Python60

7-4. 이원분산분석 (two-way ANOVA) 7-4. 이원분산분석 (two-way ANOVA) two-way -> factor가 2개 1) 이원분산분석 (two-way ANOVA) - ANOVA (Analysis of Variance) : 전체분산(variance)을 분할(분석, analysis)하여 어떤 요인(factor)의 영향이 유의한지(significant) 검정하는 방법. - 데이터 : High-Density Lipoprotein (HDL) 콜레스테롤 chol_ex.csv 1. ID 2. drug : 5mg, 10mg, placebo 3. age : young(18-39), old(>=40세) 4. value : HDL(투약전)-HDL(투약후) *HDL(고밀도 리포 단백질)은 높을수록 좋은것으로 알려진 콜레스테롤. 40mg/dl이상이 정상.. 2020. 2. 16.
7-3. 분산분석 (ANOVA) (Analysis or Variance) 7-3. 분산분석 (ANOVA) (Analysis or Variance) 1) 분산분석의 개념 - ANOVA (Analysis or Variance) : 전체분산(variance)을 분할(분석, analysis)하여 어떤 요인(factor)의 영향이 유의한지(significant) 검정하는 방법. 2) 분산분석 : factor가 한개일때 - 분산분석모형 적용 (1) 거주지역에 따른 학업성취도 : 거주지역(factor: R/U), 학업성적(1-20) (2) 통학시간에 따른 학업성취도 : 통학시간(factor: 1-4), 학업 성적(1-20) par(mfrow=c(1,2)) boxplot(G3~address, boxwex = 0.5, col = c("yellow", "coral"), main="G3 by (.. 2020. 2. 16.
7-2. 짝을 이룬 그룹간 비교 (paired t-test) 7-2. 짝을 이룬 그룹간 비교 (paired t-test) 1) 짝을 이룬 그룹간 비교 (paired t-test) - 특정 처리(treatment)의 효과를 비교분석할 때 사용 - 동일한 실험표본 : before & after 측정 예제 : (1) 혈압강하제의 투약효과 (2) 방과후프로그램의 성과 (학업흥미도) (3) 다이어트 프로그램의 효과 (4) 직무교육 후의 생산성 향상의 효과 평균, 편차 계산 => 검정통계량 - 예제 1 : 고혈압 환자 10명에게 혈압강하제를 12주동안 투여한 후 복용전의 혈압과 복용후의 혈압을 비교하였다. 새로운 혈압강하제가 효과가 있다고 할 수 있는가? 짝을 이룬 그룹간 비교 (paired t-test) - paired t-test : t.test(before, after.. 2020. 2. 16.
7-1. R을 이용한 통계 분석-두그룹간 평균비교(t-test) 7. R을 이용한 통계 분석 7-1. 두그룹간 평균비교(t-test) - 모수 : 분포가 알려져있을때 사용 - 비모수 : 분포가 알려져있지 않을때 사용 - t-test : 두 집단간 비교 - ANOVA : 세 집단간 비교 1) 단일표본의 평균검정 - 단일표본의 평균검정 : t.test(변수, mu=검정하고자 하는 평균값) 가설 1 : G3(최종성적)의 평균은 10인가? H0(null Hypothesis : 귀무가설) : mu=10) setwd("D:/R files/week7_1") stud 방과후활동여부는 G3에 유의한 영향이 없다! 평균(G3(방과후활동없음)-G3(방과후활동)) 차이에 대한 신뢰구간 = (-1.05, 0.79) 신뢰구간 사이에 0값이 있다는 것은 차이無 - 두 모집단의 비모수적 방법 (.. 2020. 2. 16.
6-4. 데이터의 정규성검정과 신뢰구간 6-4. 데이터의 정규성검정과 신뢰구간 1) 데이터 설명 - stud_math 데이터 : 포루투칼의 고등학생 수학성적 (stud_math_desc.doc참고) 2) 데이터의 정규성 검정 - 정규확률도 (Normal Q-Q plot) : 데이터가 정규분포하는가? par(mfrow=c(2,2)) qqnorm(G1) qqline(G1, col = 2, cex=7) qqnorm(G2) qqline(G2, col = 2, cex=7) qqnorm(G3) qqline(G3, col = 2, cex=7) qqline의 디폴트는 정규분포의 1사분위, 3사분위를 직선 qqline(y, distribution = qqnorm, probs = c(0.25, 0.755)) - 정규분포 : 확률변수 X의 확률 밀도함수가 다음과.. 2020. 2. 15.
6-3. 그래프를 이용한 데이터 탐색 6-3. 그래프를 이용한 데이터 탐색 1) 데이터 설명 - stud_math 데이터 : 포루투칼의 고등학생 수학성적 (stud_math_decs.doc참고) 2) 그래프를 이용한 데이터탐색 - 히스토그램 (1학년, 2학년, 3학년 성적의 분포) par(mfrow=c(2,2)) hist(G1, breaks = 10, col = "lightblue", main="Histogram of Grade 1" ) hist(G2, breaks = 10, col = "green", main="Histogram of Grade 2" ) hist(G3, breaks = 10, col = "coral", main="Histogram of Grade 3" ) - 상자그림 (거주지역에 따른 G3, 통학시간에 따른 G3) par(.. 2020. 2. 15.