8. 선형 회귀모형과 텍스트 마이닝
8-1. 상관분석
1) 상관분석 : 상관계수
- 상관계수 : cor(변수1, 변수2)
setwd("D:/R files/week8_1")
car<-read.csv("autompg.csv")
car1<-subset(car, cyl==4 | cyl==6 | cyl==8)
attach(car1)
cor(wt, mpg) wt와 mpg는 음의 상관관계
cor(disp, mpg)
cor(accler, mpg)
cor의 디폴트는 pearson의 상관계수
kendall의 상관계수 혹은 spearman의 상관계수를 구할때는
cor(변수1, 변수2, method=c("spearman")
- 상관계수와 산점도
vars1<-c("disp", "wt", "accler", "mpg")
pairs(car1[vars1], main ="Autompg",cex=1, col=as.integer(car1$cyl),pch =substring((car1$cyl),1,1))
(1) 차량무게와 배기량과는 정비례관계 (양의 상관계수)
(2) MPG(연비)와 (wt, disp)는 상관성이 높다 (반비례 음의 상관계수)
(3) cylinder별로 색으로 표시 (파란색:4, 진한핑크:6, 회색:8)
2) 상관분석 - 상관계수와 산점도
- 상관계수(r)은 절대값이 0-1사이 값을 갖는다
절대값이 0에 가까울수록 상관관계가 없다
절대값이 1에 가까울수록 강한 상관성이 있다
3) 통계치와 그래프 : 주의!!
- 통계치와 그래프 - Monkey 데이터 + King Kong 한마리
cor(height, weight) 상관계수 : 0.53
par(mfrow=c(1, 1))
plot(height, weight, pch=16, col=3,main="Monkey data")
abline(lm(weight~height), col="blue", lwd=2, lty=1)
weight와 height간 상관계수는 0.53으로 별로 높지 않다
monkey1<-read.csv("monkey_k.csv")
head(monkey1)
dim(monkey1)
attach(monkey1)
cor(height, weight) 상관계수 : 0.94
par(mfrow=c(1, 1))
plot(height, weight, pch=16, col=3,main="Monkey data")
abline(lm(weight~height), col="red", lwd=2, lty=1)
한 마리의 킹콩 데이터가 몸무게가 신자으이 상관관계에 대한 해석을 완전히 바꿔놓을 수 있다!!
- 선형회귀식 - Monkey 데이터 + King Kong 한마리
m2<-lm(weight~height)
summary(m2)
[요약 결과]
Call:
lm(formula = weight ~ height)
Residuals:
Min 1Q Median 3Q Max
-14.219 -7.298 -2.372 8.243 18.706
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2495 5.8203 -5.197 5.13e-05 ***
height 1.3078 0.1085 12.051 2.41e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.646 on 19 degrees of freedom
Multiple R-squared: 0.8843, Adjusted R-squared: 0.8782
F-statistic: 145.2 on 1 and 19 DF, p-value: 2.412e-10
선형회귀식 Y(weight)=030.25+1.31X(height)
선형회귀식의 결정계수 R^2=0.88
- 선형회귀식 - Monkey 데이터
원래 Monkey 데이터의 경우
선형회귀식 Y(weight)=2.74+ 0.58X(height)
선형회귀식의 결정계수 R^2=0.27
'공부 > R & Python' 카테고리의 다른 글
8-3. 텍스트마이닝1 (0) | 2020.02.17 |
---|---|
8-2. 회귀분석 (선형모형) (0) | 2020.02.17 |
7-4. 이원분산분석 (two-way ANOVA) (0) | 2020.02.16 |
7-3. 분산분석 (ANOVA) (Analysis or Variance) (0) | 2020.02.16 |
7-2. 짝을 이룬 그룹간 비교 (paired t-test) (0) | 2020.02.16 |