본문 바로가기
공부/R & Python

8-1. 선형 회귀모형과 텍스트 마이닝-상관분석

by 드인 2020. 2. 17.

8. 선형 회귀모형과 텍스트 마이닝

8-1. 상관분석


1) 상관분석 : 상관계수

- 상관계수 : cor(변수1, 변수2)

setwd("D:/R files/week8_1")
car<-read.csv("autompg.csv")
car1<-subset(car, cyl==4 | cyl==6 | cyl==8)
attach(car1)

 

cor(wt, mpg)           wt와 mpg는 음의 상관관계
cor(disp, mpg)
cor(accler, mpg)

cor의 디폴트는 pearson의 상관계수

kendall의 상관계수 혹은 spearman의 상관계수를 구할때는

cor(변수1, 변수2, method=c("spearman")

 

- 상관계수와 산점도

vars1<-c("disp", "wt", "accler", "mpg")

pairs(car1[vars1], main ="Autompg",cex=1, col=as.integer(car1$cyl),pch =substring((car1$cyl),1,1))

(1) 차량무게와 배기량과는 정비례관계 (양의 상관계수)

(2) MPG(연비)와 (wt, disp)는 상관성이 높다 (반비례 음의 상관계수)

(3) cylinder별로 색으로 표시 (파란색:4, 진한핑크:6, 회색:8)

 

2) 상관분석 - 상관계수와 산점도

- 상관계수(r)은 절대값이 0-1사이 값을 갖는다

절대값이 0에 가까울수록 상관관계가 없다

절대값이 1에 가까울수록 강한 상관성이 있다

 

3) 통계치와 그래프 : 주의!!

- 통계치와 그래프 - Monkey 데이터 + King Kong 한마리

cor(height, weight)   상관계수 : 0.53

 

par(mfrow=c(1, 1))
plot(height, weight, pch=16, col=3,main="Monkey data")

abline(lm(weight~height), col="blue", lwd=2, lty=1)

weight와 height간 상관계수는 0.53으로 별로 높지 않다

 

monkey1<-read.csv("monkey_k.csv")
head(monkey1)
dim(monkey1)
attach(monkey1)

 

cor(height, weight)     상관계수 : 0.94

 

par(mfrow=c(1, 1))
plot(height, weight, pch=16, col=3,main="Monkey data")

abline(lm(weight~height), col="red", lwd=2, lty=1)

한 마리의 킹콩 데이터가 몸무게가 신자으이 상관관계에 대한 해석을 완전히 바꿔놓을 수 있다!!

 

- 선형회귀식 - Monkey 데이터 + King Kong 한마리

m2<-lm(weight~height)
summary(m2)

 

[요약 결과]

Call:
  lm(formula = weight ~ height)

Residuals:
  Min      1Q  Median      3Q     Max 
-14.219  -7.298  -2.372   8.243  18.706 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -30.2495     5.8203  -5.197 5.13e-05 ***
height        1.3078     0.1085  12.051 2.41e-10 ***
  ---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.646 on 19 degrees of freedom
Multiple R-squared:  0.8843, Adjusted R-squared:  0.8782 
F-statistic: 145.2 on 1 and 19 DF,  p-value: 2.412e-10

선형회귀식 Y(weight)=030.25+1.31X(height)

선형회귀식의 결정계수 R^2=0.88

 

- 선형회귀식 - Monkey 데이터 

원래 Monkey 데이터의 경우

선형회귀식 Y(weight)=2.74+ 0.58X(height)

선형회귀식의 결정계수 R^2=0.27