본문 바로가기
공부/R & Python

9-1. 데이터 마이닝 기초-데이터마이닝과 예측 (다중회귀분석1)

by 드인 2020. 2. 17.

9. 데이터 마이닝 기초

9-1. 데이터마이닝과 예측 (다중회귀분석1)


1) 데이터마이닝 기법

- 예측과 분류 : 종속변수 y 有

- 군집과 연관규칙 : 종속변수 y 無 , x값의 속성 변수만 有

 

 

- 데이터마이닝, 통계모델, 기계학습, 인공지능...

 

2) 다중회귀분석

- 다중회귀모형(multiple regression)

- 종속변수 Y를 설명하는데 k개의 독립변수 X1, ..., Xk가 있을 때 다중회귀모형은 다음과 같이 정의

- autompg 데이터

 Y 종속변수 : mpg (연비)

 X 독립변수 : displacement (배기량), horsepower (마력), weight (무게), acceleration (가속)

 

- 다중회귀모형 : lm(y변수~x1+x2+x3, data= )

1st model : 전체변수를 모두 포함한 회귀모형

r1<-lm(mpg ~ disp+hp+wt+accler, data=car)
summary(r1)

 

[요약 결과]

Call:
lm(formula = mpg ~ disp + hp + wt + accler, data = car)

Residuals:
      Min       1Q   Median       3Q      Max 
-11.8331  -2.8735  -0.3164   2.4449  16.2079 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept) 40.8838025  1.9966258  20.476  < 2e-16 ***
disp         -0.0106291  0.0065254  -1.629   0.1041    
hp            0.0047774  0.0082597   0.578   0.5633    
wt           -0.0061405  0.0007449  -8.243 2.54e-15 ***
accler        0.1722165  0.0976340   1.764   0.0785 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.298 on 393 degrees of freedom
Multiple R-squared:  0.7006, Adjusted R-squared:  0.6976 
F-statistic: 230 on 4 and 393 DF,  p-value: < 2.2e-16

선형회귀식 mpg = 40.88 - 0.011 disp + 0.0048 hp - 0.0061 wt + 0.17 accler

선형회귀식의 결정계수 R^2=0.7006 (y의 변동률을 x변수들이 얼마나 잘 설명하는지)

 

- 다중회귀모형 : 데이터탐색(Explanatory Data Analysis)

var1<-c("mpg","disp","hp","wt", "accler" )
pairs(car[var1], main ="Autompg",cex=1, col=as.integer(car$cyl))

 

배기량(disp)과 연비(MPG)의 관계는?  마이너스 관계

마력(hp)과 연비(MPG)의 관계는?       마이너스 관계, 회귀계수에서는 플러스 나왔음

차량무게(wt)와 연비(MPG)의 관계는?  마이너스 관계