9. 데이터 마이닝 기초
9-1. 데이터마이닝과 예측 (다중회귀분석1)
1) 데이터마이닝 기법
- 예측과 분류 : 종속변수 y 有
- 군집과 연관규칙 : 종속변수 y 無 , x값의 속성 변수만 有
- 데이터마이닝, 통계모델, 기계학습, 인공지능...
2) 다중회귀분석
- 다중회귀모형(multiple regression)
- 종속변수 Y를 설명하는데 k개의 독립변수 X1, ..., Xk가 있을 때 다중회귀모형은 다음과 같이 정의
- autompg 데이터
Y 종속변수 : mpg (연비)
X 독립변수 : displacement (배기량), horsepower (마력), weight (무게), acceleration (가속)
- 다중회귀모형 : lm(y변수~x1+x2+x3, data= )
1st model : 전체변수를 모두 포함한 회귀모형
r1<-lm(mpg ~ disp+hp+wt+accler, data=car)
summary(r1)
[요약 결과]
Call:
lm(formula = mpg ~ disp + hp + wt + accler, data = car)
Residuals:
Min 1Q Median 3Q Max
-11.8331 -2.8735 -0.3164 2.4449 16.2079
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.8838025 1.9966258 20.476 < 2e-16 ***
disp -0.0106291 0.0065254 -1.629 0.1041
hp 0.0047774 0.0082597 0.578 0.5633
wt -0.0061405 0.0007449 -8.243 2.54e-15 ***
accler 0.1722165 0.0976340 1.764 0.0785 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.298 on 393 degrees of freedom
Multiple R-squared: 0.7006, Adjusted R-squared: 0.6976
F-statistic: 230 on 4 and 393 DF, p-value: < 2.2e-16
선형회귀식 mpg = 40.88 - 0.011 disp + 0.0048 hp - 0.0061 wt + 0.17 accler
선형회귀식의 결정계수 R^2=0.7006 (y의 변동률을 x변수들이 얼마나 잘 설명하는지)
- 다중회귀모형 : 데이터탐색(Explanatory Data Analysis)
var1<-c("mpg","disp","hp","wt", "accler" )
pairs(car[var1], main ="Autompg",cex=1, col=as.integer(car$cyl))
배기량(disp)과 연비(MPG)의 관계는? 마이너스 관계
마력(hp)과 연비(MPG)의 관계는? 마이너스 관계, 회귀계수에서는 플러스 나왔음
차량무게(wt)와 연비(MPG)의 관계는? 마이너스 관계
'공부 > R & Python' 카테고리의 다른 글
9-3. 데이터마이닝과 분류 (분류규칙과 과적합) (0) | 2020.02.24 |
---|---|
9-2. 데이터마이닝과 예측 (다중회귀분석2) (0) | 2020.02.18 |
8-4. 텍스트마이닝2 (0) | 2020.02.17 |
8-3. 텍스트마이닝1 (0) | 2020.02.17 |
8-2. 회귀분석 (선형모형) (0) | 2020.02.17 |