본문 바로가기

공부/R & Python60

10-4. 판별분석(Discriminant Analysis) 2 - 이차판별분석 - 10-4. 판별분석(Discriminant Analysis) 2 - 이차판별분석 - 4) 선형판별분석 vs 이차판별분석 5) 이차판별분석(QDA) - 모집단 등분산 검정 분산-공분산 행렬이 범주별로 다른 경우, 이차판별분석(QDA)을 실시 => Box's M-test 귀무가설 : 모집단의 분산-공분산 행렬이 동일 대립가설 : 모집단의 분산-공분산 행렬이 동일 X 등분산검정을 위한 패키지 : biotools install.packages("biotools") library(biotools) boxM(iris[1:4], iris$Species) [출력 결과] Box's M-test for Homogeneity of Covariance Matrices data: iris[1:4] Chi-Sq (approx.).. 2020. 3. 3.
10-3. 판별분석(Discriminant Analysis) 1 -선형판별분석- 10-3. 판별분석(Discriminant Analysis) 1 -선형판별분석- 1) 판별분석 · 판별분석(Discriminant Analysis) - 객체를 몇 개의 범주로 분류 - 범주들을 가장 잘 구분하는 변수 파악 및 범주간 차이를 가장 잘 표현하는 함수 도출 2) 예제 데이터 - Iris 데이터 train/test 분할 iris 2020. 3. 3.
10-2. k-인접기법(k-Nearest Neighbor) 2(최적 k 탐색과 가중치 k-인접기법) 10-2. k-인접기법(k-Nearest Neighbor) 2 (최적 k 탐색과 가중치 k-인접기법) 6) kNN에서 최적 k 탐색 - 최적 k의 탐색 : 1 to nrow(train_data)/2 (여기서는 1 to 50 까지) accuracy_k 2020. 2. 26.
10-1. k-인접기법과 판별분석-k-인접기법(k-Nearest Neighbor) 10. k-인접기법과 판별분석 10-1. k-인접기법(k-Nearest Neighbor) 1) 분류 (Classification) - 분류(Classification) - 지도학습(Supervised Learning). 타켓범주를 알고 있는 데이터로 분류규칙을 생성하고 새로운 데이터를 특정범주에 분류하는 기법 - 군집화(Clustering) - 비지도학습(Unsupervised Learning). 독립변수들의 속성을 기반으로 객체들을 그룹화하는 방법 2) k-인접기법 (k-nearest neighbor method) k-인접방법 (kNN) : k개의 가장 가까운 이웃들을 사용해서 분류하는 방법 최적 k는? - k가 너무 크면 데이터 구조를 파악하기 어렵고, 너무 작으면 과적합(overfitting) 위험.. 2020. 2. 26.
9-4. 데이터마이닝과 분류 (학습데이터와 검증데이터) 9-4. 데이터마이닝과 분류 (학습데이터와 검증데이터) 3) iris 데이터설명 - Iris 데이터 (붓꽃 데이터) 1. 꽃잎의 폭과 길이에 대한 4개 변수로 꽃의 종류(setosa, versicolor, virginica)를 예측하는 것이 목적 2. 타겟변수(y) : setosa, versicolor, virginica Iris setosa, Iris versicolor, Iris virginica => 데이터마이닝 : 분류(classification) - iris 데이터 (iris.csv) Sepal.Length, Sepal.Width, Petal.Length, Petal.Width => input변수(독립변수) Species => output변수(종속변수, 타겟변수) 4) 학습데이터와 검증데이터 -.. 2020. 2. 24.
9-3. 데이터마이닝과 분류 (분류규칙과 과적합) 9-3. 데이터마이닝과 분류 (분류규칙과 과적합) 2) 분류 (Classification) - 분류분석 (classification analysis)은 다수의 속성 (attribute)을 갖는 객체 (object)를 그룹 또는 범주 (class, category) 로 분류 - 학습표본 (training sample)으로부터 효율적인 분류규칙 (classification rule)을 생성 오분류율 최소화 (cost function을 최소화) - 분류규칙 이동통신회사 선호도 조사 (n=9), 타켓변수(선호통신사)=A, B - 오분류율(Misclassification rate) 오분류율 = 오분류 객체수/전체 객체수 = 2/9 = 0.22 - 과적합(overfitting) 앞의 분류문제에 대해서 (분류규칙 2.. 2020. 2. 24.