본문 바로가기

공부83

13-3. 군집분석 - 비계층적 군집분석 - 13-3. 군집분석 - 비계층적 군집분석 - 1) 비계층적 군집분석 - 사전에 군집 수 k를 정한 후 각 객체를 k개 중 하나의 군집에 배정 2) k-means 군집분석 - k-means 군집분석은 비계층적 군집분석 중 가장 널리 사용 - k개 군집의 중심좌표를 고려하여 각 객체를 가장 가까운 군집에 배정하는 것을 반복 [단계 0] (초기 객체 선정) k개 객체 좌표를 초기 군집 중심좌표로 선정 [단계 1] (객체 군집 배정) 각 객체와 k개 중심좌표와의 거리 산출 후, 가장 가까운 군집에 객체 배정 [단계 2] (군집 중심좌표 산출) 새로운 군집의 중심좌표 산출 [단계 3] (수렴 조검 점검) 새로 산출된 중심 좌표값과 이전 좌표값을 비교 수렴 조건 내에 들면 종료, 그렇지 않으면 단계 1 반복 3) .. 2020. 3. 5.
13-2. 군집분석 - 계층적 군집분석 - 13-2. 군집분석 - 계층적 군집분석 - 1) 계층적 군집분석 - 사전에 군집 수 k를 정하지 않고 단계적으로 군집을 형성한다. - 유사한 객체들을 군집으로 묶고, 그 군집을 기반으로 그와 유사한 군집을 새로운 군집으로 묶어 가면서 군집을 계층적으로 구성함 2) 단일연결법 - 군집 i와 군집 j의 유사성 척도로 두 군집의 모든 객체 쌍의 거리 중 가장 가까운 거리를 사용 - 객체 쌍의 가장 짧은 거리가 작을수록 두 군집이 더 유사하다고 평가 3) 그 외 연결법 4) 단일연결법 예제 - 단일연결법을 사용한 군집화 과정 (유클리디안 거리 사용) - 덴드로그램은 군집 그룹과 유사성 수준을 표시하는 트리 다이어그램 - 군집이 어떻게 형성되는지 확인하고 형성된 군집의 유사성 수준을 평가 5) 완전연결법 vs 평.. 2020. 3. 5.
13-1. 군집분석-군집분석과 유사성척도 13. 군집분석 13-1. 군집분석과 유사성척도 1) 군집분석 - 군집분석은 비지도학습(Unsupervised Learning) : 속성변수들의 특징으로 그룹화 - 군집분석(cluster analysis)이란, 유사한 속성을 가진 객체들을 군집(cluster)으로 나누는(묶어주는) 데이터마이닝 기법 - 예제 : 고객들의 구매패턴을 반영하는 속성들에 관한 데이터가 수집된다고 할 때 => 군집분석을 통해 유사한 구매패턴을 보이는 고객들을 군집화하고 판매전략을 도출 2) 군집분석 종류 - 군집분석의 방법은 (1) 계층적 방법과 (2) 비계층적 방법으로 구분 군집분석 - 유사성척도의 계산- 1) 유사성 척도 - 객체 간의 유사성 정도를 정량적으로 나타내기 위해서 척도가 필요 - 거리(distance) 척도 거리.. 2020. 3. 5.
12-3. 랜덤포레스트 (Random Forest) 12-3. 랜덤포레스트 (Random Forest) 1) 랜덤포레스트 (Random Forest) - 모형설명 - 랜덤포레스트 (Random Forest) - 2001년에 Leo Breiman에 의해 제안된 기법 의사결정나무의 단점(과적합)을 개선한 알고리즘 - Ensemble 기법을 사용한 모델로서 주어진 데이터로 리샘플링을 통해 다수의 의사결정나무를 만든 다음, 여러 모델의 예측 결과들을 종합해 정확도를 높이는 방법 training data로부터 표본의 크키가 n인 bootstrap sample을 추출 -> tree모형 구성 (tree1, tree2, ... treek) -> 각 모델 tree들의 앙상블 결과를 출력 - Bagging(Bootstrap Aggregating) - 전체 데이터에서 학습데.. 2020. 3. 4.
11-2. 의사결정나무 (Decision Tree) 2 11-2. 의사결정나무 (Decision Tree) 2 2) 의사결정나무 - rpart 패키지 - 의사결정나무 실행패키지 : rpart, party 패키지 (tree패키지 외 사용) install.packages("rpart") install.packages("party") library(rpart) library(party) - 의사결정나무 함수 : rpart (종속변수~x1+x2+x3+x4, data= ) cl1 데이터에 따라 부가적인 가지치기가 필요할 수도 있음 *tree패키지에서 pruning한 결과와 동일 - rpart패키지는 과적합의 우려과 있으므로 pruning을 해줘야 함(iris의 경우 필요없음) - printcp에서 xerror(cross validation error)의 값이 최소가 .. 2020. 3. 4.
12-1. 의사결정나무와 랜덤 포레스트-의사결정나무 (Decision Tree) 1 12. 의사결정나무와 랜덤 포레스트 12-1. 의사결정나무 (Decision Tree) 1 1) 의사결정나무 (Decision Tree) - 의사결정나무 (Decision Tree) 기계학습 중 하나로 의사결정 규칙을 나무 형태로 분류해나가는 분석 기법 분석에 있어 가장 중요한 변수가 먼저 선택됨(root node) 분류 기준값은 분순률을 최소화하도록 정해짐 - 분석 과정이 직관적이고 이해하기 쉬움 - 연속성/범주형 변수를 모두 사용할 수 있음 - 분지규칙은 불순도를 최소화 시킴 범주들이 섞여있는 정도 Step 1 : tree 형성 (Growing tree) -> 과적합 문제 Step 2 : tree 가지치기 (pruning tree) Step 3 : 최적 tree로 분류 (classification) .. 2020. 3. 4.