본문 바로가기

분류 전체보기130

15-2. 주성분 회귀분석(Principle Component Regression) 15-2. 주성분 회귀분석 (Principle Component Regression) 1) 주성분회귀 (Principle Component Regression) - 독립변수들의 차원을 줄이기 위해 사용가능, 주성분을 이용하여 타겟변수(Y)의 설명력(예측력)을 높일 수 있다. - 독립변수들의 전체분산을 가장 잘 설명해주는 component를 사용하여 독립변수들간 다중공선성 문제를 해결할 수 있다. - 주요 component score들이 Y의 예측력을 보장하는 것이 아니다. 주요 component score는 X의 분산을 가장 잘 설명하는 방향의 축을 기준으로 변환된 것이기 때문에 Y와의 관계에 있어서는 상관성이 없을 수도 있다. - wine데이터 (9개의 독립변수, 타겟변수는 Aroma rating) 9.. 2020. 3. 6.
15-1. 주성분 분석과 부분 최소자승법-주성분분석(Principle Component Analysis) 15. 주성분 분석과 부분 최소자승법 15-1. 주성분분석 (Principle Component Analysis) 1) 주성분분석 (Principle Component Analysis) - 다변량분석기법 - '주성분'이라고 불리는 선형조합으로 표현하는 기법 - 여기서 주성분은 공분산(X^TX)으로부터 eigenvector와 eigenvalue를 도출하여 계산됨 - 주성분간의 수직관계 - 1st 주성분 (PC1) : 독립변수들의 변동(분산)을 가장 많이 설명하는 성분 - 2st 주성분 (PC2) : PC1과 수직인 주성분 (첫번째 주성분이 설명하지 못하는 변동에 대해 두번째로 설명하는 성분) - iris데이터(4개변수)의 주성분분석 - 차원축소 & 예측력 향상 - iris데이터(4개변수)의 주성분 도출 -.. 2020. 3. 6.
14-3. 로지스틱 회귀분석(Logistic Regression) 14-3. 로지스틱 회귀분석 (Logistic Regression) 1) 로지스틱 회귀모형 Y : Remiss (0, 1) 2020. 3. 5.
14-2. 연관규칙 분석 2 14-2. 연관규칙 분석 2 1) 연관규칙 - 데이터 설명 (Groceries) Groceries data ("arules" package에 탑재되있는 데이터) - data("Groceries")으로 불러옴 - 실제 식료품점에서 1개월(30일)치의 transaction 데이터 - 9835트랜잭션 / 169 항목 - 밀도가 0.026%라고 되어 있는데, 9335*169 cell 중에서 0.026%의 cell에 거래가 발생해 숫자가 차 있다는 뜻임 - Element(itemset/transaction) length distribution : 하나의 거래 장바구니(row 1개 당)에 item의 개수 별로 몇번의 거래가 있었는지 나타냄 - Groceries data - transaction 데이터 - trans.. 2020. 3. 5.
14-1. 연관규칙과 로지스틱회귀분석-연관규칙 분석 1(Association Rule Analysis) 14. 연관규칙과 로지스틱회귀분석 14-1. 연관규칙 분석 1 (Association Rule Analysis) 1) 연관규칙 - 연관규칙 (Association Rule) - 대용량 데이터베이스의 트랜잭션에서 빈번하게 발생하는 패턴을 발견 - 거래간의 상호 관련성을 분석 A사건 -> B사건 A가 일어나면 B가 일어난다 - 연관규칙 예시 - 신발을 구매하는 고객의 10%는 양말을 동시에 구입한다. - 빵과 우유를 구매한 고객의 50%가 쥬스도 함께 구매한다. - 시장바구니(market basket) : 고객이 구매한 물품에 대한 정보 (구매 시기, 지불 방법, 매장정보 포함) - 트랜잭션(transaction) : 고객이 거래한 정보를 하나의 트랜잭션 - 시장바구니 분석(market basket anal.. 2020. 3. 5.
13-3. 군집분석 - 비계층적 군집분석 - 13-3. 군집분석 - 비계층적 군집분석 - 1) 비계층적 군집분석 - 사전에 군집 수 k를 정한 후 각 객체를 k개 중 하나의 군집에 배정 2) k-means 군집분석 - k-means 군집분석은 비계층적 군집분석 중 가장 널리 사용 - k개 군집의 중심좌표를 고려하여 각 객체를 가장 가까운 군집에 배정하는 것을 반복 [단계 0] (초기 객체 선정) k개 객체 좌표를 초기 군집 중심좌표로 선정 [단계 1] (객체 군집 배정) 각 객체와 k개 중심좌표와의 거리 산출 후, 가장 가까운 군집에 객체 배정 [단계 2] (군집 중심좌표 산출) 새로운 군집의 중심좌표 산출 [단계 3] (수렴 조검 점검) 새로 산출된 중심 좌표값과 이전 좌표값을 비교 수렴 조건 내에 들면 종료, 그렇지 않으면 단계 1 반복 3) .. 2020. 3. 5.