본문 바로가기

공부/R & Python60

14-3. 로지스틱 회귀분석(Logistic Regression) 14-3. 로지스틱 회귀분석 (Logistic Regression) 1) 로지스틱 회귀모형 Y : Remiss (0, 1) 2020. 3. 5.
14-2. 연관규칙 분석 2 14-2. 연관규칙 분석 2 1) 연관규칙 - 데이터 설명 (Groceries) Groceries data ("arules" package에 탑재되있는 데이터) - data("Groceries")으로 불러옴 - 실제 식료품점에서 1개월(30일)치의 transaction 데이터 - 9835트랜잭션 / 169 항목 - 밀도가 0.026%라고 되어 있는데, 9335*169 cell 중에서 0.026%의 cell에 거래가 발생해 숫자가 차 있다는 뜻임 - Element(itemset/transaction) length distribution : 하나의 거래 장바구니(row 1개 당)에 item의 개수 별로 몇번의 거래가 있었는지 나타냄 - Groceries data - transaction 데이터 - trans.. 2020. 3. 5.
14-1. 연관규칙과 로지스틱회귀분석-연관규칙 분석 1(Association Rule Analysis) 14. 연관규칙과 로지스틱회귀분석 14-1. 연관규칙 분석 1 (Association Rule Analysis) 1) 연관규칙 - 연관규칙 (Association Rule) - 대용량 데이터베이스의 트랜잭션에서 빈번하게 발생하는 패턴을 발견 - 거래간의 상호 관련성을 분석 A사건 -> B사건 A가 일어나면 B가 일어난다 - 연관규칙 예시 - 신발을 구매하는 고객의 10%는 양말을 동시에 구입한다. - 빵과 우유를 구매한 고객의 50%가 쥬스도 함께 구매한다. - 시장바구니(market basket) : 고객이 구매한 물품에 대한 정보 (구매 시기, 지불 방법, 매장정보 포함) - 트랜잭션(transaction) : 고객이 거래한 정보를 하나의 트랜잭션 - 시장바구니 분석(market basket anal.. 2020. 3. 5.
13-3. 군집분석 - 비계층적 군집분석 - 13-3. 군집분석 - 비계층적 군집분석 - 1) 비계층적 군집분석 - 사전에 군집 수 k를 정한 후 각 객체를 k개 중 하나의 군집에 배정 2) k-means 군집분석 - k-means 군집분석은 비계층적 군집분석 중 가장 널리 사용 - k개 군집의 중심좌표를 고려하여 각 객체를 가장 가까운 군집에 배정하는 것을 반복 [단계 0] (초기 객체 선정) k개 객체 좌표를 초기 군집 중심좌표로 선정 [단계 1] (객체 군집 배정) 각 객체와 k개 중심좌표와의 거리 산출 후, 가장 가까운 군집에 객체 배정 [단계 2] (군집 중심좌표 산출) 새로운 군집의 중심좌표 산출 [단계 3] (수렴 조검 점검) 새로 산출된 중심 좌표값과 이전 좌표값을 비교 수렴 조건 내에 들면 종료, 그렇지 않으면 단계 1 반복 3) .. 2020. 3. 5.
13-2. 군집분석 - 계층적 군집분석 - 13-2. 군집분석 - 계층적 군집분석 - 1) 계층적 군집분석 - 사전에 군집 수 k를 정하지 않고 단계적으로 군집을 형성한다. - 유사한 객체들을 군집으로 묶고, 그 군집을 기반으로 그와 유사한 군집을 새로운 군집으로 묶어 가면서 군집을 계층적으로 구성함 2) 단일연결법 - 군집 i와 군집 j의 유사성 척도로 두 군집의 모든 객체 쌍의 거리 중 가장 가까운 거리를 사용 - 객체 쌍의 가장 짧은 거리가 작을수록 두 군집이 더 유사하다고 평가 3) 그 외 연결법 4) 단일연결법 예제 - 단일연결법을 사용한 군집화 과정 (유클리디안 거리 사용) - 덴드로그램은 군집 그룹과 유사성 수준을 표시하는 트리 다이어그램 - 군집이 어떻게 형성되는지 확인하고 형성된 군집의 유사성 수준을 평가 5) 완전연결법 vs 평.. 2020. 3. 5.
13-1. 군집분석-군집분석과 유사성척도 13. 군집분석 13-1. 군집분석과 유사성척도 1) 군집분석 - 군집분석은 비지도학습(Unsupervised Learning) : 속성변수들의 특징으로 그룹화 - 군집분석(cluster analysis)이란, 유사한 속성을 가진 객체들을 군집(cluster)으로 나누는(묶어주는) 데이터마이닝 기법 - 예제 : 고객들의 구매패턴을 반영하는 속성들에 관한 데이터가 수집된다고 할 때 => 군집분석을 통해 유사한 구매패턴을 보이는 고객들을 군집화하고 판매전략을 도출 2) 군집분석 종류 - 군집분석의 방법은 (1) 계층적 방법과 (2) 비계층적 방법으로 구분 군집분석 - 유사성척도의 계산- 1) 유사성 척도 - 객체 간의 유사성 정도를 정량적으로 나타내기 위해서 척도가 필요 - 거리(distance) 척도 거리.. 2020. 3. 5.