본문 바로가기

분류 전체보기130

관계형 데이터 모델링 (1) 1) 데이터 모델링의 순서 업무파악 -> 개념적 데이터 모델링 -> 논리적 데이터 모델링 -> 물리적 데이터 모델링 2) 업무파악 기획서 https://ovenapp.io/view/EuTjedDvHdhBQLoxthGrqvBlGp1jBJj6/XDCP1 저자참여 (3 of 3) 관계형 데이터 모델링 ovenapp.io ovenapp 3) 개념적 데이터 모델링 (1) 개념적 데이터 모델링 소개 - 파악한 업무에서 개념을 뽑아내는 과정 - 현실에서 개념을 추출하는 일종의 필터 제공 - 개념에 대해 다른 사람과 소통할 수 있는 언어 => 이 목적을 이루게 해주는 도구 : Entity Relationship Diagram - 3개의 관점 : 정보, 그룹, 관계 - eid는 매우 쉽게 표로 전환 가능 (2) 관계형 .. 2020. 2. 27.
10-2. k-인접기법(k-Nearest Neighbor) 2(최적 k 탐색과 가중치 k-인접기법) 10-2. k-인접기법(k-Nearest Neighbor) 2 (최적 k 탐색과 가중치 k-인접기법) 6) kNN에서 최적 k 탐색 - 최적 k의 탐색 : 1 to nrow(train_data)/2 (여기서는 1 to 50 까지) accuracy_k 2020. 2. 26.
10-1. k-인접기법과 판별분석-k-인접기법(k-Nearest Neighbor) 10. k-인접기법과 판별분석 10-1. k-인접기법(k-Nearest Neighbor) 1) 분류 (Classification) - 분류(Classification) - 지도학습(Supervised Learning). 타켓범주를 알고 있는 데이터로 분류규칙을 생성하고 새로운 데이터를 특정범주에 분류하는 기법 - 군집화(Clustering) - 비지도학습(Unsupervised Learning). 독립변수들의 속성을 기반으로 객체들을 그룹화하는 방법 2) k-인접기법 (k-nearest neighbor method) k-인접방법 (kNN) : k개의 가장 가까운 이웃들을 사용해서 분류하는 방법 최적 k는? - k가 너무 크면 데이터 구조를 파악하기 어렵고, 너무 작으면 과적합(overfitting) 위험.. 2020. 2. 26.
SQL join 1. 표 쪼개기 http://bit.ly/join-exec 모든 표는 하나의 주제만 가져야한다. 2. 실습준비 SQL Joins Visualizer https://sql-joins.leopard.in.ua/ SQL Joins Visualizer Please select how do you want to do SQL JOIN between two table sql-joins.leopard.in.ua - Left (outer) join produces a complete set of records from Table A, with the matching records (where available) in Table B. If there is no match, the right side will contain.. 2020. 2. 26.
9-4. 데이터마이닝과 분류 (학습데이터와 검증데이터) 9-4. 데이터마이닝과 분류 (학습데이터와 검증데이터) 3) iris 데이터설명 - Iris 데이터 (붓꽃 데이터) 1. 꽃잎의 폭과 길이에 대한 4개 변수로 꽃의 종류(setosa, versicolor, virginica)를 예측하는 것이 목적 2. 타겟변수(y) : setosa, versicolor, virginica Iris setosa, Iris versicolor, Iris virginica => 데이터마이닝 : 분류(classification) - iris 데이터 (iris.csv) Sepal.Length, Sepal.Width, Petal.Length, Petal.Width => input변수(독립변수) Species => output변수(종속변수, 타겟변수) 4) 학습데이터와 검증데이터 -.. 2020. 2. 24.
9-3. 데이터마이닝과 분류 (분류규칙과 과적합) 9-3. 데이터마이닝과 분류 (분류규칙과 과적합) 2) 분류 (Classification) - 분류분석 (classification analysis)은 다수의 속성 (attribute)을 갖는 객체 (object)를 그룹 또는 범주 (class, category) 로 분류 - 학습표본 (training sample)으로부터 효율적인 분류규칙 (classification rule)을 생성 오분류율 최소화 (cost function을 최소화) - 분류규칙 이동통신회사 선호도 조사 (n=9), 타켓변수(선호통신사)=A, B - 오분류율(Misclassification rate) 오분류율 = 오분류 객체수/전체 객체수 = 2/9 = 0.22 - 과적합(overfitting) 앞의 분류문제에 대해서 (분류규칙 2.. 2020. 2. 24.