본문 바로가기

분류 전체보기130

9-2. 데이터마이닝과 예측 (다중회귀분석2) 9-2. 데이터마이닝과 예측 (다중회귀분석2) 3) 다중회귀분석 - 변수선택방법 - 변수선택방법 - 다수의 독립변수들이 있을때 최종모형은? (1) 전진선택법(forward selection) - 독립변수중에서 종속변수에 가장 큰 영향을 주는 변수부터 모형에 포함 (2) 후진제거법(backward elimination) - 독립변수를 모두 포함한 모형에서 가장 영향이 적은(중요하지 않은) 변수부터 제거 (3) 단계별 방법(stepwise method) - 전진선택법에 의해 변수 추가 - 변수 추가시 기존 변수의 중요도가 정해진 유의수준(threshold)에 포함되지 않으면 앞에서 들어간 변수도 다시 제거됨 단계별방법의 예제 모형에 포함되는 유의수준(0.15) 모형에서 제거되는 유의수준(0.15) step1.. 2020. 2. 18.
9-1. 데이터 마이닝 기초-데이터마이닝과 예측 (다중회귀분석1) 9. 데이터 마이닝 기초 9-1. 데이터마이닝과 예측 (다중회귀분석1) 1) 데이터마이닝 기법 - 예측과 분류 : 종속변수 y 有 - 군집과 연관규칙 : 종속변수 y 無 , x값의 속성 변수만 有 - 데이터마이닝, 통계모델, 기계학습, 인공지능... 2) 다중회귀분석 - 다중회귀모형(multiple regression) - 종속변수 Y를 설명하는데 k개의 독립변수 X1, ..., Xk가 있을 때 다중회귀모형은 다음과 같이 정의 - autompg 데이터 Y 종속변수 : mpg (연비) X 독립변수 : displacement (배기량), horsepower (마력), weight (무게), acceleration (가속) - 다중회귀모형 : lm(y변수~x1+x2+x3, data= ) 1st model : .. 2020. 2. 17.
8-4. 텍스트마이닝2 8-4. 텍스트마이닝2 6) 텍스트마이닝 : 함수 - 텍스트마이닝에서 사용되는 함수 crude[[1]] 데이터 : 첫번째 기사 (아래와 같은 XML파일 형태로 저장) str(crude[[1]]) content(crude[[1]]) meta(crude[[1]]) lapply(crude, content) - inspect 함수 inspect(crude[1:3]) 각 파일에 char숫자 inspect(crude[[1]]) 첫번째 파일의 내용을 보여줌 7) 텍스트마이닝 전처리 함수 - 텍스트 전처리 - 텍스트 전처리 : 문장부호 없애기 - tm)map(x, removePunctuation) crude 2020. 2. 17.
8-3. 텍스트마이닝1 8-3. 텍스트마이닝1 1) 텍스트마이닝이란? 텍스트마이닝 (Text mining) - 텍스트마이닝은 웹페이지, 이메일, 소셜네트워크 기록 등 전자문서 파일로부터 특정 연관성(동시적으로 빈도가 높은 단어추출)을 분석하는 방법 - 텍스트마이닝은 다양한방식의 알고리즘을 이용하여 대용량의 텍스트문서로부터 트렌드와 관심어를 찾아내는 기법으로 사용 2) 텍스트마이닝에 필요한 패키지 - 텍스트마이닝을 위한 패키지 # 자연어처리 install.packages('NLP') # 텍스트마이닝 패키지 install.packages('tm') # 텍스트마이닝 결과의 시각화 install.packages('wordcloud') - 그 외 패키지 #한글처리를 위한 패키지 install.packages("KoNLP") #트위터의 .. 2020. 2. 17.
8-2. 회귀분석 (선형모형) 8-2. 회귀분석 (선형모형) 1) 회귀분석 - 데이터 - autompg 데이터 2) 회귀분석 - 단순회귀모형 - 단순회귀모형 : lm(y변수~x변수, data= ) r1|t|) (Intercept) 46.600189 0.779849 59.76 2020. 2. 17.
8-1. 선형 회귀모형과 텍스트 마이닝-상관분석 8. 선형 회귀모형과 텍스트 마이닝 8-1. 상관분석 1) 상관분석 : 상관계수 - 상관계수 : cor(변수1, 변수2) setwd("D:/R files/week8_1") car 2020. 2. 17.