본문 바로가기

공부/R & Python60

16-3. 웹문서 텍스트마이닝 - 한글 웹문서의 자연어 처리와 정보 추출 - 16-3. 웹문서 텍스트마이닝 - 한글 웹문서의 자연어 처리와 정보 추출 - 1) 텍스트 마이닝 - 텍스트 마이닝(text mining)이란, 다양한 알고리즘을 이용하여 대용량의 텍스트 문서로부터 트렌드와 관심어를 찾아내는 기법이다. 2) 자연어 처리 - 자연어 처리(Natural Language Processing)란, 컴퓨터로 사람 언어를 분석, 이해, 생성하는 기술을 일컫는다. - 품사 분석 : SimplePos09() - str_match()를 이용한 N(체언), P(용언) 추출 3) 워드 클라우드 - 워드 클라우드(word cloud)는 텍스트의 키워드, 개념을 직관적으로 파악하도록 핵심 단어를 시작적으로 보여주는 기법이다. 4) 웹문서의 텍스트마이닝 실습 (1) '네이버 영화'에서 영화 의 네.. 2020. 3. 6.
16-2. Convolutional Neural Network 16-2. Convolutional Neural Network 1) Features - 신경망 모델(Neural Net)은 입력값으로 객체의 특성(feature)을 받고, - 출력된 값과 실제 값을 비교하는 과정을 거침 (지도학습; Supervised Learning) - 하나의 이미지는 수많은 픽셀들이 모여 형성하고 있으며, 특정 색에 해당하는 특정 값을 가짐 - 따라서, 이미지의 모든 픽셀값들을 입력값으로 갖는 신경망 모델을 만들 수 있음 2) Intuitions - 하지만, 고해상도 이미지의 경우 특성feature의 수가 너무 많아지므로 - 모든 뉴런들이 모든 픽셀들과 모두 연결되어 있을 경우 (fully connected) 모델 학습에 큰 어려움이 있음 - 따라서, 각 뉴런들이 이미지의 일부의 특.. 2020. 3. 6.
16-1. 딥러닝과 텍스트 마이닝-Neural Network 16. 딥러닝과 텍스트 마이닝 16-1. Neural Network 1) Concepts - 인공신경망은 기계학습(Machine Learning)의 통계적 학습 알고리즘 중 하나 - 컴퓨터 비전, 자연어 처리, 음성 인식 등의 영역에서 활발하게 사용됨 - 신경망 모델은 (Neural Network)은 Percoptron을 한 단위로 하는 네트워크를 구축하여, 인간의 신경세포(Neuron)과 유사한 기능을 하도록 제안되었음 2) Perceptron - Single Layer - 하나의 Percoptron은 단순하게 다수의 입력과 가중치의 선형 결합을 계산하는 역할을 수행 - Activation 함수에 따라 선형결합으로 생성되는 출력의 값이 결정됨 3) Multi-layer perceptron - Perce.. 2020. 3. 6.
15-3. Partial Least Square 15-3. Partial Least Square 1) Partial Least Square Regression (PLS) - 주성분분석의 component와 최소자승회귀법의 component의 비교 Latent variable (LV) - PLS는 공정변수들의 변동을 설명하는 벡터 t를 구하는데 X의 정보만을 이용하는 것이 아니라 타겟변수 y의 정보를 동시에 고려 - PLS에서의 component는 PCR와 다르게 X의 정보만을 이용하는 것이 아니라 타겟변수(Y)와의 상관성을 고려하여 도출된다. - Chemometrics, Marketing분야의 고차원데이터, 독립변수간 상관성 높은 데이터에 적용 - t(components)는 X들의 벡터의 선형조합으로 산출하는데 이 때 가중치로서 벡터 xj를 벡터 y에.. 2020. 3. 6.
15-2. 주성분 회귀분석(Principle Component Regression) 15-2. 주성분 회귀분석 (Principle Component Regression) 1) 주성분회귀 (Principle Component Regression) - 독립변수들의 차원을 줄이기 위해 사용가능, 주성분을 이용하여 타겟변수(Y)의 설명력(예측력)을 높일 수 있다. - 독립변수들의 전체분산을 가장 잘 설명해주는 component를 사용하여 독립변수들간 다중공선성 문제를 해결할 수 있다. - 주요 component score들이 Y의 예측력을 보장하는 것이 아니다. 주요 component score는 X의 분산을 가장 잘 설명하는 방향의 축을 기준으로 변환된 것이기 때문에 Y와의 관계에 있어서는 상관성이 없을 수도 있다. - wine데이터 (9개의 독립변수, 타겟변수는 Aroma rating) 9.. 2020. 3. 6.
15-1. 주성분 분석과 부분 최소자승법-주성분분석(Principle Component Analysis) 15. 주성분 분석과 부분 최소자승법 15-1. 주성분분석 (Principle Component Analysis) 1) 주성분분석 (Principle Component Analysis) - 다변량분석기법 - '주성분'이라고 불리는 선형조합으로 표현하는 기법 - 여기서 주성분은 공분산(X^TX)으로부터 eigenvector와 eigenvalue를 도출하여 계산됨 - 주성분간의 수직관계 - 1st 주성분 (PC1) : 독립변수들의 변동(분산)을 가장 많이 설명하는 성분 - 2st 주성분 (PC2) : PC1과 수직인 주성분 (첫번째 주성분이 설명하지 못하는 변동에 대해 두번째로 설명하는 성분) - iris데이터(4개변수)의 주성분분석 - 차원축소 & 예측력 향상 - iris데이터(4개변수)의 주성분 도출 -.. 2020. 3. 6.