[언어모델 변천사 A to Z] RNN부터 GPT까지 가볍게 살펴보기
- 모델별로 간단한 특징과 그림으로 정리했습니다.
1. RNN(Recurrent Neural Network, 1986)
- 시퀀스 데이터를 처리하기 위해 개발된 모델
- 입력과 출력을 시퀀스 단위로 처리하여, 이전 시퀀스의 정보를 현재 시퀀스에 전달하는 구조
- 하지만 긴 시퀀스에 대해 정보를 전달하는 데 어려움이 있어, 장기 의존성 문제(long-term dependency problem)를 가지고 있음
2. LSTM(Long Short-Term Memory, 1997)
- Paper: LONG SHORT-TERM MEMORY(LSTM)
- RNN의 문제를 해결하기 위해 고안된 모델
- 장기 의존성을 보존하면서, 불필요한 정보는 삭제하여 메모리 셀의 정보 전달을 조절하는 게이트(Gate) 메커니즘을 사용
3. Seq2Seq(2014)
- 시퀀스 데이터를 처리하는 데 사용되는 모델
- 입력 시퀀스와 출력 시퀀스를 각각 인코더와 디코더로 나누어 처리함
4. Attention(2015)
- 디코더에서 인코더의 정보를 참조할 때, 모든 정보를 동일하게 고려하는 것이 아니라, 중요한 정보에 가중치를 부여하는 방식을 사용하는 모델
- 디코더의 현재 상태와 인코더의 모든 상태를 이용하여, 현재 디코더 상태와 유사한 인코더 상태를 찾아내어 정보를 참조함
5. Transformer(2017)
- Paper: Attention Is All You Need
- 인코더와 디코더에서 Attention 메커니즘을 사용하여 시퀀스 데이터를 처리하는 모델
- Self-Attention을 이용하여 입력 시퀀스에서 각 단어들 간의 관계를 찾아내어 처리함
- 트랜스포머 모델이 발표된 이후, 자연어 처리 분야에서 매우 성능이 우수한 모델로 인정받음
6. GPT(2018)
- Transformer 모델을 기반으로 한 언어 모델
- 대규모 텍스트 데이터를 무작위로 샘플링하여 사전 학습한 후, 해당 언어 모델을 다양한 자연어 처리 작업에 적용할 수 있음
- GPT-2, GPT-3.5, GPT-3, GPT-4 등 다양한 버전이 존재함
7. BERT(2018)
- BERT는 2018년에 구글에서 발표한 언어 이해를 위한 사전학습 모델
- 양방향 transformer 인코더를 기반으로 하며, 다양한 자연어 처리 태스크에서 뛰어난 성능을 보임
그 외로는 GPT-2~4 모델과 함께 XLNET, RoBERTa, ALBert, T5, BART, ELECTRA 등 다양한 모델이 존재합니다.
- GPT-2: Language Models are Unsupervised Multitask Learners
- GPT-3: Language Models are Few-Shot Learners
- GPT-4: GPT-4 Technical Report
'IT > 인공지능' 카테고리의 다른 글
[생성형AI][LLM] RAG 기반 기술문서 QA Gemma 모델 (Hugging Face) (0) | 2024.02.24 |
---|---|
[생성형AI][LLM] Gemma 모델 파인튜닝 (Hugging Face) (3) | 2024.02.24 |
[생성형AI][Text2Video] Sora: 콘텐츠 제작의 미래를 선도하는 비디오 생성 모델 (0) | 2024.02.20 |
[생성형AI][RAG] 증상 기반 법정감염병 판별 챗봇 (0) | 2024.02.09 |
[생성형AI][LLM] 데이터 없이 생성형 AI를 활용하여 개체명인식(NER) 분류 - 금융 도메인 (4) | 2024.02.07 |