본문 바로가기
IT/인공지능

[언어모델 변천사 A to Z] RNN부터 GPT까지 가볍게 살펴보기

by 드인 2023. 3. 25.

[언어모델 변천사 A to Z] RNN부터 GPT까지 가볍게 살펴보기

- 모델별로 간단한 특징과 그림으로 정리했습니다.

1. RNN(Recurrent Neural Network, 1986)

  • 시퀀스 데이터를 처리하기 위해 개발된 모델
  • 입력과 출력을 시퀀스 단위로 처리하여, 이전 시퀀스의 정보를 현재 시퀀스에 전달하는 구조
  • 하지만 긴 시퀀스에 대해 정보를 전달하는 데 어려움이 있어, 장기 의존성 문제(long-term dependency problem)를 가지고 있음

https://dwin.tistory.com/139

2. LSTM(Long Short-Term Memory, 1997)

  • RNN의 문제를 해결하기 위해 고안된 모델
  • 장기 의존성을 보존하면서, 불필요한 정보는 삭제하여 메모리 셀의 정보 전달을 조절하는 게이트(Gate) 메커니즘을 사용

https://ratsgo.github.io/natural%20language%20processing/2017/03/09/rnnlstm/

3. Seq2Seq(2014)

  • 시퀀스 데이터를 처리하는 데 사용되는 모델
  • 입력 시퀀스와 출력 시퀀스를 각각 인코더와 디코더로 나누어 처리함

https://dwin.tistory.com/139

4. Attention(2015)

  • 디코더에서 인코더의 정보를 참조할 때, 모든 정보를 동일하게 고려하는 것이 아니라, 중요한 정보에 가중치를 부여하는 방식을 사용하는 모델
  • 디코더의 현재 상태와 인코더의 모든 상태를 이용하여, 현재 디코더 상태와 유사한 인코더 상태를 찾아내어 정보를 참조함

https://dwin.tistory.com/139

5. Transformer(2017)

  • 인코더와 디코더에서 Attention 메커니즘을 사용하여 시퀀스 데이터를 처리하는 모델
  • Self-Attention을 이용하여 입력 시퀀스에서 각 단어들 간의 관계를 찾아내어 처리함
  • 트랜스포머 모델이 발표된 이후, 자연어 처리 분야에서 매우 성능이 우수한 모델로 인정받음

https://wikidocs.net/31379, Transformer 논문의 모델 구조 인용

6. GPT(2018)

  • Transformer 모델을 기반으로 한 언어 모델
  • 대규모 텍스트 데이터를 무작위로 샘플링하여 사전 학습한 후, 해당 언어 모델을 다양한 자연어 처리 작업에 적용할 수 있음
  • GPT-2, GPT-3.5, GPT-3, GPT-4 등 다양한 버전이 존재함

GPT 논문의 모델 구조 인용

 

7. BERT(2018)

  • BERT는 2018년에 구글에서 발표한 언어 이해를 위한 사전학습 모델
  • 양방향 transformer 인코더를 기반으로 하며, 다양한 자연어 처리 태스크에서 뛰어난 성능을 보임

BERT의 논문

 

그 외로는 GPT-2~4 모델과 함께 XLNET, RoBERTa, ALBert, T5, BART, ELECTRA 등 다양한 모델이 존재합니다.