GPT 언어 모델

October 12, 2021

BERT: embedding 모델
- Transformer encoder 사용
GPT: 생성 모델
- Transformer decoder 사용

GPT 개요

일반적으로 배웠던 Language model의 언어 생성 과정과 동일하다. 순차적으로 다음에 올 가장 적절한 단어들을 확률적으로 예측한다.

GPT-1은 마치 BERT처럼 모델의 뒷단에 원하는 classifer를 붙여서 특정 task에 적합하도록 fine-tuning할 수 있도록 구성됐다. 시기상으로는 GPT-1이 BERT보다 앞선다.

GPT-1은

자연어 문장 분류에 매우 유용한 디코더다.
적은 양의 데이터로도 높은 분류 성능 달성.
다양한 자언어 task에서 바로 SOTA 달성.
Pre-train 언어 모델의 지평을 열면서 BERT 발전의 밑거름이 됐다.
지도 학습이 필요해 많은 labeld data가 필요.
특정 task를 위해 fine-tuning된 모델은 다른 task에서 사용 불가능.

GPT 연구진의 새로운 가설

언언의 특성 상, 지도학습의 목적 함수는 비지도 학습의 목적 함수와 같다. 즉, fine-tuning이 필요없다.

왜냐하면 labeld data의 label도 언어이기 때문이다.

다시 말하면, 굉장히 거대한 데이터 셋을 학습한 language model은 모든 자연어 task를 수행 가능하다는 것이다.

zero-shot, one-shot, few-shot

fine-tuning으로 하나의 task만을 위한 모델을 만드는 것은 불필요하다고 판단. 마치 인간이 새로운 task 학습을 위해 많은 데이터가 필요하지 않다는 것과 같은 이치로 language model에 접근해서 zero, one, few-shot으로 inference하는 방법론이 제시됨.

즉, 특정 task를 위해 gradient update를 하지 않고 task를 수행하는 것이다. 이러한 방법을 적용하기 위해 거대 데이터셋을 학습하는 모델을 개발했는데 이것이 GPT-2이다.

GPT-2

GPT-1에 비해서 약간의 decoder 구조 변경이 있다.

또한 train data는 11GB에서 40GB로 늘었다.

MRC, summarization, translation 등의 자연어 task에서는 일반적인 신경망 모델 수준의 성능이었다.
다음 단어 예측에서는 SOTA
zero, one, few-shot learning의 새 지평을 열었다.

GPT-3

train data는 45TB에서 정제된 570GB를 사용
Parameters는 1,500M에서 175,000M으로 증가.

Initialization 수정
Sparse Transformer 사용

Task of GPT-3

기사 쓰기
- GPT-3가 작성한 기사들 중 52%는 실험자들이 인간이 작성한 기사 같다고 평가.
덧셈 연산
- 2 ~ 3자리수 숫자들의 덧셈 연산은 거의 정확하게 수행
QA에서도 기존 모델보다 더 좋은 성능을 기록하기도 함.
데이터 파싱
- 특정 문서에서 알아서 데이터를 파싱해 표를 그려준다.

Restriction

GPT도 NSP(Next senetence prediction)를 통해 Pre-train된 모델이다.

Weight update가 없다.
- 새로운 지식 학습 불가
모델 사이즈만 키우는 것이 만능인가?
- 아무도 모르지만 아마도 아닐 것.
멀티 모달 정보 활용 불가

Share on

Twitter Facebook LinkedIn

Sungho Park

GPT 언어 모델

GPT 개요

zero-shot, one-shot, few-shot

GPT-2

GPT-3

Task of GPT-3

Restriction

Share on

Leave a comment

You may also enjoy

m1 gpu acceleration

Mac basic settings

Retrieval-Augmented Diffusion model