본문 바로가기
IT

Encoder-only | Decoder-only | Encoder-Decoder LLM 비교

by 메타인지 월드 2026. 1. 29.
반응형

트랜스포머(Transformer) 아키텍처에서 파생된 세 가지 모델 구조는 각기 다른 목적과 강점을 가지고 있습니다. 현재 우리가 흔히 말하는 GPT, Llama와 같은 LLM은 대부분 Decoder-only 구조를 채택하고 있습니다.
세 아키텍처의 핵심 차이점을 정리해 드립니다.

1. 아키텍처별 핵심 비교

| 구분 | Encoder-only | Decoder-only | Encoder-Decoder |
|---|---|---|---|
| 핵심 메커니즘 | Bidirectional Attention (양방향) | Causal Attention (단방향/인과적) | 양방향 Encoder + 단방향 Decoder |
| 학습 목표 | 빈칸 채우기 (Masked LM) | 다음 단어 예측 (Causal LM) | 입력 sequence를 출력으로 변환 |
| 특징 | 텍스트의 맥락을 깊게 이해함 | 문장을 생성하는 데 최적화됨 | 입력과 출력의 성격이 다를 때 유리 |
| 주요 모델 | BERT, RoBERTa, ALBERT | GPT 시리즈, Llama, Mistral | T5, BART |

2. 상세 분석

🔍 Encoder-only (이해 중심)
입력 데이터의 모든 토큰이 서로를 참조할 수 있는 양방향 어텐션을 사용합니다. 특정 단어의 앞뒤 문맥을 모두 고려하기 때문에 텍스트의 의미를 추출하는 데 매우 뛰어납니다.
* 적합한 작업: 감성 분석, 개체명 인식(NER), 문장 분류, 임베딩 추출.
* 한계: 새로운 텍스트를 생성하는 능력은 부족합니다.
✍️ Decoder-only (생성 중심)
현재 토큰을 예측할 때 이전(왼쪽) 토큰들만 참조할 수 있는 단방향 어텐션을 사용합니다. 학습 시 '다음 단어 맞추기'를 반복하기 때문에 문장을 자연스럽게 이어 나가는 능력이 탁월합니다.
* 적합한 작업: 대화형 AI(Chatbot), 창의적 글쓰기, 코드 생성.
* 최신 트렌드: 모델 크기를 키웠을 때(Scaling Law) 제로샷 성능이 가장 뛰어나 현재 대부분의 거대 언어 모델이 이 방식을 따릅니다.
🔄 Encoder-Decoder (변환 중심)
인코더가 입력 문장을 완전히 이해한 후, 그 정보를 디코더에 전달하여 새로운 문장을 생성합니다. 입력 시퀀스와 출력 시퀀스의 길이가 다르거나 언어가 바뀌는 상황에 강합니다.
* 적합한 작업: 기계 번역(영-한), 긴 문서 요약, 질의응답.
* 특징: 두 구조의 장점을 합쳤지만, 구조가 복잡하고 파라미터 효율성 문제로 인해 초거대 모델에서는 Decoder-only에 밀리는 추세입니다.

3. 구조적 차이 시각화

* Encoder: 모든 방향으로 화살표가 연결되어 전체 문맥을 봅니다.
* Decoder: 미래의 단어를 볼 수 없도록 마스킹(Masking) 처리가 되어 있어 과거의 단어만 참조합니다.

반응형