![[LLM 해석가능성] Transformer 아키텍처 이해하기](/images/llm-interpretability-1-1.jpg)
[LLM 해석가능성] Transformer 아키텍처 이해하기
0. Introduction
LLM Interpretability를 향한 첫 걸음
이 글은 LLM Interpretability 스터디 Week 1 준비를 위해, Transformer의 내부 아키텍처를 수학적 직관과 함께 정리한 노트입니다.
Transformer는 본질적으로 다음 토큰 예측기입니다. 입력 공간 는 토큰 시퀀스이고, 출력 공간 는 어휘(vocabulary) 위의 확률분포입니다. 이 글에서는 입력부터 출력까지 데이터가 흐르는 과정을 하나하나 따라가 보겠습니다.
1. 토큰과 임베딩
텍스트에서 벡터로
텍스트가 Transformer에 들어가려면 두 단계를 거칩니다: 토큰화와 임베딩.
토큰화(Tokenization)는 텍스트를 단어 또는 부분 단어(subword) 단위로 쪼개어 각각에 정수 ID를 부여하는 과정입니다. 예를 들어, "안녕하세요"는 ["안녕", "하세요"]처럼 분리될 수 있습니다.
임베딩(Embedding)은 각 토큰 ID를 고차원 벡터로 변환합니다. 핵심은 의미적으로 비슷한 단어들이 벡터 공간에서 가까이 위치한다는 것입니다.
마지막으로 Positional Encoding이 필요합니다. Transformer의 attention은 본질적으로 순서를 모릅니다 — 내적은 순서와 무관하기 때문입니다. 따라서 위치 정보 벡터를 임베딩에 더하여 순서를 부여합니다.
2. Self-Attention
토큰 간 선택적 정보 교환
"bank"라는 단어를 생각해봅시다. 은행일까요, 강둑일까요? 이를 파악하려면 주변 단어의 정보가 필요합니다. Attention은 각 토큰이 다른 토큰의 정보를 선택적으로 가져오는 메커니즘입니다.
Self-attention 연산은 다음 단계로 이루어집니다:
이 전체를 하나의 수식으로 표현하면:
3. Multi-Head Attention
여러 관점에서 동시에 바라보기
하나의 attention head로는 한 종류의 관계만 포착할 수 있습니다. 예를 들어, 어떤 head는 "주어-동사" 관계에 집중하고, 다른 head는 "수식어-피수식어" 관계에 집중할 수 있습니다.
Multi-Head Attention은 여러 독립적 attention head를 병렬로 실행하여 각 head가 서로 다른 관계 패턴을 학습하도록 합니다. 임베딩 차원을 head 수로 나누어 각 head의 Q, K, V 차원을 결정합니다.
각 head의 출력을 concatenate한 후,를 곱하여 원래 차원으로 복원합니다.는 단순 차원 축소가 아닌, head 간 정보의 학습된 재조합입니다 — 마치 여러 전문가의 의견을 종합하는 편집자와 같습니다.
4. Transformer 블록
Residual Stream과 정보의 흐름
Transformer 블록 하나의 구조는 다음과 같습니다: Self-Attention → Add & LayerNorm → FFN → Add & LayerNorm.
FFN(Feed-Forward Network)은 2층 fully-connected network입니다. Attention이 "토큰 간 정보 교환"이라면, FFN은 "각 토큰 내부에서의 정보 처리"입니다.
Residual connection: . "기존 정보를 유지하면서 새로운 정보를 추가"하는 구조입니다.
5. 최종 출력과 Logit Lens
중간 layer의 예측 상태 관찰
마지막 layer의 출력 벡터에 Unembedding matrix 를 곱하면 logit 벡터가 되고, softmax를 적용하면 다음 토큰의 확률분포를 얻습니다.
Logit Lens의 아이디어:를 마지막 layer뿐 아니라 중간 layer에도 적용하면, 그 시점까지의 "중간 예측 상태"를 관찰할 수 있습니다. 이것이 작동하는 이유는 residual stream 구조 덕분에 모든 layer가 같은 벡터 공간에서 정보를 누적하기 때문입니다.
6. 요약
Week 1 논문으로의 다리
Elhage et al.의 A Mathematical Framework for Transformer Circuits는 이 글에서 다룬 개념들을 토대로, residual stream을 중심축으로 삼아 개별 attention head의 기능을 Q-K circuit(어디에 주목?)과 O-V circuit(무슨 정보를 가져올?)으로 분해하여 분석합니다.
Logit Lens는 이 프레임워크의 직접적 응용이며, 이후 causal tracing, path patching 등 더 정교한 분석 기법의 출발점이 됩니다.