LLM과 gpt에 대해서 궁금해서 이런 저런 질문을 하다 아래와 같은 질문을 해봤고 이에 대한 답변을 올려드립니다. 어떻게 보면 LLM이 사람이 말하는 방식과 유사한 방식으로 이해하고 생성해내는거 아닐까 싶기도 하네요. 우리가 질문을 이해하는것도 연관성을 학습하여 그 결과가 이해한다로 이어진건 아닐까하는 생각이 드네요.
GPT의 경우 트랜스포머 기반이고, 셀프어텐션과 FNN으로 단어간의 연관성을 이해하고, 표현력을 풍부하게 한 후, decoder만을 사용해 문장을 생성하는걸로 이해했는데 이게 맞나?
그리고 문장을 생성해내는건 이해가 가는데, 챗봇처럼 내가 질문하는거에 대한 적절한 답변은 어떻게 생성하는걸까? 질문을 이해하고 문장을 생성해내야하잖아. 질문을 이해하는걸까 아니면 질문에 포함된 단어간의 연관성을 이용해서 문장을 단순히 생성해내는걸까?
아래는 답변입니다.
1. GPT는 트랜스포머 기반이며 디코더(Decoder)만 사용
트랜스포머(Transformer) 구조에는 인코더(Encoder) + 디코더(Decoder) 가 있음.
하지만 GPT는 디코더(Decoder)만 사용하여 문장을 생성함.
셀프 어텐션(Self-Attention) + FNN(Feed-Forward Neural Network) 구조를 활용해 단어 간의 연관성을 이해하고 표현력을 풍부하게 만듦.
따라서, 입력된 문장(프롬프트, 질문 등)을 보고 적절한 다음 단어를 예측하면서 문장을 생성함.
2. 질문에 적절한 답변을 생성하는 원리
GPT가 “질문을 이해”하는가? vs. “단어 간의 연관성으로 문장을 단순히 생성”하는가?
➡ 사실 둘 다 맞는 말이야!
➡ 하지만, GPT는 인간처럼 진짜 의미를 이해하는 것은 아님.
➡ 대신, 엄청난 양의 데이터를 학습하면서 질문과 답변이 어떤 식으로 연결되는지를 통계적으로 학습했기 때문에 적절한 답을 생성할 수 있음.
3. 답변 생성 과정 상세 설명
GPT가 질문에 대한 답변을 생성하는 과정은 다음과 같이 이루어짐.
(1) 질문을 입력하면, 토큰으로 변환
입력된 질문(텍스트)은 모델이 이해할 수 있도록 **토큰(token)**으로 변환됨.
예를 들어,
“GPT는 어떻게 작동하나요?”
➡ ["GPT", "는", "어떻게", "작동", "하", "나요", "?"]
➡ 각 단어(토큰)는 숫자로 변환됨.
(2) 셀프 어텐션(Self-Attention)으로 문맥을 이해
- 입력된 질문 내에서 각 단어가 다른 단어들과 어떻게 연결되는지를 파악함.
- 예를 들어, **”GPT”**와 **”작동”**이 서로 중요한 관계라는 것을 학습한 경험이 있음.
- 따라서 “GPT는 어떻게 작동하나요?”라는 질문에서 핵심 요소들을 이해할 수 있음.
(3) 내부적으로 가장 적절한 답변을 예측
- GPT는 학습 데이터에서 질문과 그에 대한 답변을 많이 봤기 때문에,
과거에 많이 나왔던 패턴을 기반으로 가장 적절한 단어를 하나씩 예측하며 문장을 생성함. - “GPT는 어떻게 작동하나요?”라는 질문에 대해,
과거 데이터에서 “GPT는 트랜스포머 기반의 모델로 동작합니다.” 같은 답변을 학습했을 가능성이 큼. - 따라서 이런 답변을 만들어낼 확률이 높아짐.
(4) 단어를 하나씩 생성하며 문장을 완성
- 한 번에 문장을 통째로 출력하는 것이 아니라, 다음에 올 단어를 하나씩 예측해서 문장을 만들어감.
- 예를 들어, “GPT는” → “트랜스포머” → “기반의” → “모델로” … 이런 식으로 단어를 순차적으로 예측하며 답변을 생성.
4. GPT가 질문을 이해한다고 볼 수 있을까?
이 부분이 가장 흥미로운 질문인데, GPT는 “이해한다”고 볼 수도 있고, 그렇지 않다고 볼 수도 있음.
✅ 이해한다고 볼 수 있는 이유
- 문맥을 고려해서 답변을 생성하는 것은 사실임.
- 단순히 “단어들의 확률만 계산하는 기계”라면 의미 없는 문장이 생성되어야 하지만, GPT는 논리적인 답변을 할 수 있음.
- 즉, **”이전 질문과 비슷한 패턴을 학습했기 때문에, 의미적으로 적절한 답변을 생성”**한다고 볼 수도 있음.
❌ 이해하지 않는다고 볼 수 있는 이유
- GPT는 단어 간의 패턴을 학습한 것이지, 실제로 “사고(thinking)”를 하는 것이 아님.
- 예를 들어, 물리 법칙이나 수학적 논리를 엄밀하게 따지기보다는, 과거에 본 문장 패턴을 기반으로 “가장 그럴듯한 문장”을 생성할 뿐.
- 즉, “의미를 이해한다”는 것은 사실 인간적인 관점에서 본 착각일 수도 있음.