LLM - Chain-of-Thought (COT)란? - 밸러스트 인사이트 : IT기술로 변화하는 금융과 컨텐츠

Chain-of-Thought (COT) 학습 기법은 AI 모델이 단순히 답을 예측하는 것이 아니라, **중간 과정(논리적 사고 과정)**을 거쳐 답을 생성하도록 유도하는 방법.
즉, “한 번에 답을 내기보다는, 여러 단계를 거쳐 논리를 확장해 나가도록” 훈련하는 기법이라고 볼 수 있음.

이 기법이 도입되면서 GPT-4 같은 모델이 보다 복잡한 문제를 더 정확하게 풀 수 있게 되었음.
예를 들어, 수학 문제 해결, 논리적 질문, 창의적인 사고가 필요한 작업에서 뛰어난 성능을 발휘!

1. 기존 모델과 COT의 차이점

(1) 기존 모델(GPT-3 이전) 방식

과거의 AI 모델들은 대부분 “입력 → 바로 정답 생성” 방식.
예를 들어,

질문

“어떤 사람이 농구 경기에서 30점을 넣었지만, 팀이 졌다면, 어떤 이유가 있을까?”

GPT-3의 답변 (기존 방식)

“팀의 수비력이 약했거나, 상대 팀이 더 많은 점수를 넣었기 때문일 수 있다.”

답변이 맞을 수도 있지만, 논리적으로 추론하는 과정이 부족. 단순히 “팀이 졌다”라는 키워드와 연관된 문장을 예측하는 것뿐이라고 볼 수 있음

(2) Chain-of-Thought (COT) 방식

이제 같은 질문을 COT를 적용한 모델(GPT-4)이 풀어보면, 답을 내기 전에 논리적인 사고 과정을 보여줌.

GPT-4의 답변 (COT 방식)

1️⃣ 농구 경기에서 30점을 넣었다는 것은 개인적으로 좋은 경기력을 보였다는 뜻이다.
2️⃣ 하지만 팀이 졌다는 것은 팀 전체의 경기력이 상대적으로 좋지 않았을 가능성이 크다.
3️⃣ 몇 가지 가능한 이유가 있다:
　- 팀원들이 낮은 득점을 기록했다.
　- 상대 팀이 훨씬 높은 점수를 기록했다.
　- 수비력이 부족하여 실점이 많았다.
　- 경기 후반에 실책이 많았다.
4️⃣ 따라서, 팀이 패배한 원인은 단순히 한 선수의 득점만으로 결정되는 것이 아니라, 팀 전체의 경기력, 수비 전략, 상대 팀의 능력 등이 복합적으로 작용했을 가능성이 크다.

이처럼 COT는 “단계별 사고 과정”을 모델이 직접 생성하도록 훈련하는 기법.
사람이 문제를 해결하는 것처럼, “중간 사고 과정”을 만들고 그 결과로 최종 답을 도출하는 방식!

2. Chain-of-Thought (COT) 학습 과정

그렇다면, AI 모델이 이런 COT 방식으로 학습하는 과정은 어떻게 이루어질까? 🤔
주요 학습 과정은 다음과 같음.

(1) 사람이 직접 “논리적 사고 과정”을 만든 데이터 제공 (Supervised Fine-Tuning)

COT 방식의 모델을 만들려면, 먼저 AI가 따라 할 수 있도록 **”논리적인 사고 과정이 포함된 데이터”**를 제공해야 됨.
즉, 사람이 직접 논리적인 답변을 작성하고, 이를 학습시켜 모델이 비슷한 방식으로 답을 만들도록 유도.

📌 예시: 수학 문제 데이터셋

문제: “어떤 학생이 30개의 사과를 가지고 있고, 5명의 친구들에게 똑같이 나누어 주려고 한다. 한 명당 몇 개의 사과를 받을 수 있는가?”

기존 방식(GPT-3)

“30 ÷ 5 = 6, 따라서 답은 6개이다.”

COT 방식(사람이 작성한 논리적 과정)

1️⃣ 학생이 가지고 있는 사과의 개수는 30개이다.
2️⃣ 학생은 5명의 친구에게 사과를 나누어 주려고 한다.
3️⃣ 따라서, 각 친구가 받을 사과의 개수는 30 ÷ 5 = 6이다.
4️⃣ 따라서, 답은 6개이다.

➡ 이렇게 사람이 직접 작성한 단계별 풀이 과정을 데이터로 만들어 모델에게 학습시키는 과정이 COT의 핵심!
➡ AI는 처음에는 단순한 정답을 예측하지만, 이런 데이터를 많이 학습할수록 논리적으로 사고하는 패턴을 익히게 됨.

(2) AI가 자체적으로 논리적 사고를 확장하는 학습 (Self-Consistency + Reinforcement Learning)

초기에는 사람이 만든 논리적 데이터로 학습하지만, 이후에는 AI가 스스로 논리적인 패턴을 확장하는 학습이 가능함.
예를 들어, 여러 개의 정답을 생성하고, 그중 **”가장 일관성이 높은 답변”**을 강화하는 방법을 사용함.
이를 Self-Consistency 학습 기법이라고 함.

➡ 즉, AI는 단순히 답을 예측하는 것이 아니라, “가장 논리적으로 일관된 사고 과정”을 생성하는 방향으로 훈련됨.
➡ 이를 통해 복잡한 문제도 점진적으로 해결할 수 있는 능력을 갖추게 됨.

3. Chain-of-Thought (COT)의 효과

COT 기법을 적용하면 AI 모델의 성능이 극적으로 향상 (단, 학습사이즈가 큰 모델)!

COT 기법을 도입한 후 성능 개선 사례 (Google 연구 논문 기준)

LLM – Chain-of-Thought (COT)란?