ChatGPT는 왜 그럴 듯한 거짓말을 멈추지 못할까

한눈에 보는 핵심요약
Why Language Models Hallucinate을 바탕으로 환각에 대해 정리했습니다.

안녕하세요, 에디터 스더리입니다 :)

ChatGPT가 등장한 지 3년, 그 사이 AI는 우리 대신 이메일을 쓰고, 코드를 디버깅하고, 고민 상담까지 하는 세상이 되었습니다. 하지만 이 화려한 발전의 이면에서 여전히 풀리지 않은 문제가 있습니다. 바로 **환각(Hallucination)**입니다.

LLM을 사용해본 분이라면 환각 현상을 한 번쯤은 경험해보셨을 텐데요. 환각은 LLM이 그럴듯하고 자신감 있게 거짓말을 지어내는 현상으로, 이는 단순한 실수를 넘은 굉장히 치명적인 문제입니다. 의료, 법률, 교육 등 중요한 영역에서 AI를 활용할수록 잘못된 정보가 실제 의사결정에 영향을 줄 위험이 커지기 때문이죠. 따라서 “왜 환각이 일어나는가, 어떻게 줄일 수 있는가”는 단순한 기술적 문제임을 넘어 사회적·윤리적 과제이기도 합니다.

최근 OpenAI 연구원들이 발표한 Why Language Models Hallucinate(Kalai, Nachum et.al, 2025)라는 논문에서는 환각의 원인을 통계적으로 접근하여 **사전학습(Pre-training)**과 **사후학습(Post-training)**에서 찾습니다. 오늘 이 논문을 바탕으로 환각에 대해 조금 더 깊이 들여다보려 합니다. 🔎

사전학습의 한계: 환각의 원인을 찾다

환각은 왜 생기는 걸까요? 저는 LLM이 잘못된 정보들이 혼재하는 방대한 양의 데이터를 학습하는 것이 환각의 원인이라고 생각했습니다. Garbage In, Garbage Out처럼요. 하지만 흥미롭게도 저자들은, 설령 훈련 데이터가 완벽하다고 하더라도 언어모델의 학습 목표 자체가 가진 통계적 한계로 인하여 오류가 생길 수 밖에 없다고 주장했습니다. 단순히 데이터 품질만의 문제가 아니라는 것이죠.

<aside>

Garbage In, Garbage Out (GIGO)

입력이 엉망이면 출력도 엉망이라는 뜻으로, 모델이 품질이 낮은 데이터를 학습하면 아무리 뛰어난 모델이라고 하더라도 그에 따라 부정확한 결과를 낸다는 개념입니다.

</aside>

LLM(특히 GPT 계열 모델)의 목표는 거대한 말뭉치 속에서 언어의 분포를 배우는 것에서 그치지 않고, 매 순간 **‘가장 그럴듯한 다음 토큰을 선택하는 것’**에 있습니다. 모든 질문에 “모르겠습니다(IDK)”만 말하거나, 데이터를 통째로 암기해 복사하면 오류는 줄겠지만, 그것은 우리가 원하는 언어모델의 정의에서 벗어납니다. 그럴듯한 다음 토큰을 선택해야 하는 그 목표 자체가 본질적으로 완벽해질 수 없다는 게 핵심입니다.

실제로 모델은 결과로 출력하기 전, 여러 후보 문장을 떠올리고 각각이 참(Valid)인지 거짓(Error)인지 속으로 가늠한 뒤, 참일 가능성이 높은 후보에 더 높은 확률을 주고 그 중 하나를 샘플링합니다. 저자들은 이 내부 과정을 **'이 문장이 유효한가?(IIV, Is-It-Valid)'**를 묻는 이진 분류 문제로 바꿔 설명합니다. 이때 다음과 같은 하한식이 성립합니다.

생성 오류 비율: 실제로 샘플링해 문장을 내보낼 때, 거짓 문장을 뽑아 내보내는 비율 분류 오류 비율: 주어진 문장이 참/거짓인지 판단만 할 때 틀리는 비율 ⓒ deep daiv.

분류 모델은 경계를 만들고 그에 따라 ‘맞다/틀리다’를 판단하면 되지만, 생성 모델은 그 경계 안에서 확률대로 실제로 하나를 샘플링해 출력해야 합니다. 경계가 선명한 영역에서는 두 모델 모두 잘 맞힙니다. 그러나 경계가 불분명한 영역(분류모델조차 헷갈리는 구간)에서 생성 모델은 그 구간에서 정답과 다수의 오답 후보 중에 샘플링해야 하므로 실제 오답을 뽑아버릴 확률이 높아집니다.

출처: Why Language Models Hallucinate(Kalai, Nachum et.al, 2025)

위 이미지에서 Spelling처럼 규칙이 뚜렷한 영역에서는 정답과 오답의 경계가 분명해 오류가 적습니다. 반대로 패턴 경계가 겹치는 애매한 영역이나 패턴이 없는 경우에는 오류가 증가하고 결국 무작위 추측에 가까운 오류율이 나타나게 됩니다. 실제 샘플링 단계에서는 오답 후보가 수십에서 수백 개이니, 오답을 뽑을 확률이 훨씬 높아지겠죠?

이처럼 경계가 불분명한 영역이 존재하는 한, 사전학습만으로는 환각을 없앨 수 없습니다. 저자들은 그 이유를 다음처럼 구체화합니다. 먼저, 데이터에는 애초에 **패턴이 존재하지 않는 사실(Arbitrary Facts)**이 많습니다. 대표적인 예로, 개인의 생일이나 특정 사건의 날짜처럼 정답은 단 하나뿐이고, 나머지는 전부 오답인 경우가 있습니다. 이런 질문은 학습 데이터에서 단 한 번만 등장하는 경우가 많아, 저자들은 이를 ‘싱글턴 비율(Singleton Rate)’이라고 부르는데, 싱글턴이 많다는 건 곧 보지 못했거나 희소한 프롬프트가 많다는 뜻이고 이는 곧 모델이 아무리 잘해도 일정 비율 이상은 틀릴 수밖에 없는 최소 오류 비율이 존재할 수 밖에 없음을 의미합니다. 다음으로, 모델 자체의 표현력 한계도 있습니다. 단순한 선형 분류기는 원형 경계를 제대로 그리지 못하고, n-gram 같은 고전적 언어모델은 긴 문맥을 보지 못해 필연적으로 오류가 발생합니다. 이는 LLM도 마찬가지입니다. 아무리 규모가 크더라도 여전히 복잡한 추론을 완벽히 다루지 못하는 순간이 생기고, 그때 환각이 발생할 수 있습니다.

또한, 계산이 지나치게 어려운 문제와 훈련과 실제 입력의 차이(Distribution Shift), 앞서 언급되었던 Garbage In, Garbage Out 문제도 존재합니다. 암호 복호화 같은 문제는 본질적으로 통계적 학습으로 풀 수 없는 영역이므로 모델이 ‘모르겠다(IDK)’라고 답하는 것이 사실상 정답에 가까우며, 학습 당시에는 보지 못했던 새로운 형식이나 최신 사실이 들어오면 모델이 세운 확률 경계가 흔들리면서 오류가 늘어날 수밖에 없습니다.

하지만 그렇다고 해서 모델이 무작정 틀리기만 한다는 뜻은 아닙니다. 모델은 자신이 내뱉는 답변에 얼마나 확신이 있는지를 ‘확률’로 표현할 수 있습니다. 그리고 이 확률이 실제 정답률과 얼마나 잘 일치하는지를 나타내는 개념이 바로 **보정(Calibration)**입니다. 예를 들어, 모델이 어떤 답에 대해 “60% 확신이 있어요”라고 말했을 때, 실제로 100개 중 60개쯤 맞는다면 보정이 잘 되는 셈이죠. 흥미롭게도, 사전학습만 거친 모델은 이 보정 성능이 꽤 괜찮은 편이라고 저자들은 이야기합니다. 하지만 앞서 살펴본 구조적인 요인들 때문에 오류 자체는 여전히 존재합니다. 결국 확률을 정직하게 말하는 것과, 항상 정확한 답변만을 내놓는 건 전혀 다른 문제인 것입니다.

사후학습의 아이러니: 모른다고 할래, 말래? 애매하긴 해

사전학습에서 환각은 통계적 한계 때문에 필연적임을 확인했습니다. 그렇다면 사후학습은 이 문제에 어떤 영향을 미칠까요? 사후학습은 원래 모델을 더 안전하게 만들고, 근거 없는 확신을 줄이는 방향으로 다듬는 단계입니다. 그러나 현재의 사후학습은 아이러니하게도 환각을 오히려 강화하는 결과를 낳기도 합니다.

시험을 보다가 모르는 문제를 마주했을 때, 아무 번호나 찍은 경험이 한 번쯤은 있으실 겁니다. 시험 칠 때는 모르더라도 빈칸으로 남기는 것보다 찍는 게 점수에 유리하기 때문이죠. 지금의 LLM과 벤치마크도 비슷한 구조를 가지고 있습니다.

대부분의 벤치마크는 정답은 1점, 오답은 0점, ‘모르겠다(IDK)’도 0점이라는 단순한 채점 구조를 갖고 있습니다. 이러한 구조에서 모델의 최적 전략은 무엇일까요? 정답일 확률이 조금이라도 있으면, 무조건 답을 내놓는 것입니다. IDK를 선택해도 점수는 0점인데, 대답을 하면 최소한 맞을 가능성이라도 있기 때문이죠. 이렇게 되면 모델은 불확실한 상황에서 멈추는 법을 배우지 못합니다. 오히려 그럴듯한 오답을 자신 있게 내놓는 것이 점수를 올리는 데 더 유리하니, 학습 과정에서 자연스럽게 **블러핑(Bluffing)**을 강화하게 됩니다. 결국 사후학습이 추구했던 “더 신중한 모델”이 아니라, “더 당당한 오답을 내는 모델”이 만들어지는 아이러니가 발생하는 것입니다.

실제로 논문에서는 GPQA, MMLU-Pro, BBH 같은 주요 벤치마크를 살펴봤는데, 거의 모두가 이런 이분법적 채점방식을 따르고 있음을 보여줍니다. IDK를 부분적으로 인정하는 지표도 있지만, 대다수에서는 IDK가 불리하기 때문에 리더보드 경쟁에서는 여전히 블러핑을 하는 모델이 더 좋은 점수를 받습니다.

출처: Why Language Models Hallucinate(Kalai, Nachum et.al, 2025)

그렇다면 이 문제를 어떻게 해결할 수 있을까요? 저자들은 평가 체계 자체를 바꾸어야 한다고 말합니다. 단순히 환각 지표를 따로 두는 것이 아니라, 점수를 매기는 규칙을 다시 짜야 모델이 정직한 불확실성 표현을 학습할 수 있다는 것이죠. 가장 핵심적인 제안은 **명시적 신뢰 임계치(Explicit Confidence Targets)**를 넣는 것입니다. 프롬프트에 다음과 같이 임계치 t와 페널티를 명시하는 것이죠.

정답일 확률이 t 이상일 때만 답하라. 맞히면 +1점, 틀리면 t/(1-t)점만큼 감점, ‘IDK’는 0점
출처: Why Language Models Hallucinate(Kalai, Nachum et.al, 2025)

정답일 확률이 t 이상일 때만 답하라. 맞히면 +1점, 틀리면 t/(1-t)점만큼 감점, ‘IDK’는 0점 출처: Why Language Models Hallucinate(Kalai, Nachum et.al, 2025)

이러한 규칙에서는 모델의 최적 전략이 달라집니다. 확률이 t 이상일 때만 대답하고, 그렇지 않으면 IDK를 선택하는 것이 가장 이득이 되죠. 이렇게 하면 그럴듯한 추측을 내놓는 것이 오히려 손해가 되고, IDK라는 정직한 불확실성 표현이 점수로 보상됩니다. 결과적으로 환각의 유인이 줄어드는 것입니다.

저자들은 이 방식을 MMLU, SWE-bench 같은 주류 벤치마크의 채점 규칙 속에 공개적으로 포함해야 실제로 생태계가 바뀐다고 강조합니다. 이러한 장치가 별도의 연구용 지표에만 머무르면 의미가 크지 않기 때문에, 리더보드 경쟁에서도 ‘IDK’를 말하는 모델이 보상 받을 수 있도록 제안하는 것입니다. 마지막으로 저자들은, Behavioral Calibration이라는 개념을 언급합니다. 모델이 해당 출력이 정답일 경우를 출력하지 않더라도 t 이상이면 답하고, 아니면 ‘IDK’라는 행동 규칙을 지키는지를 감사(Audit)하는 것입니다.

맺음말

결국 환각을 줄이는 문제는 모델 안에서만 풀 수 있는 것이 아닙니다. 사전학습 단계에서는 아무리 데이터가 완벽해도 통계적 한계 때문에 오류가 필연적으로 남습니다. 사후학습 단계에서는 잘못 설계된 체계가 모델에게 “모른다”라고 말하는 법을 가르치지 못하고, 오히려 블러핑을 강화하면서 보정을 깨뜨리곤 합니다. 결국 환각을 줄이려면 모델 내부를 고치는 것만으로는 부족하고, 평가와 보상 구조 자체를 바꾸어 정직한 불확실성 표현을 보상하는 시스템이 필요하다는 것이 결론입니다.

AI에게 100% 정확도를 기대하는 일은 거의 불가능에 가깝고, 그 기대 자체가 오히려 위험할 수 있다는 생각이 듭니다. 어쩌면 앞으로의 AI는 ‘정답을 얼마나 잘 맞추는가’만큼이나, ‘모를 때 모른다고 말할 줄 아는가’가 중요한 시대가 올지도 모르겠습니다. LLM을 유용한 도구로 지혜롭게 쓰는 사회, 그리고 그 한계를 명확히 인지한 채 인간의 판단으로 올바르게 나아가는 사회—그 방향으로 다음을 이어가길 기대합니다.

#AI

deep daiv.

흥미로운 인공지능 세계를 소개합니다. 매주 금요일 한 편의 글을 소개합니다.

이 콘텐츠가 도움이 되셨나요?

이 글에 대한 의견을 남겨주세요!

서로의 생각을 공유할수록 인사이트가 커집니다.