안녕하세요. 에디터 민재입니다.
대형 언어 모델(Large Language Model, LLM)은 이미 의심할 여지없이 뛰어난 성능을 발휘하며, 일상 곳곳에서 우리의 업무를 대신 수행하고 있습니다. 심지어 검색 엔진을 대체할 정도로 광범위하게 활용되고 있어, 이 모든 것이 단순히 다음 토큰 예측만을 바탕으로 하는 것이 맞는지 의문이 들 정도입니다.
실제로 LLM의 뛰어난 능력은 사전 학습(Pre-training) 단계에서의 다음 토큰 예측에만 의존하지 않습니다. 사전 학습 과정에서는 기본적인 언어 구조와 기능을 이해하고, 생성 능력을 확보하는 데 그치지만, 사후 학습(Post-training) 과정에서 그 능력이 비로소 극대화됩니다.
과거에는 Instruction Fine Tuning을 비롯해 다양한 용어와 기법으로 불리던 사전 학습 이후의 과정이 최근에는 Post-training이라는 용어로 통합되는 추세인데요. 그중에서도 현재 가장 주목받고 있는 방법은 강화학습(Reinforcement Learning, RL)입니다. 강화학습을 거친 모델은 지도 학습(Supervised Fine Tuning, SFT)에만 의존하는 LLM보다 한층 향상된 성능을 보이며, 사용자의 복잡한 요구에도 능숙하게 대응합니다.
무엇이 강화학습을 가능하게 하는가?
지도 학습과 구별되는 강화학습만의 특징은 보상 모델(Reward Model, RM)이 존재한다는 점입니다. 보상 모델은 주어진 질문에 대한 LLM의 응답을 평가하여 품질을 측정합니다. 강화학습 프레임워크에서 LLM은 보상 모델로부터 더 높은 점수를 받는 방법을 학습하며, 이 과정에서 자연스럽게 더 나은 출력을 생성하는 법을 터득합니다.
결국 LLM 강화학습의 핵심은 보상 모델에 있습니다. 어떤 보상 모델을 사용할지, 보상 모델을 어떻게 설계할지가 이를 기반으로 학습하는 LLM의 성능을 좌우합니다. 보상 모델은 아래 그림과 같이 출력하는 보상의 형태(Reward Generation Paradigms)와 보상을 측정하는 대상(Scoring Patterns)에 따라 구분할 수 있습니다.

가장 단순한 방법은 사용자의 질문(Query)과 LLM의 응답(Responses)가 주어졌을 때 응답의 품질을 숫자로 평가하는 것입니다. 또 다른 방법은 응답의 품질을 수치화하면서 그 평가 근거까지 함께 제시하는 것입니다. 최근에는 보상 모델에도 LLM을 활용하면서 평가에 대한 근거를 생성할 수 있게 되었습니다.
그런데 보상 모델로 LLM을 사용하는 강화학습 방식에는 몇 가지 어려움이 있습니다. 보상 모델은 LLM의 입출력을 명확하게 이해하고, 특정 도메인에 대한 정밀한 평가를 수행해야 하는데, 이런 모델을 설계하기가 상당히 어렵습니다. 또한 LLM을 보상 모델로 활용하는 만큼, LLM의 역량을 효과적으로 활용할 수 있어야 하는데 기존 방식에는 뚜렷한 한계가 존재합니다.
최근 DeepSeek AI에서 발표한 논문 Inference-Time Scaling for Generalist Reward Modeling (Liu et al., 2025)에서는 이런 문제를 심도 있게 다룹니다. 이 논문은 추론 단계에서의 확장성(Inference-time Scalability)과 입력 유연성(Input Flexibility)을 적극 활용하는 새로운 접근법을 제시하고 있습니다.
다양한 입력을 유연하게 처리하는 방법, Pointwise GRM
앞서 살펴본 보상 모델의 종류를 다시 한번 보겠습니다. 기존 모델들은 각각의 한계를 지니고 있는데, 보상으로 점수(Scalar)만을 출력하는 모델은 추론 단계에서 다양한 결과를 얻기 어렵다는 문제가 있습니다. 생성형 모델인 LLM은 동일한 입력에도 매번 다른 출력을 생성하는 특성이 있습니다. 이런 특성을 활용하면 같은 입력에 대해 여러 응답을 수집하고 더 객관적이고 신뢰할 수 있는 평가를 할 수 있습니다. 하지만 항상 고정된 점수를 출력하는 방식으로는 LLM의 이런 특징을 제대로 활용하기 어렵습니다.

이러한 문제를 해결하기 위해 이 논문에서는 Pointwise GRM이라는 새로운 방법을 제안합니다. 이 방법은 하나의 질문과 그에 대한 여러 개의 응답이 (x, y1, y2, …, yn) 형태로 주어질 때, 각 응답에 대한 점수를 평가 근거와 함께 생성합니다. 따라서 Pointwise GRM은 응답의 개수에 관계 없이 다양한 형태의 입력에 유연하게 대응할 수 있습니다.
추론 단계에서의 확장성(Inference-time Scalability)을 확보하기 위해서는 또 다른 방법이 필요합니다. 이 논문에서는 하나의 질문-응답 쌍을 다양한 원칙에 따라 평가(Principled Critique)하여, 여러 개의 점수를 수집합니다. 예를 들어, 어떤 질문에 대한 응답 A와 B를 “질문의 의도를 정확히 파악했는지”, “적절한 표현을 사용했는지”, “잠재적인 위협이 있는 질문에 대한 대응이 적절한지” 등 다양한 기준에 따라 평가할 수 있겠죠.
이 때 각 평가 원칙(Principle)을 설정하는 방법도 보상 모델의 성능을 결정짓는 요소 중 하나입니다. 논문에서는 평가 원칙마저 보상 모델이 자체적으로 생성하게 하고, 그 중 일부(Filtered Principles)만을 사용했습니다. 평가 결과가 보상 모델이 원래 학습하는 데이터의 정답과 일치하는 것만 사용하였는데, 예를 들면 이렇습니다. 원래 보상 모델이 학습하는 데이터의 정답에서는 응답 A에 응답 B보다 높은 점수를 부여하였는데, 어떤 원칙을 바탕으로 평가할 때는 그 결과가 반대로 나타난다면 해당 원칙은 사용하지 않았습니다. 이렇게 스스로 생성한 평가 원칙을 필터링하고, 이를 토대로 보상 근거를 생성하는 방법을 Self-Principled Critique라고 합니다.
이런 일련의 과정을 바탕으로 보상 모델을 학습하는 방법을 Self-Principled Critique Tuning(SPCT)이라고 합니다. SPCT는 아래와 같이 Rejective Fine Tuning과 Rule-Based RL이라는 두 단계로 구성됩니다. 첫 번째 단계에서는 평가 원칙과 평가 근거를 올바른 형식으로 생성하는 방법을 학습합니다. 두 번째 단계에서는 최종적으로 출력한 보상의 정확도를 높이는 방향으로 학습합니다.

Reward Model의 학습 방식
출처: Inference-Time Scaling for Generalist Reward Modeling (Liu et al., 2025)
추론 과정에서 성능을 개선하는 방법, Inference-Time Scaling with SPCT
SPCT 프레임워크를 통해 학습된 보상 모델은 Inference-Time Scaling을 통해 성능이 더욱 향상될 수 있습니다. 논문에서는 투표(Voting)와 메타 보상 모델(Meta RM)이라는 두 가지 방법을 제안합니다. 투표는 말 그대로 동일한 질문-응답 쌍에 대한 평가를 여러 차례 수행하고, 각 결과를 종합하는 방식입니다. 한 번의 평가로는 1점에서 10점 사이의 점수만을 측정할 수 있지만, 이런 방법을 통해 조금 더 세밀한 평가가 가능해집니다.
Meta RM은 보상 모델에 대한 또 다른 보상 모델을 활용하는 방법입니다. 즉, 보상 모델의 평가 결과를 다시 한번 평가하여, 평가의 신뢰성을 검증하는 것입니다. 이때는 각 평가 결과에 점수를 매기고, 점수가 높은 일부만을 사용합니다.

출처: Inference-Time Scaling for Generalist Reward Modeling (Liu et al., 2025)
보상 모델을 학습하고 이를 통해 LLM을 평가하는 과정 자체가 매우 복잡한데요. 요약하자면 LLM의 추론 능력을 개선하기 위해서 강화학습이라는 방법을 사용할 건데, 강화학습의 핵심은 보상 모델이기 때문에 그 보상 모델을 잘 설계하자는 겁니다. 그리고 그 보상 모델을 잘 설계하는 방법으로 Self-Principle Critique Tuning(SPCT)이라는 새로운 방법을 사용합니다.
SPCT는 하나의 질문에 대해 여러 응답이 주어졌을 때 각각의 응답을 평가하되, LLM을 활용해서 평가 결과를 생성합니다. 따라서 입력 형태에 구애받지 않고 유연하게 데이터를 처리할 수 있다는 장점이 있고, 여러 번의 샘플링을 통해서 추론 단계에서의 확장성(Inference-time Scalability)도 확보할 수 있습니다.
논문에서는 이런 프레임워크를 바탕으로 만든 보상 모델을 DeepSeek-GRM이라고 명명하고, 기존의 보상 모델과 성능을 비교했습니다. 아래 표에서 확인할 수 있듯이, 여러 벤치마크에서 GPT-4o, Gemini-1.5-Pro를 비롯한 여러 대형 모델을 능가하며, 모델 규모 대비 전반적으로 우수한 성능을 보입니다.

DeepSeek GRM의 성능
출처: Inference-Time Scaling for Generalist Reward Modeling (Liu et al., 2025)
LLM이 LLM을 평가하는 시대
LLM이 언어를 이해하는 근본 원리에 대한 의문은 여전히 남아있지만, 우리의 복잡한 요구를 정확히 파악하고 맞춤형 답변을 제공하는 모습을 보면 “LLM이 정말 언어를 이해하고 있다”고 느껴집니다. 심지어 이제는 그 수준을 넘어, 자신이 생성한 결과물을 비판적으로 평가하고 개선하는 메타인지적 능력까지 갖추게 되었습니다.
평가는 이해보다 한 차원 높은 사고력을 필요로 합니다. 이러한 변화는 단순한 기술적 발전 이상의 의미를 갖습니다. 우리가 지능과 의식에 대해 가지고 있던 기존 개념의 경계를 흐리게 만들고 있기 때문입니다. 하루가 다르게 발전하는 인공지능이 내일은 어떤 형태로 진화할지, 가늠하기가 어렵습니다. 지금은 LLM이 LLM을 평가하는 시대입니다. 어쩌면 이미 LLM이 인간을 평가하고 있는 시대일지도 모릅니다. 이 시대가 지나면 우리는 무엇을 보게 될까요?