Google과 Microsoft의 AI 진단은 어디까지 왔을까?
- 한눈에 보는 핵심요약
- - 환자와 대화하며 진단하는 구글의 AMIE를 소개합니다. - 의사 역할을 분담해 협의하는 MS의 MAI-DxO를 살펴봅니다. - 두 시스템을 통해 본 AI 진단 기술의 가능성과 한계를 짚어봅니다
#101 위클리 딥 다이브 | 2025년 07월 23일
🩺 Google과 Microsoft의 AI 진단은 어디까지 왔을까?
안녕하세요! 에디터 스더리입니다 :)
AI의 발전으로 앞으로 사라질 직업에 대한 이야기를 종종 듣게 되죠. 정말 AI가 결국 사람의 일을 대체하게 될까요? 사실 AI는 이미 우리 삶과 일에 깊숙이 스며들어 있고, 기술 수준 역시 과거와는 비교할 수 없을 만큼 빠르게 발전하고 있습니다. 이제는 더 이상 AI가 사람을 대체한다는 말이 허무맹랑한 이야기로만 들리진 않죠. 🤔
특히 최근에는 LLM과 멀티에이전트 기술의 발전으로, 여러 분야에서 인간과 비슷하거나 더 뛰어난 수준의 성과를 내는 사례들이 속속 등장하고 있는데요. 최근 Google과 Microsoft는 이러한 기술을 의료 도메인에 적용해, Medical Multi-Agent 시스템을 각각 선보였습니다. 오늘은 두 시스템, AMIE와 MAI-DxO에 대해 살펴보도록 하겠습니다!
의료 대화 천재, Google의 AMIE
본격적인 내용을 살펴보기 전에, 우리 모두에게 익숙한 병원 방문 경험을 떠올려볼까요? 우리는 몸이 아프면 병원에 가고, 의사를 만나 증상에 대해 이야기를 나눕니다. 의사는 이를 바탕으로 환자의 상태를 파악하고, 진단을 내린 뒤 치료 방향을 결정하죠.
사실 진료에서 이 대화가 차지하는 비중은 생각보다 훨씬 큰데요. 전체 진단의 60~80%는 병력 청취(Medical History Taking)만으로 결정된다는 연구 결과도 있을 만큼, 의사와 환자 간의 소통은 진단 과정의 핵심이라 할 수 있습니다. Google DeepMind에서 개발한 AMIE(Articulate Medical Intelligence Explorer)는 바로 이 **‘대화’**에 주목하여 스스로 진료 현장의 대화 흐름을 재현하며 진단을 구성할 수 있도록 개발되었습니다.
이러한 진단 대화(Medical Conversation)는 단순히 의학 정보를 알고 환자의 정보를 수집하는 것을 넘어서 환자의 답변에 따라 질문을 조율하기도 하고, 환자와 신뢰를 형성하며 진단 과정을 구조화하는 복합적인 임상 기술입니다. 따라서 이러한 대화를 잘 수행하는 시스템을 만들고 평가하기 위해서는, 다층적인 평가 기준도 함께 필요합니다.
하지만 현실의 의료 데이터를 사용하여 이러한 능력을 학습시키는 데에는 여러 가지 제약이 있었습니다. 실제 의료 대화는 질환과 시나리오가 제한적이라 확장성이 떨어진다는 점과 종종 비문, 은어, 생략 등 품질이 낮거나 노이즈가 많아 LLM 학습에 적합하지 않은 경우가 많았다는 점이었습니다.
이러한 문제를 해결하기 위해 연구진은 가상의 진료 환경에서 AMIE가 자기 자신과 대화하며 학습할 수 있는 Self-play 기반 시뮬레이션 학습 구조를 고안했습니다. 이를 통해 AMIE는 수많은 질병과 진단 상황을 인위적으로 생성하여 고품질의 진단 대화 데이터셋을 지속적으로 확보할 수 있게 되었습니다.
출처: Towards Conversational Diagnostic AI (Tu, Tao, et al., 2025)
연구진들이 설계한 시뮬레이션은 다음과 같습니다.
먼저, 연구진들이 HealthQA, MedicineNet 등의 데이터셋으로부터 선별한 질환에 따라 Vignette Generator가 환자의 기본적인 정보부터 관련 증상, 과거 병력 등으로 가상의 환자 시나리오를 생성합니다. 다음으로, 생성된 환자 시나리오에 대해 AMIE는 환자(Patient Agent), 의사(Doctor Agent), 그리고 대화 조정자(Moderator)로 현실감 있는 대화를 수행합니다. 이 대화에 Self-Play Critic이라는 평가자 역할의 에이전트가 개입합니다. 이는 대화의 흐름과 정답 진단(Ground Truth)를 인지한 상태에서 의사 역할을 수행한 AMIE에게 공감, 질문의 적절성, 진단 전략의 타당성 등 다양한 기준으로 피드백을 제공합니다. 제공된 피드백과 개선된 대화들은, 각각 내부 루프(Inner Loop)와 외부 루프(Outer Loop)에서 반영되어 AMIE가 더 나은 수준의 대화를 지속적으로 이끌어갈 수 있도록 합니다.
- 내부 루프(Inner Loop): AMIE가 AI 환자와 진단 대화를 수행하고, 그 과정에서 발생한 대화에 대해 자체적인 피드백 메커니즘을 활용해 행동을 개선합니다.
- 외부 루프(Outer Loop): 이 개선된 대화를 학습 데이터로 사용해 AMIE를 반복적으로 파인튜닝(fine-tuning)하고, 성능이 향상된 AMIE는 다시 새로운 self-play 시뮬레이션에 참여하게 됩니다.

모델이 충분히 학습된 이후, 연구진은 AMIE의 성능을 평가하기 위해 실제 의대생 평가에 사용되는 OSCE(Objective Structured Clinical Examination) 형식의 블라인드 테스트를 진행했습니다. AMIE와 1차 진료의(Primary Care Physician; PCP) 모두 동일한 가상 환자 시나리오를 바탕으로 진단 대화를 텍스트 기반으로 수행했으며, 평가는 환자 역할을 맡은 Patient Actor와 의료 전문가(Specialist Physician)이 진행하였습니다. 그 결과는 꽤 놀라웠는데요..! AMIE가 질문 설계, 진단의 논리성, 공감 표현 등 32개의 평가 지표 전반에서 1차 진료의보다 동등하거나 더 높은 점수를 받았으며, 의료 전문가와 환자 평가자 모두로부터 대화 품질에 대해 더 나은 평가를 받았다는 것입니다. 특히, 공감처럼 사람이 더 잘할 수 있다고 여겨졌던 부분에서도 AMIE가 좋은 평가를 받은 것은, 의료 AI의 가능성에 대한 기대를 한층 더 높여주는 것 같습니다.
의사들의 오케스트라? MAI-DxO
한편, Microsoft는 진단의 또 다른 측면에 주목했습니다. 이들은 기존 시스템들이 주로 정답을 맞히는 능력만을 평가하는 데 그쳤다는 점에 착안해, 의사가 실제 진료 상황에서 어떻게 정보를 수집하고 자원을 활용하는지를 평가할 수 있는 새로운 시스템, MAI-DxO(Microsoft AI Diagnostic Orchestrator)를 제안했습니다.
출처: Sequential Diagnosis with Language Models (Nori, Harsha, et al., 2025)
MAI-DxO는 서로 다른 전문 역할을 가진 가상의 에이전트들이 구성된 패널(Virtual Doctor Panel)을 통해 진단을 수행하는 것이 특징입니다. 패널은 총 다섯 가지 역할로 구성되며, 각 에이전트는 다음과 같은 기능을 수행합니다.
- Dr. Hypothesis: 가능한 질환을 확률 순으로 정리하고, 새로운 정보를 얻을 때마다 이를 업데이트합니다.
- Dr. Test-Chooser: 주요 가설들을 구분할 수 있도록 진단적 효용이 높은 검사를 최대 3개까지 선택합니다.
- Dr. Challenger: 현재 진단 가설에 의심을 제기하고, 반례가 될 수 있는 증거나 검사를 제안합니다.
- Dr. Stewardship: 검사 비용을 관리하며, 경제적으로 효율적인 대안을 제시합니다.
- Dr. Checklist: 테스트 이름의 유효성 및 추론의 일관성을 확인하는 품질 관리 역할을 수행합니다.
이 에이전트들은 Chain of Debate, 즉 구조화된 토론 과정을 거쳐 질의, 검사, 또는 최종 진단 중 어떤 행동을 취할지 합의합니다. 연구진들은 이 구조를 바탕으로, 다섯 가지 변형을 실험했는데요. 가장 단순한 Instant Answer 방식부터, Question Only, Budgeted, Unconstrained Budget, Ensemble 구조까지 다양한 전략을 시도하여 시스템의 성능을 확인하고자 했습니다.
모델의 성능을 검증하기 위해 Microsoft는 새로운 평가 프레임워크인 SDBench(Sequential Diagnosis Benchmark)를 개발했습니다. SDBench는 세계 최고 수준의 진단 난이도로 평가받는 NEJM의 임상 케이스 304건을 기반으로 환자의 초기 정보부터 질문, 검사, 진단에 이르기까지 진단 과정을 단계별로 구성한 것이 특징입니다. 또한 각 검사에는 실제 의료 비용이 적용되어, 단순한 정답 예측이 아닌 임상적 사고력과 자원 활용 능력까지 평가할 수 있도록 설계됐습니다.
이제 MAI-DxO의 결과도 살펴볼까요?
출처: Sequential Diagnosis with Language Models (Nori, Harsha, et al., 2025)
위 그래프는 다양한 모델과 인간 의사의 성능을 진단 정확도(%)와 케이스당 평균 진단 비용(USD) 기준으로 시각화한 것입니다. 일반적으로 그래프에서 오른쪽 위로 갈수록 좋은 결과처럼 보이기 쉽지만, 이 그래프에서는 왼쪽 위로 갈수록 진단 정확도는 높고 비용은 낮아 '더 효율적인 진단 시스템'을 의미합니다. 그래프에서 파란 선은 MAI-DxO의 다양한 변형 모델들, 빨간 + 표시는 실제 의사 집단의 평균 성능을 나타냅니다.
이 중 가장 눈에 띄는 모델은 바로 MAI-DxO Ensemble입니다. 진단 정확도는 무려 85.5%로, 실제 경력 있는 의사 집단의 평균 정확도인 20%를 훨씬 웃도는 성능을 보여주고 있죠. 또한 진단 과정에서 발생한 평균 비용은 o3 모델 대비 70% 이상 낮아 정확도와 효율성 모두에서 우수한 결과를 냈습니다. 다만 높은 정확도를 달성한 대신, 다른 모델들에 비해 진단 비용이 비교적 높은 편이기도 합니다. 이는 정확도와 비용 사이의 트레이드오프가 존재한다는 점을 보여줍니다.
다만, 이 실험에서는 인간 의사 집단은 인터넷 검색이나 외부 자료를 사용할 수 없는 제한된 조건에서 실험에 참여했기 때문에, 실제 임상 환경과는 차이가 있습니다. 이는 MAI-DxO와의 비교에서 다소 불리하게 작용했을 수 있으나, 그럼에도 MAI-DxO는 단순 모델 성능을 넘어서 의사처럼 사고하고 비용까지 고려하는 복합적 판단을 통해 진단 지원 도구로서의 가능성을 충분히 보여주었다고 생각합니다.
이처럼 AI는 이제 정보 검색이나 답변 생성 수준을 넘어, 의학적 사고의 흐름까지 모방하고 있습니다. AMIE는 사람처럼 질문하고 공감하며 진단 대화를 이끌고, MAI-DxO는 다양한 전문성을 지닌 가상 의사들이 협력해 판단을 내리는 방식으로, 단순한 정확도 이상의 의료 지능을 보여주고 있습니다.
하지만 아무리 정교한 시스템이라 해도, 환자의 삶의 맥락을 이해하고 복잡한 결정을 내리는 것은 여전히 사람의 몫입니다. 이외에 윤리적인 책임과 관련된 문제들도 남아있기도 하죠. 현장의 맥락에 맞는 방식으로 올바르게 사용될 수 있도록 잘 설계하는 것이 우리가 다음으로 해야 할 일인 것 같습니다. AI와 인간이 함께 만들어갈 의료의 미래, 여러분은 어떻게 생각하시나요?