🔍 "더 똑똑한데 더 틀린다?" — 챗GPT 최신 모델, 환각률 오히려 증가

carpe08 2025. 5. 2. 17:29

최근 오픈AI가 공개한 최신 AI 모델 ‘GPT o3’와 ‘GPT o4 미니’는 전보다 한층 발전된 성능을 자랑합니다. 특히 시각 정보를 추론 과정에 통합할 수 있는 혁신적인 기능으로 주목을 받았죠. 하지만 아이러니하게도, 이들 모델에서 ‘환각(hallucination)’ 현상은 더 심각해졌다는 평가가 나왔습니다.

🤖 환각이란 무엇인가?

AI에서 말하는 환각이란, 실제 존재하지 않는 정보나 사실을 AI가 그럴듯하게 만들어내는 오류를 의미합니다. 예를 들어, 존재하지 않는 논문을 진짜처럼 인용하거나, 틀린 내용을 확신에 차서 설명하는 식입니다.

이러한 환각은 특히 법률, 회계, 의료처럼 고정확도가 요구되는 분야에서 큰 문제가 됩니다. 단순 오류가 아니라, 사용자에게 잘못된 판단을 유도할 수 있는 정보를 제공하기 때문입니다.

📊 GPT o3·o4 미니 환각률, 전 세대보다 증가

미국 IT매체 테크크런치에 따르면, 오픈AI의 자체 벤치마크 테스트인 ‘Person QA’에서 o3 모델은 33%, **o4 미니는 무려 48%**의 환각률을 기록했습니다. 이는 이전 세대인 o1(16%)이나 o3 미니(14.8%)보다 훨씬 높은 수치입니다.

📈 환각률 비교:

o1: 16%
o3 미니: 14.8%
o3: 33%
o4 미니: 48% ← 역대 최악

💡 추론형 AI의 딜레마

아이러니한 건, 이들 모델은 다른 측면에서는 분명 뛰어난 성과를 보였습니다. SWE(Supervised Web Evaluation) 테스트에서 o3는 69.1%, o4 미니는 68.1%의 성능을 기록하며, 클로드 3.7 소넷(62.3%)보다도 우수한 결과를 보였습니다.

게다가 이번 모델은 이미지를 단순히 ‘보는’ 수준이 아니라, 화이트보드 그림이나 흐릿한 그래프 등도 추론에 활용할 수 있다는 점에서 기술적으로 큰 도약입니다.

그럼에도 불구하고, AI가 스스로 판단해 답을 구성하는 과정에서 잘못된 정보를 더 자주 생성하고 있다는 것은 분명 우려할 만한 신호입니다.

🧪 오픈AI의 입장: “더 많은 연구 필요”

오픈AI는 환각 증가의 원인을 명확히 밝히진 못했지만, 한 가지 가능성으로 “모델이 더 많은 상황과 요청을 다루게 되면서, 정확한 결과뿐 아니라 오류도 함께 늘었다”고 언급했습니다.

또한, 모든 문제에서 환각을 완전히 제거하는 것은 어려운 일이라며, 신뢰성과 정확도를 높이기 위한 연구를 계속하겠다고 밝혔습니다.

🔚 블로그를 마치며: “강력함 ≠ 정답”

AI는 점점 더 똑똑해지고 있지만, “똑똑하다고 해서 항상 맞는 말만 하진 않는다”는 것이 이번 결과에서 드러났습니다. 특히 정보의 진위를 판단하는 능력은 여전히 사람에게 남아 있는 과제입니다.

GPT o3, o4 미니처럼 새로운 기술이 나올 때마다 우리는 환상과 현실 사이의 균형을 다시 돌아봐야 합니다. 강력해진 추론형 AI의 등장은 분명 환영할 일이지만, 그만큼 신뢰성과 책임에 대한 고민도 함께 커져야 하지 않을까요?

320x100

저작자표시 비영리 변경금지 (새창열림)