"박사급 AI"라던 GPT-5, 사용자들 "이전 모델이 낫다"
기술적 성능은 향상됐지만 실사용자들의 평가는 왜 차가울까?
안녕하세요. 디지털에이전시 이앤아이입니다.
"박사급 전문가 팀을 주머니에 둔 것 같다"던 샘 알트만의 자신감 넘치는 발언과 달리, GPT-5의 첫 주말은 예상외로 차갑게 흘러갔어요.
8월 8일 정식 공개된 GPT-5가 벤치마크에서는 역대 최고 성능을 보여줬지만, 정작 실사용자들의 반응은 엇갈리고 있거든요.
벤치마크만 보면 정말 인상적이에요.
수학 문제(AIME 2025) 94.6%, 코딩 문제(SWE-bench) 74.9%, 의료 분야(HealthBench) 46.2% 정확도를 기록했고, 환각 현상도 이전 모델 대비 45% 감소했어요. 특히 "한 줄로 게임 만들기" 같은 데모 영상들은 정말 놀라웠고요.
하지만 실제 사용자들의 평가는 달라요.
해외 커뮤니티에서는 "GPT-4o가 더 낫다", "구독을 끊고 Claude로 갈아탄다"는 반응이 쏟아지고 있어요. 심지어 출시 3일 만에 오픈AI가 Plus 이용자들에게 GPT-4o를 다시 선택할 수 있게 해줬을 정도예요.

문제의 핵심은 '실시간 라우터' 기능에 있어요.
GPT-5는 질문 유형에 따라 기본 모델, GPT-5 Mini, 추론 모델 중 하나를 자동으로 선택하는데, 이 라우터가 제대로 작동하지 않았거든요. 고급 질문인데도 경량 모델이 답변하는 바람에 "성능이 떨어진 것 같다"는 불만이 터져 나온 거죠.
더 큰 문제는 사용자가 모델을 직접 선택할 수 없다는 점이에요. 이전에는 GPT-4o, o3 등을 직접 골라 쓸 수 있었는데, GPT-5는 무조건 AI가 알아서 선택해요. 사용자 입장에서는 답답할 수밖에 없죠.
재미있는 건 분야별로 반응이 갈린다는 점이에요.
STEM(과학, 기술, 공학, 수학) 전문가들은 "소폭 개선 정도"라며 차가운 반응을 보이지만, 일반 사용자들은 "글쓰기와 대화 품질이 크게 향상됐다"고 평가해요. 특히 음성 모드에 대한 칭찬이 많고요.
결국 GPT-5는 '예술영화 같은 상황'에 처한 것 같아요. 평론가(벤치마크) 평점은 높지만 관객(실사용자) 평점은 아쉬운 그런 느낌이죠. 기술적으로는 분명히 진보했지만, 사용자 경험은 오히려 복잡해진 면이 있어요.
오픈AI도 이런 반응을 의식했는지 "똑똑한 사람에게는 똑똑하게 질문해야 한다"며 프롬프트 가이드를 연달아 공개하고 있어요. 하지만 사용자들은 "적당히 질문해도 좋은 답을 해줘야 하는 거 아니냐"고 반박하고 있고요.
이번 사태는 AI 발전의 중요한 교훈을 남겼어요. 벤치마크 점수와 실제 사용 경험 사이의 간극, 그리고 사용자 편의성의 중요성을 다시 한번 확인시켜줬거든요. GPT-5가 진정한 성공을 거두려면 기술적 완성도만큼 사용자 경험도 챙겨야겠어요.
이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!