이앤아이 WithENI  로고

홈으로
ENI Media
SMART News
ENI Media

ENI Media


AI 챗봇 환각률 비교: 제미나이 32%로 최고, 퍼플렉시티는 종합 1위

조회 76

2026-04-29 00:00

점수만 볼 게 아니라, 우리 업무에 맞는 ‘검증 습관’이 더 중요합니다


안녕하세요. 디지털에이전시 이앤아이입니다.


요즘은 검색도, 문서 초안도, 고객 응대 문구도 AI 챗봇에게 먼저 물어보는 일이 자연스러워졌죠. 그런데 편해진 만큼 불안도 따라옵니다. 그 불안의 정체가 바로 ‘환각’입니다. 그럴듯하게 말하지만 사실과 다른 답을 내놓는 현상인데요. 최근 인기 AI 챗봇들을 대상으로 허위 정보 응답 비율과 만족도, 안정성까지 묶어 비교한 조사 결과가 공개되면서 다시 한 번 경각심이 커지고 있습니다.


리걸 가디언로고 디지털의 비교 조사(폰아레나 보도 인용)에 따르면, 환각률만 놓고 봤을 때 구글 제미나이가 32%로 가장 높았고 챗GPT가 30%로 뒤를 이었습니다. 반면 퍼플렉시티는 13%로 가장 낮았고, 딥시크 14%, 그록 15%가 뒤를 이었다고 해요. 숫자만 보면 “어떤 챗봇이 더 믿을 만한가”로 결론 내리고 싶지만, 실제 업무에서는 조금 더 입체적으로 볼 필요가 있습니다.



흥미로운 지점은 만족도와 품질 평가가 환각률과 꼭 같은 방향으로 움직이지 않는다는 점입니다. 이용자 만족도는 딥시크와 챗GPT가 5점 만점에 4.7점으로 공동 1위였고, 퍼플렉시티는 4.6점으로 뒤를 이었습니다. 응답의 일관성과 품질에서는 키미 AI가 4.3점으로 가장 높았고, 챗GPT·코파일럿·제미나이가 4점대를 기록했습니다. 즉, 사람들이 “쓰기 좋다”고 느끼는 경험과 “사실이 맞다”는 것은 별개의 축일 수 있다는 뜻이죠. 문장이 매끄럽고 자신감 있게 말하면, 오히려 검증을 건너뛰기 쉬워지는 것도 문제입니다.


안정성도 체크 포인트입니다. 조사 기간 동안 퍼플렉시티와 그록은 중단 없이 운영됐고, 챗GPT 99.98%, 제미나이 99.95%로 높은 가동률을 보였습니다. 반면 클로드는 99.68%로 상대적으로 낮았다고 합니다. 수치만 보면 모두 ‘거의 항상 켜져 있는’ 수준이지만, 대량 문의가 몰리는 이벤트 페이지나 캠페인 기간엔 작은 차이가 체감으로 커질 수 있습니다.


종합 점수는 퍼플렉시티가 85점으로 1위, 그록 79점으로 2위, 딥시크가 그 뒤를 이었습니다. 챗GPT는 50점으로 6위, 제미나이는 41점으로 8위였고 메타 AI는 37점으로 최하위였다고 하네요. 다만 이 결과를 “순위표”로만 받아들이기보다는, 우리 조직의 사용 목적을 먼저 정리하는 게 더 실용적입니다. 예를 들어 홈페이지 운영이나 콘텐츠 제작에서 AI를 쓴다면 ‘초안 작성’과 ‘사실 확인’의 역할을 분리해두는 게 안전합니다. 초안은 빠르게 뽑되, 숫자·날짜·법적 표현·의학/교육 관련 정보 같은 민감한 내용은 반드시 1차 출처 링크나 공식 문서로 재확인하는 방식이죠. 대학이나 병원 홈페이지처럼 신뢰가 핵심인 영역이라면, 이 검증 프로세스가 사실상 품질관리의 일부가 됩니다.


이번 조사가 알려주는 메시지는 단순합니다. 어떤 챗봇이든 틀릴 수 있고, “잘 말하는 AI”일수록 더 위험할 수 있다는 것. 그래서 도입보다 중요한 건 운영입니다. 우리 업무에 맞는 도구 조합과 검증 루틴을 먼저 만들어두면, AI는 훨씬 든든한 생산성 파트너가 됩니다.


메타 설명: 인기 AI 챗봇 비교 조사에서 제미나이가 환각률 32%로 가장 높았고 퍼플렉시티가 종합 1위를 기록했습니다. 챗GPT는 6위, 제미나이는 8위로 나타난 가운데, 업무에서 AI를 안전하게 쓰기 위한 검증 습관과 활용 전략을 정리합니다.


#AI챗봇비교 #환각률 #제미나이 #챗GPT #퍼플렉시티 #그록 #딥시크 #AI검증 #생성형AI활용 #홈페이지콘텐츠 #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업


이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!