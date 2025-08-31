2022년 오픈AI가 발표한 챗GPT가 열풍을 일으키며 등장한 이래 인공지능(AI)은 짧은 시간에 현대인의 삶에 급속히 파고들었다. 업무 뿐 아니라 생활의 주요 결정에 AI를 활용하는 경우가 크게 늘어났다. 다만, ‘할루시네이션(환각)’은 AI가 완벽히 인간을 보조하는 데에 가장 큰 걸림돌로 꼽힌다. 할루시네이션이란 대규모 언어 모델(LLM)을 갖춘 AI가 존재하지 않는 정보를 인식해 무의미하나 부정확한 결과를 생성하는 것을 말한다. 여전히 ‘정확성’에서 AI는 넘어야할 산이 있다는 뜻이다. 이에 정확성은 치열한 경쟁이 벌어지고 있는 AI 시장에서 상대적 우위를 결정하는 가장 중요한 요소 중 하나로 평가받고 있다. AI의 정확성을 평가하는 여러 테스트들도 활발히 이어지고 있다.

이번엔 미국 언론매체 워싱턴포스트(WP)가 주요 AI를 대상으로 정확성 테스트에 나섰다. WP가 자체적으로 미국 공공·대학 도서관 사서들과 함께 AI 검색 테스트를 진행한 뒤 27일(현지시간) 보도한 결과에 따르면 구글 ‘AI 모드’가 가장 정확한 답변을 내놓은 것으로 나타났다. 이번 테스트는 구글 AI 모드와 AI 오버뷰, 챗GPT, 클로드(앤스로픽), 메타 AI, 그록(xAI), 퍼플렉시티, 빙 코파일럿(마이크로소프트) 등 9개의 AI 도구를 대상으로 진행됐다. 이중 최근 업데이트된 챗GPT는 GPT-5와 구형 모델인 GPT-4 터보 두 모델을 포함했다.

테스트는 30개의 까다로운 질문을 던진 뒤 AI 도구가 내놓는 답변 900건을 점수화했다. 모든 도구는 무료 기본 버전(7∼8월 기준)으로만 테스트했고, 질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지에 집중됐다.

테스트 결과 구글 AI 모드가 100점 만점 가운데 60.2점을 얻어 가장 높은 점수를 받았다. GPT-5 기반의 챗GPT가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했다. 일론 머스크의 그록3는 40.1점에 그쳐 8위, 메타 AI는 33.7점으로 가장 낮은 점수를 얻었다. 그록 최신 모델인 그록4는 무료 버전이 없어 테스트 대상에 포함되지 않았다.

종합 점수의 우위·열세와 별개로 모든 AI가 나름의 강점을 가진 것으로 나타났다. 구글 AI 모드는 검색에 강한 모기업의 특성을 살려 퀴즈와 최신 사건 부문에서 가장 정확한 답을 제시했다. 전문 출처 검색에서는 빙 코파일럿, 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았다. GPT-4 터보는 가장 치우치지 않는 답을 제공했다. GPT-5는 전반적으로 성능 개선을 보여 2위를 차지했지만 일부 영역에서는 GPT-4보다 오히려 낮은 점수를 받았다.

WP는 이번 테스트는 AI의 약점을 의도적으로 공략했지만 AI가 여전히 가진 한계도 드러났다고 설명했다. 일상 질문 중 상당수에 대해 AI가 제대로 답하지 못한다는 사실이 드러난 것이다. AI는 정보가 최신인지 여부, 출처가 어느 정도 신뢰가 있는지를 판별하는 데 어려움을 겪고 있으며, 잘못된 답을 자신 있게 내놓기도 했다. 이에 WP는 “결국 AI 답변을 그대로 믿기보다는 사서처럼 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다”고 조언했다.

서필웅 기자 seoseo@segye.com

