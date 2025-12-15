국가대표 인공지능(AI)에 도전하는 국내 기업들의 대형언어모델(LLM)이 대학수학능력시험 수학과 논술 문제풀이 등에서 낙제점을 받았다. 오픈AI와 구글, 딥시크 등의 LLM 모델 성능에 크게 뒤처지는 것으로 조사됐다.

생성 인공지능(AI) '소라(Sora)'로 만든 이미지

김종락 서강대 교수(수학과) 연구팀(CICAGO Lab)은 최근 ‘생성형 AI와 수학문제 해결 및 생성 워크숍’에서 이런 내용의 성능평가 결과를 발표했다고 15일 밝혔다.



연구팀은 ‘독자 파운데이션 AI 모델 개발사업’에 참여하는 국내 5개 팀의 주요 LLM과 해외 기업 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 했다. 수능 문제는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제로 구성했다. 논술 문제는 국내 대학 10곳의 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 합쳐 30문제를 선정했다.



이번 실험에는 국내 AI 모델 ‘솔라 프로-2(업스테이지)’, ‘엑사원 4.0.1(LG AI연구원)’, ‘HCX-007(네이버)’, ‘A.X 4.0(SK텔레콤)’, ‘라마 바르코 8B 인스트럭트(엔씨소프트·경량모델)’를 활용했다. 해외 모델은 GPT-5.1(오픈AI)·제미나이 3 프로 프리뷰(구글)·클라우드 오퍼스 4.5(앤트로픽)·그록 4.1패스트(xAI)·딥시크 V3.2(딥시크)가 쓰였다.

평가 결과 해외 모델은 70∼90%대 적중률을 보였지만 한국 모델은 절반에도 못 미치는 성적표를 받았다. 58점을 받은 솔라 프로 2를 제외하면 나머지는 20점대에 불과했고, 라마 바르코 8B는 2점으로 가장 낮았다. 제미나이 3 프로(92점), 클라우드 오퍼스 4.5(84점) 등 해외 모델과의 성능 격차가 큰 것으로 분석됐다. 국내 모델의 경우 단순 추론으로 문제를 풀지 못해 파이선 계산 툴을 사용할 수 있게 했는데도 정답률이 낮았다고 연구팀은 설명했다.



연구팀이 대학생 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 ‘엔트로피매스’ 100문제 중 10문제를 뽑아 동일하게 시험한 결과도 비슷했다. 해외 모델은 그록 4.1(90점), GPT 5.1(86.7점) 등 82.8∼90점을 기록했지만 한국 모델은 7.1∼53.3점으로 낮은 점수를 보였다. 세 번의 기회를 주는 방식에서는 해외 모델이 모두 90점 이상을 기록한 반면, 한국 모델은 20∼70점에 그쳤다. 김 교수는 “국내 모델 수준이 해외 프런티어 모델에 비해 많이 뒤처짐을 알 수 있었다”고 평가했다.



업계 일각에선 “추론 모드를 탑재하지 않은 국내 LLM 모델이 대부분이어서 같은 기준으로 해외 모델과 비교하기 어렵다”는 반응이 나온다. 다만 글로벌 빅테크(거대 기술기업)들이 천문학적인 비용을 들여 훈련한 LLM과 국내 모델이 경쟁하긴 어렵다는 데엔 대부분 동의한다. 이번 실험에 쓰인 해외 모델 4개는 미국의 대표 AI 기업이 개발했고, 딥시크 V3은 미국을 맹추격하는 중국 모델로 국내 기업과 기술력 차이가 크다. 정부는 개별 기업의 한계를 극복하기 위해 소버린 AI 국가대표팀을 꾸렸고, 민관이 협력해 독자 AI 모델 개발에 힘을 쏟을 계획이다.

