아티피셜 애널리시스 ‘지능지표’ 12위
비용 대비 성능 측면에서 높은 평가
“그래도 그록4 1등”…머스크도 견제
업스테이지 “기업발 AI 수요 흡수”
1000억 파라미터 LLM 개발도 박차
토종 거대언어모델(LLM)이 처음으로 글로벌 프런티어급에 입성했다. 국내 인공지능(AI) 스타트업 업스테이지의 ‘솔라 프로 2’가 주인공이다. 특히 같은 성능 평가에서 1위를 차지한 일론 머스크의 인공지능(AI) 스타트업 xAI의 ‘그록4’와 비교했을 때 성능은 20%가량 낮지만 평가 시행에 들어간 비용은 50분의 1 수준으로 효율성이 뛰어난 것으로 집계됐다.
업스테이지는 솔라 프로 2가 독립 LLM 성능 분석기관 ‘아티피셜 애널리시스’가 최근 발표한 ‘지능 지표’에서 12위를 기록하며 국내 유일의 프런티어 모델로 선정됐다고 21일 밝혔다. 지난 10일 솔라 프로 2를 공식 출시한 지 10여일 만의 성과다. 개발사 기준으로 업스테이지는 전 세계에서 프런티어급 모델을 보유한 상위 10대 개발사 중 하나로 안착했다.
아티피셜 애널리시스의 지능 지표는 추론, 종합지식, 수학, 코딩 등 총 7개 대표 벤치마크를 바탕으로 글로벌 상위권 모델을 평가한다. 현재 가장 점수를 따기 힘든 AI 성능 평가로 알려진 ‘인류의 마지막 시험’(Humanity’s Last Exam)도 평가 항목에 포함돼 있다. 업계에서 신뢰성이 높은 지표로, 글로벌 빅테크 기업들도 성능 평가의 기준으로 삼는다.

구체적으로 솔라 프로 2는 58점을 기록하며 세계적으로 유명하고 많이 사용되는 오픈AI의 ‘GPT-4.1’(53점), 메타의 ‘라마 4 매버릭’(51점) 등을 제쳤다. 특히 AI 코딩 능력을 측정하는 ‘휴먼이밸’ 평가에서는 97%를 받아 전체 LLM 중 5위에 올랐다.
솔라 프로 2의 진가는 효율성에 있다. 지능 지표에서 73점으로 1위를 차지한 그록4는 AI 모델의 체급을 결정하는 매개변수(파라미터)가 1조7000억개에 달한다. 반면 솔라 프로 2는 310억개로 50분의 1 수준이다. 매개변수가 작을수록 LLM 구동에 필요한 하드웨어 사양도 낮아져 범용성이 커진다. 지능 지표 전체 평가를 수행하기 위해 든 비용을 비교해도 그록4는 1604달러, 솔라 프로 2는 30달러로 53배 이상 차이가 난다. 머스크는 자신의 엑스(X·옛 트위터) 계정에 솔라 프로 2의 프런티어 모델 선정 소식을 공유하며 “그래도 그록4가 1등”이라고 적는 등 견제에 나섰다.
업스테이지는 이번 결과로 기업발 AI 수요를 흡수할 것으로 기대했다. 현재 기업 환경에서 가장 널리 쓰이는 모델은 GPT-4.1인데, 이번 평가에서 솔라 프로 2는 GPT-4.1 대비 성능이 12% 이상 뛰어나면서도 평가에 투입된 비용은 절반 수준으로 나타나서다. 업스테이지는 “(솔라 프로 2는) 기업 입장에서 최소 도입 비용으로 최고의 성능을 구현할 수 있는 모델”이라고 설명했다.
업스테이지는 솔라 프로 2가 전작 대비 큰 발전을 이뤘다고 자체 평가했다. 단순한 언어 이해를 넘어 사용자의 의도를 파악하고 외부 도구를 활용해 실행 가능한 결과물을 제공하는 ‘에이전트형 LLM’으로 진화했다는 것이다. 예를 들어 “최근 3개월간 경쟁사 신제품 출시 동향을 조사하고, 관련 기사 링크를 포함한 PPT 초안을 작성해줘”라고 지시하면 솔라 프로 2가 실시간 검색으로 데이터를 수집·분석해 발표 자료까지 생성하는 과정을 자체적으로 계획한 뒤 알아서 수행한다.
업스테이지는 지능 지표 최상위권 진입을 목표로 한다. 후속 모델로 지금보다 체급을 3배 이상 키운 1000억 파라미터 규모의 차세대 LLM을 개발할 예정이다.
[ⓒ 세계일보 & Segye.com, 무단전재 및 재배포 금지]