LG ‘엑사원 4.5’ 공개… 빅테크 경량 모델 능가

시각·문서 동시 처리 멀티모달 AI
기술 도면·스캔 문서 등 추론 강점

LG AI연구원이 텍스트와 이미지를 동시에 처리하는 멀티모달 인공지능(AI) 모델 ‘엑사원 4.5’를 공개했다. 시각과 문서 이해·추론 영역에서 글로벌 대표 경량 AI 모델보다 뛰어난 성능을 보인 것으로 나타났다.

LG AI연구원이 9일 공개한 엑사원 4.5는 AI 모델의 ‘눈’ 역할을 하는 비전 인코더와 거대언어모델(LLM)을 하나로 합친 비전-언어모델(VLM)이다. 텍스트와 이미지를 함께 이해, 추론하는 모델로 계약서·기술 도면·재무제표·스캔 문서 등 산업 현장에서 다루는 복합문서를 읽고 추론하는 데 강점이 있다.

엑사원 4.5는 오픈AI와 구글, 앤트로픽, 알리바바의 대표 경량 AI모델에 뒤지지 않는 성능을 보였다고 한다. LG AI연구원이 자체 분석한 벤치마크 점수를 보면 엑사원 4.5는 과학·기술·공학·수학(STEM) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록해 미국 오픈AI GPT5-미니(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞섰다.

엑사원 4.5는 지난해 공개한 ‘K-엑사원’의 약 7분의 1 크기인 경량 모델이지만 텍스트 이해와 추론 영역에서 비슷한 수준의 성능을 보였다. 일반 시각 이해를 측정하는 3개 지표와 문서 이해·추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 글로벌 동급 모델을 웃돌았다.

LG AI연구원은 정부가 추진하는 독자 AI 파운데이션 모델 프로젝트 3단계에 진출하면 K-엑사원 데이터 양식(모달리티) 확장을 본격화할 계획이다. 물리적 세계를 이해하고, 판단하는 피지컬 인텔리전스로 엑사원을 발전시키겠다는 구상이다. LG AI연구원은 이날 엑사원 4.5를 글로벌 오픈소스 플랫폼 허깅페이스에 공개해 연구·학술·교육에 사용할 수 있도록 했다.

이정한 기자 han@segye.com 기자페이지 바로가기

스포츠

LG ‘엑사원 4.5’ 공개… 빅테크 경량 모델 능가

오피니언

HOT뉴스

포토