“그림책만 보던 AI 현실로 나온 격”…피지컬 AI '월드 모델' 경쟁 본격화 [나인O'Clock]

조민수 포스텍 무은재 석좌교수 인터뷰
CVPR 2026에 월드 모델 압축 등 논문 5편 채택
"공장보다 가정 로봇이 어렵다
韓 제조업 자동화는 절호의 기회"
AI '메인스트림' 진입이 과제

챗GPT는 변호사 시험을 가뿐히 통과하고, 단 한 줄의 명령어로 시를 쓴다. 실사 수준 이미지도 순식간에 생성한다. 그러나 “식탁 위 머그잔을 잡으라”는 간단한 명령 앞에서는 쩔쩔맨다. 고도의 추론은 AI에겐 쉽지만, 세 살짜리 아이도 할 수 있는 공간 지각과 행동은 AI에게 어렵다는 ‘모라벡의 역설’이다. 1980년대 한스 모라벡 카네기멜런대 교수 등이 정리한 이 명제는 오랫동안 AI 발전의 거대한 벽이었다. AI가 따라잡은 인간의 추론 능력은 수십만 년의 산물이지만 사물을 보고 손을 움직이는 지각·운동 능력은 수억 년의 진화가 쌓인 결과물이기 때문이다.

포스텍 조민수 교수가 피지컬 AI 시대의 핵심 과제인 월드모델 토큰 압축 기술(수백 개→8개)과 데이터 수집 방식의 혁신을 진단한 내용을 형상화한 인포그래픽. AI가 생성.

그러나 AI가 화면 밖으로 나와 ‘몸’을 갖기 시작하면서 이 역설도 흔들리고 있다. 텍스트와 이미지의 디지털 세계에 머물던 AI가 실제 물리 환경에서 사물을 잡고, 장애물을 피하며, 인간과 상호작용하는 ‘피지컬 AI’의 시대로 진입한 것이다. 올 초 젠슨 황 엔비디아 최고경영자(CEO)가 “피지컬 AI의 ‘챗GPT 순간’이 왔다”고 선언한 뒤 피지컬 AI는 로봇·제조·자율주행 산업의 차세대 성장축으로 급부상했다.

‘제조업 강국’으로 꼽히는 한국은 피지컬 AI 경쟁에서 어디에 서 있을까. 컴퓨터비전 분야 세계 최고 권위 학회인 ‘CVPR’에 올해 다섯 편의 논문이 채택된 조민수 포스텍 무은재(無垠齋) 석좌교수(컴퓨터공학과)에게 물었다. 그는 카이스트·연세대·고려대·포스텍 4개 대학 교수 45명이 결집한 국가AI연구거점(NAIRL) 참여 교수로, 포스텍에서 컴퓨터비전 연구실을 이끌며 로봇·피지컬 AI를 연구한다. 조 교수는 피지컬 AI를 “동화책과 그림책으로만 세상을 배웠던 어린이가 이제 처음 냉혹한 세상으로 나오는 형국”이라고 표현했다. 지금까지의 AI가 텍스트와 사진·영상 등 비교적 정제된 데이터로 세상을 배웠다면, 이제는 실제 인간이 사는 환경에 손을 뻗기 시작했다는 진단이다. 이동수 기자와 함께 만났다.

— 피지컬 AI의 연구 방향을 쉽게 설명해 주시면요.

= 현실 세계는 정말 복잡미묘합니다. 컵을 들 때를 떠올려보세요. 컵의 무게가 얼마일지, 손에서 미끄러지지 않을지, 옆 사람과 부딪히진 않을지를 동시에 계산합니다. 기존 AI 연구는 물체 인식, 질의응답, 행동 인식을 따로 다뤘는데 현실은 이 모든 요소가 한꺼번에 얽혀 있습니다. 피지컬 AI는 임바디먼트(embodiment·체화), 즉 몸을 가지고 환경에 개입하는 AI예요. 문제는 사람조차 자신이 어떻게 컵을 드는지 완전히 설명하지 못한다는 점입니다. 인지과학·심리학·생물학에서 아직 다 밝혀내지 못한 영역이죠. AI에게 가르쳐줄 교과서가 없는 셈입니다. 그래서 지금까지 연구의 주류는 사람을 그대로 따라 하게 학습시키는 '이미테이션 러닝'이었습니다. 한계가 분명하죠.

— 피지컬AI 분야에서는 데이터 문제도 난제로 꼽힙니다. 인도 공장에서 인간 노동자가 AI 카메라를 부착하고 학습 데이터를 만드는 장면이 최근 사회관계망서비스(SNS)에서 화제가 됐는데요.

= 이미지나 텍스트 데이터는 인터넷에 차고 넘치는데, 피지컬 인터랙션 데이터는 그렇지 않습니다. 어떤 몸체로, 어떤 센서를 써야 할지부터 통일이 안 돼 있어요. 손에 느껴지는 힘과 압력 같은 멀티모달(다중감각) 정보를 어떻게 수집하고 연결할지도 정해지지 않습니다.

현재는 두 갈래로 문제를 풀고 있어요. 하나는 표준화된 수집 기구로 인터랙션 데이터를 직접 모으는 방식입니다. 노동자의 손과 머리에 센서를 붙이거나, 한국 정부의 ‘제조업 AI 전환(M.AX) 얼라이언스’처럼 각 분야 장인의 동작을 데이터화하는 시도가 그렇죠. 의미 있는 접근이지만 스케일링은 쉽지 않아요. 환경을 완전히 맞추지 않으면 데이터 간 도메인 갭이 생기고, 한 번 빠뜨린 데이터는 복구할 방법이 없거든요.

다른 하나는 유튜브 같은 비디오를 대량 수집해 사람과 사물의 상호작용을 뽑아내는 방식입니다. 비디오는 스케일링이 쉽지만 무게나 힘처럼 영상으로 알 수 없는 정보가 많아 결국 양쪽 다 필요해요.

◆ 더 작고 가볍게…토큰 경량화 ‘핵심’으로

— 그래서 등장하는 게 ‘월드 모델(world model)’입니다. 거대언어모델(LLM) 다음 전환점으로도 꼽히는데요.

= 월드 모델은 새로운 개념은 아닙니다. 강화학습이나 제어 이론에서 오래전부터 쓰인 개념입니다. 현재 상태와 내가 취할 행동을 입력받아 다음에 어떤 상황이 펼쳐질지를 예측해 주는 모델이에요. 로봇이 ‘이렇게 손을 뻗으면 어떻게 될까’를 미리 머릿속에서 시뮬레이션해보는 두뇌라고 보시면 됩니다. 지능이란 결국 환경에서 얻은 정보로 세계상을 확립하고, 그 위에서 행동을 선택하는 거잖아요. 미래를 잘 예측해야 좋은 행동을 고를 수 있기 때문에 월드 모델링이 모든 지능의 토대가 되는 셈입니다.

엔비디아의 ‘코스모스’도 비디오 한 프레임 한 프레임을 상태로 보면, 현재 장면과 텍스트 조건을 조합해 다음 장면을 예측·생성하는 모델로 볼 수 있습니다. 결국 미래 예측을 한다는 점에서 월드 모델로 해석할 수 있는 것이죠. 다만 최근에는 액션 조건 없이 미래를 예측하는 모델까지 폭넓게 월드 모델이라고 부르는 경향이 있습니다.

— 내달 열리는 글로벌 컴퓨터 비전 국제학회인 ‘CVPR’에서 채택된 연구 논문인 ‘월드모델 압축(Planning in 8 Tokens)’은 한 장면을 표현하는 데 수백 개의 토큰(AI가 정보를 처리하는 단위)이 들어가는 월드 모델의 연산 부담을 줄이는 연구입니다. 어떤 발상의 전환인가요.

= 통상 수백 개 토큰을 쓰던 한 장면을 단 8개 토큰으로 압축하는 기법입니다. 비디오 생성 기반 월드 모델 자체가 너무 무거우니까, 이걸 줄여야 공장이나 가정 같은 실제 현장에서도 쓸 수 있습니다.

토큰 압축은 학계 전반의 중요한 흐름입니다. 우리 연구도 그 일환이에요. 사람이 운전할 때 도로의 모든 픽셀을 보지 않잖아요. 신호등, 앞차, 차선처럼 행동에 필요한 정보만 추리듯 AI도 마찬가지입니다. 행동에 직결되는 중요한 정보만 골라내는 게 핵심이죠.

조민수 포스텍(포항공대) 무은재(無垠齋) 석좌교수(컴퓨터공학과) 지난달 30일 서울 서초구 국가AI연구거점(NAIRL) 사무실에서 한국 AI 연구의 현주소에 대해서 설명하고 있다. 이재문 기자

— 월드 모델이 실제 공장이나 가정에 들어가면, 어떤 변화가 가능한가요. 산업 현장에서는 오히려 공장보다 가정 로봇이 더 까다롭다는 얘기도 나옵니다.

= 두 가지 방향이 있어요. 하나는 비디오 생성 모델로 다양한 미래를 시뮬레이션해보고 그중 가장 좋은 행동을 고르는 방식이에요. ‘이렇게 하면 어떻게 되지, 저렇게 하면 어떻게 되지’를 다 그려보는 거죠. 다른 하나는 월드 모델 뒷단에 행동을 직접 출력하는 헤드를 달아서 예측과 행동 생성을 하나의 모델로 통합하는 방식이고요. 우리 팀도 두 가지 접근법을 다 시도하고 있습니다.

공장은 생각보다 어렵지 않아요. 같은 부품, 같은 동선, 같은 작업이 반복되거든요. 진짜 챌린지는 집안일을 돕는 로봇입니다. 가정에는 아이도 있고, 반려동물도 있고, 별의별 일이 다 일어나니까요.

— 산업계 일각에서는 “5년 안에 자동화 전환에 실패하면 핵심 사업이 사라질 위기”라는 진단도 나옵니다.

= 5년보다는 조금 더 걸릴 수도 있습니다. 다만 빨리 해야 한다는 점에는 동의합니다. 한국은 제조업 비중이 크고, 인구 감소와 산업재해 압력도 큽니다. 만능 로봇이 아니더라도 환경을 잘 셋업하면 지금 기술로도 자동화할 수 있는 일이 많습니다. 공장 자동화도 통제된 환경과 기술 발전을 잘 결합하면 훨씬 빨리 자리 잡을 수 있습니다.

◆ “한국 AI, 양은 상위권…임팩트가 과제”

— 한국 AI는 글로벌 무대에서 어디쯤 서 있나요.

= 양으로는 세계 다섯 손가락 안에 듭니다. 매년 세계 컴퓨터비전·기계학습 학회의 발표 논문 수와 참가자 비율로 보면 그래요. 그런데 임팩트로 보면 다릅니다. 프랑스·독일 같은 유럽 국가들에 밀리고, 학술·산업 리더십에서는 더 부족해요. 가장 큰 문제가 그거예요. 같은 내용이라도 미국 매사추세츠공대(MIT)에서 쓴 논문과 한국에서 쓴 논문은 조회수부터 다르거든요.

가격 경쟁력은 중국과 비교 불가 수준이에요. 요즘 한국 연구실에서 로봇을 사서 실험한다고 하면, 대체로 다 중국 로봇입니다. 미국 교수들이 로봇 연구하러 중국에 다녀온다는 얘기까지 들립니다. 다만 한국은 제조업 강국의 지위를 여전히 지키고 있고, 산학 간 협업 관계도 잘 형성돼 있습니다. 인구 감소와 산업재해 압력 같은 사회적 요인 때문에 어느 나라보다 피지컬 AI에 대한 동기부여가 크고요. 정부도 AI 연구·개발(R&D)을 강력하게 뒷받침하고 있어요. 거점을 포함한 한국 연구자들에게 절호의 기회입니다.

— 한국 AI가 글로벌 ‘메인스트림’에 진입하려면 무엇이 필요합니까.

= 동아시아 변방에 위치한 한국의 지정학적 상황은 메인스트림에 접근하기에 불리한 게 사실이에요. 프랑스에 있을 때는 워크숍 한 번 하면 책에서만 보던 사람들이 옆자리에서 커피를 마셨어요. 그 환경에 노출되는 것 자체가 자신감과 자극이 되거든요. 한국 연구자들이 더 의식적으로 국제 교류와 협력에 나서야 하는 이유입니다.

캐나다·일본·프랑스 같은 주요국 AI 기관과의 ‘미들파워’ 연대도 그 맥락입니다. 미국 의존을 다변화하면서 한국 독자 기술의 기반을 넓히는 시도입니다. 7월 서울에서 열리는 국제머신러닝학회(ICML)와 같은 기간, 거점이 공동 주관하는 ‘글로벌 AI 프론티어 심포지엄’도 그 일환입니다. 한국을 중심으로 글로벌 학계가 소통하는 장을 만들겠다는 구상입니다.

— AI 인재의 해외 유출은 오랜 우려입니다. 정부가 인재 유치를 위해 할 일은 무엇이라고 보시나요.

= 유출이 아니라 ‘진출’이라고 해석해야 합니다. 막을 게 아니라 돌아올 자리를 만드는 게 정부의 일이에요. 한국에 좋은 일자리와 기회가 있으면 인재는 돌아옵니다. 저도 그렇게 돌아왔고, 해외에 나가 있는 한국 연구자들 대부분이 같은 마음일 거예요.

해외 유수 연구소 유치도 중요합니다. 일본에는 빅테크 연구소들이 많은데 한국은 별로 없잖아요. 그런 거점이 늘어나면 학생들이 굳이 다 해외로 나갈 필요도 줄어들고, 해외에 있는 한국 연구자들도 돌아올 자리가 생기죠. 한국 안에서도 뛰어난 연구자들이 메인스트림 안으로 들어갈 수 있게 서로 끌어주고 받쳐주는 문화가 적절한 수준에서는 확실히 있어야 한다고 봅니다.

지금 놓치면 아쉬운 이슈, 김나인이 나인O'Clock에 찾아갑니다.