영화 ‘진리에게’에 AI 음원분리 기술이 적용된 사연 [이지민의 스타트업 줌人]

설리 목소리, AI 기술로 ‘라비앙 로즈’와 분리
가우디오랩, 오디오 전문가 40여명이 이끌어

고(故) 가수 겸 배우 설리의 마지막 인터뷰를 담은 다큐멘터리 영화 ‘진리에게’가 이달 부산국제영화제(BIFF)에서 공개됐다. 영화의 절정에는 ‘말의 무게’를 고민하는 설리의 모습이 담겼다. 그런데 원본 영상에서 설리의 목소리 배경으로 ‘라비앙 로즈’ 곡이 흐른다. 이렇게 저작권 문제가 걸리면 원래는 재촬영을 해야 하지만, 2019년 10월 설리가 세상을 떠나면서 물리적인 재촬영은 불가능해졌다.

인공지능(AI) 오디오 전문 기업 가우디오랩의 음원 분리 AI 기술이 이를 해결했다. 영화 사운드 작업을 담당한 웨이브랩의 이성진 감독은 AI 기술로 배경음악을 제거하고 유사한 음원 대체 기능을 사용해 장면의 분위기를 해치지 않고 설리의 목소리도 그대로 살려냈다.

전상배(사진) 가우디오랩 최고과학책임자(CSO)는 영화를 지켜낸 이 기술에 큰 자부심을 보였다. 전 CSO는 서울대학교 음향공학박사이자 약 25년 경력의 오디오 기술 연구자다. 삼성전자 DMC연구소에서 입체 음향 관련 연구를 진행하는 책임 및 수석 연구원으로 경력을 쌓았다. DMC연구소에서 입체 음향 표준과 스마트폰, TV, 사운드바, 홈시어터 등 삼성전자 제품의 차별화한 지식재산(IP)을 개발했던 그는 가오디오랩에서 연구개발(R&D)를 총괄하고 있다. 다음은 전 CSO와 일문일답.

─‘진리에게’에 적용된 AI 기술 원리를 설명한다면.

“음원 분리는 여러 음원이 섞여 있는 오디오에서 개별, 특정 음원을 추출하는 과정을 뜻한다. 밴드 음악에서 보컬 또는 드럼 등 특정 악기의 소리만 추출하거나, 여러 사람이 말하고 있는 상황에서 특정 인물의 목소리만을 추출하는 기술 등이 여기에 해당한다.

‘진리에게’에는 세계 최고 음성 추출 모델인 가우디오랩 GSEP이 활용됐다. 설리의 목소리만 분리한 뒤 가우디오랩의 화자 분리 모델을 활용해 두 목소리(설리, 라비앙 로즈 음악) 중 설리의 목소리만 분리해냈다.”

─여타 기업에서 모방할 수 없는 독보적인 기술인지.

“음원 분리 뒤 품질과 음질에서 독보적이다. 음원 분리 기술은 주로 SDR(Signal-to-Distortion Ratio)라는 지표로 평가된다. 가우디오랩의 음원 분리 기술은 전 세계 최초로 SDR 10을 넘어 2021년 12월 최고 수준을 기록한 기술이다. 이에 멈추지 않고 우수한 연구진들이 설계한 심리음향 모델을 활용해 그 품질을 계속해서 높이고 있다.”

─가우디오랩은 어떤 회사인가.

“‘혁신적인 기술로 사람들에게 훌륭한 소리 경험을 제공한다’는 미션으로 2015년 설립한 인공지능(AI) 오디오 기술 스타트업이다. 요즘 핫한 ‘공간 음향’에 필수적인 바이노럴 렌더링(Binaural rendering) 기술이 국제표준 채택을 받으면서 이를 계기로 설립됐다. 바이노럴 렌더링은 가상세계에서도 실제와 같은 느낌을 주는 음향 기술이다. 15명의 오디오 연구개발진(음향공학 박사 9명, 석사 6명)을 확보했다. 이들을 포함해 총 40여명의 오디오 전문가가 속해있다.”

─투자 유치와 성과는.

“창업 이후 현재까지 소프트뱅크벤처스, 삼성, 네이버, CJ 등으로부터 누적 169억원의 투자를 유치, 콘텐츠, 스트리밍, 모바일 시장에서 공간 음향 및 AI 오디오 기술을 리딩하고 있다. 지난해 CES에서는 혁신상 2관왕을 받았다.”

─‘진리에게’ 외에도 크게 보람을 느낀 순간이 있을지.

“연구 개발 결과 세계 최고 수준의 품질을 만들어냈을 때, 오디오 연구자로서 가우디오랩의 기술력에 대한 보람을 크게 느낀다. 기술이 알려져 뮤직레이더 같은 해외 전문 언론부터 음악을 좋아하는 일반인들에게까지 그 품질을 인정받을 때의 보람이 매우 크다. 또, ‘진리에게’뿐만 아니라 JTBC ‘히든싱어 김현식편’, 디즈니플러스 시지르인 ‘카지노’ 등 기존 미디어 제작 환경에서 불가능하던 작업이 AI 음원 분리 기술인 GSEP을 통해 가능해졌을 때, 미디어 산업의 패러다임을 바꾸고 있다는 것을 피부로 느낄 수 있다.”

─AI를 이용한 콘텐츠 기업들은 수익화에 어려움을 느끼는 것 같다. 수익화에 자신이 있는지 궁금하다.

“GSEP은 그 용처가 매우 넓은 핵심 기반 기술로 가우디오랩의 다양한 제품군에 적용돼 있다. 텍스트(가사, 자막 등)와 음성의 동기를 맞추는 GTS(Gaudio Text Synchronization)는 이미 멜론, 벅스뮤직, 바이브 등 국내외 뮤직 스트리밍 업체들에서 활용되고 있다. 이밖에도 실시간으로 주변 소음을 제거하는 저스트 보이스(Just Voice), 노래방 솔루션인 G싱(GSing) 등 다양한 회사 제품들에 적용돼 이름만 들으면 알만한 유명 회사 서비스에 이미 적용돼 있다.”

─가우디오랩이 몸담은 산업의 현재와 전망은.

“미디어 시장은 영화, 방송, OTT의 주류 미디어 시장과 유튜브 등 개인 미디어 시장으로 분류할 수 있다. 그중에서 특히 개인 미디어 시장이 계속해서 커지는 양상을 보인다. 자연히 양질의 콘텐츠를 손쉽게 만들고자 하는 수요가 커지고 있다. 그런데 오디오의 경우 원하는 소리를 만들고 다듬는 과정은 상대적으로 어렵고 전문성이 필요하다. 가우디오랩은 미디어 제작 과정에서 이러한 오디오의 제작 및 편집의 난이도를 획기적으로 줄여 고품질 오디오의 대중화를 이루고자 한다. AI, 신호처리, 심리음향 등의 전문 기술을 종합적으로 활용해 ‘전 세계 누구에게나 훌륭한 소리 경험’을 제공하는 게 목표다.”

─향후 서비스 확대 계획은.

“소리를 다루는 기술은 크게 3가지로 구분된다. 소리를 손쉽게 찾거나 만들어내고, 필요한 부분만 추출하거나 지우고, 여러 소리를 의도에 맞게 섞는 것이다. 가우디오랩은 이미 수준급 소리 생성이 가능하고, GSEP로 필요한 부분만 추출하거나 지우는 작업을 크게 단순화해 이미 미디어에 적용돼 있다. 소리 믹싱 기술도 가우디오랩이 오랜 기간 쌓아온 전문 영역이다. 현재는 이 3가지의 기술들이 각각 독립적인 제품으로서 고객사에 맞춤형으로 제공되고 있는데, 앞으로는 세 기술이 모두 융합된 궁극의 사운드 제작 및 편집 서비스로 확대할 계획이다.”

─글로벌 진출 계획은.

“가우디오랩은 ‘국제 표준’과 ‘세계 최고’ 수준의 기술을 확보한 회사인 만큼 창립 전부터 글로벌 진출을 염두에 뒀다. 가상현실(VR) 산업의 태동기인 2015~2017년 가우디오랩은 미국 할리우드에 깃발을 꽂기도 했다. 미국 지사를 세우고, 디즈니, 드림웍스 등 할리우드 콘텐츠 공룡들의 메인 VR 스튜디오들과 협력했다. VR 산업이 다소 위축되고 코로나의 여파를 거치면서 한때 어려움을 겪기도 했지만, 사업영역을 스트리밍 서비스 및 오디오 기기 등으로 넓히고 글로벌 사업 개발 전문가를 영입하는 등 해외 사업영역을 꾸준히 넓혀갔다. 현재는 미국, 영국, 일본, 중국, 독일 등 전 세계 다양한 산업군의 오디오 기술 수요 업체와 파트너십을 맺고 사업화 논의를 진행하고 있다.”