개인정보를 인공지능 학습 데이터로 쓸 수 있을까 [알아야 보이는 법(法)]

‘이루다’는 우수한 챗봇이었다. 인공지능(AI) 학습 및 서비스 운영에 쓰인 대화 데이터의 품질이 매우 높았던 것이 그 비결이었다. 이 대화 데이터는 수년간 ‘연애의 과학’이라는 일종의 상담심리 테스트 서비스를 운영한 스캐터랩이 수집한 남녀 간 카카오톡 문장이었다. 이후 개인정보 보호위원회의 과징금이 부과되었고, 결국 이루다 서비스는 중단되고 말았다. 무엇이 이루다를 위법하게 하였을까.

첫째 전·후 서비스의 개인정보 처리 목적이 상당히 달랐다. 연애의 과학은 카톡 대화에 드러난 상대방의 호감도를 측정하는 서비스였고, 이루다는 그 대화 문장을 학습 데이터로 삼아 AI 언어 모델을 구축한 챗봇이었다. 비록 스캐터랩이 연애의 과학 이용자들에게 ‘신규 서비스 개발 목적’으로 개인정보를 수집한다며 동의를 받기는 했지만, 이 정도 추상적인 고지 문구만으로는 상대에게 예측 가능성을 심어주기 어려웠다.

둘째 이루다 담당 직원이 연애의 과학 원 데이터베이스(DB)에 접근하지 못하도록 차단하지 않았다. 이로 인해 이루다 DB상의 문장이 연애의 과학 원 DB상에서 어느 이용자가 올렸는지 역추적을 할 수 있는 여지를 남겼다. 다행히 실제로 그러한 역추적 행위가 없었다고는 하지만, 우리 법상 그러한 역추적을 통해 개인을 식별할 여지를 기술적·관리적 조치로써 충분히 통제하지 않으면 ‘다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보’로서 ‘개인정보’에 해당하는 것을 피하기 어렵다.

셋째 실제 연애의 과학 이용자들이 쓴 문장을 가지고 이루다의 응답 후보군 문장을 구성함으로 인해 개인정보 노출 리스크를 키웠다. AI 학습을 통한 언어 모델 생성과, 그렇게 구축된 모델을 기반으로 챗봇 서비스를 운영하는 것은 별개의 행위이다. 학습 단계에서 개인정보를 사용하더라도 서비스 운영 단계에서 쓰지 않으면 리스크 통제에 성공할 가능성이 현저히 커지는데, 이루다에선 그러한 조치가 취해지지 않았다.

이상의 위법사항은 스캐터랩이 이루다 개발 당시 양질의 법률 자문을 받았더라면 어느 정도 회피 또는 통제할 수 있었으리라는 점에서 안타까움을 더한다. 어떻게 하면 이루다와 같은 서비스를 합법으로 만들 수 있을까.

첫째 기존에 수집된 이용자 데이터를 가지고 AI를 학습시켜 신규 서비스를 만들고자 한다면, 기존 서비스의 이용자가 그러한 신규 서비스의 등장을 합리적으로 예상할 수 있도록 예측 가능성을 심어주는 방안이 있기는 하다. 한편 이 방안은 기존의 서비스 대비 완전히 새로운 AI 서비스를 만드는 데에는 적법 근거로 쓰일 수 없다는 한계가 있다. 이루다도 그러했다.

둘째 AI 학습 데이터와 원 개인정보 데이터가 서로 결합하면 학습 데이터상의 개인이 식별될 리스크가 발생하므로, 그러한 결합 여지를 규범적으로 단절시켜야 한다. 예컨대 AI 개발·운영 인력이 원 서비스의 개인정보 DB에 접근할 수 없도록 권한을 분리하고, 내부 교류를 금지하는 등 차이니즈 월(Chinese wall)을 구축하는 방법이 있다. 이러한 ‘원 데이터에 대한 접근 차단’은 최소한의 조치일 뿐이고, 아래의 셋째 및 넷째 방안을 함께 적용해야 한다.

셋째 적정한 비식별 처리를 거친 데이터를 AI 학습에 쓰는 방안이 있다. 다만, 대화 문장과 사진, 영상 등 ‘비정형 데이터’에 대해서 비식별 처리를 어느 수준까지 요구해야 할지는 사회적 논의가 좀 더 필요하다. 가령 AI가 학습할 문장의 군데군데가 비어 있거나 암호문 등으로 치환되어 있으면 컴퓨터가 빅데이터의 패턴을 관찰하는 것이 어려워져 AI의 품질이 떨어지거나 학습 비용이 커질 수 있다. ‘AI의 성능’과 ‘최소처리 원칙’이라는 두 고려 요소 사이에서 AI로써 달성하고자 하는 목적 및 데이터의 상황에 맞는 적절한 타협점을 찾아야 한다. 예컨대 신용카드 부정 사용 탐지 시스템(Fraud Detection System)처럼 기술적으로 데이터 원문 사용이 불가피하고 이로 인해 얻어지는 사회적 편익이 현저히 크면 개인정보 원문도 AI 학습 데이터로 쓸 수 있는 것이다.

넷째 AI 학습을 시키는 것과 학습된 AI 기반 서비스를 운영하는 것은 별개의 개인정보 처리에 해당하는바, 적어도 운영 단계에서는 이용자의 개인정보가 노출되지 않도록 익명화를 철저히 하여야 한다. 이루다로서는 발화할 문장을 AI 스스로 문장을 조합하여 생성케 하거나 혹은 최소한 연애의 과학 이용자가 쓴 문장을 이루다 응답 후보군 문장으로 가져올 때 ‘k-익명성’ 모델을 적용함으로써 이용자 개인별 고유한 표현을 제거했어야 한다. 후자를 선택했어도 마찬가지로 이루다 응답 후보군 문장이 연애의 과학 원 DB와 결합하여 개인을 역추적하는 데 쓰이지 못하도록 접근 차단조치를 취해야 한다.

본고에서 제안하는 대안의 확정적인 적법성을 담보할 수는 없다. 다만 향후 현장에서 이용자 데이터를 AI 서비스에 활용할 때 어떠한 안전장치를 두어야만 개인정보 침해 리스크가 적법한 범위 내로 통제될 수 있을지에 관한 논의의 단초는 제공할 수 있을 것이다.

보다 자세한 내용은 전승재·고명석의 논문 ‘이루다 사건을 통해서 보는 개인정보의 인공지능 학습 데이터 활용 가능성’(정보법학 제25권 제2호, 2021, 103-133면(https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002753356)을 참고하면 된다.