‘노력형 천재’ AI, 대기질 적중률 우수… 돌발상황 대처는 미흡 [연중기획 - 지구의 미래]

미세먼지 예보 넘보는 인공지능
숫자 0과 1 구별하는 AI 만들 경우/ 수많은 패턴 수학적으로 학습시켜/ 오답 땐 정답 될 때까지 계속 반복
국립환경과학원·KEI, 공동 개발 중/ 미세먼지 예보도 그림으로 배우게 해/ 3년치 263만400개 빅데이터 ‘마스터’
기존 대기질 모델比 정확도 10%P↑/ 갑자기 늘어난 배출량은 반영 못 해/ “자연 예측불가… 완벽할 순 없을 것”

똑똑하다는 소문을 듣고 찾아갔는데 그는 뜻밖에도, 상당히 답답한 구석이 많았다. 두세 살 아기도 갖고 있는 직관, 융통성이라는 게 이 친구에게는 없었다. 수천, 수만번 가르치고 또 가르쳐야 마침내 깨달음을 얻는다고 했다. 그런데 그 전과 후가 어찌나 극단적인지, 한번 깨달음을 얻고 나면 이세돌도 울리는 천재가 된다고 했다.

인공지능(AI)이 미세먼지 예보에도 발을 들여놓기 시작했다. 국립환경과학원은 AI 미세먼지 예보시스템을 구축하는 중인데, 예상 완료 시점이 내년이다. ‘AI 예보관’이 등장할 날이 머잖았다는 의미다.

그런데 그 의미를 곱씹어 보면 궁금한 게 한둘이 아니다. 결국 사람 예보관을 대체하게 될까? 이제 과학자의 밥그릇까지 넘보는 건가? AI의 진화는 어디까지일까? 그리고 기본적인 질문. 도대체 AI는 뭘 어떻게 ‘학습한다’는 거지?

◆수학으로 신경망을 만들다

한국환경정책평가연구원(KEI)은 2017년부터 9개년 계획으로 환경 빅데이터를 토대로 한 연구를 진행 중이다. 그중 하나가 ‘컨벌루션 신경망(CNN)을 통한 미세먼지 예측’인데 이동현 한국산업기술대 교수팀이 맡고 있다. 여기서 CNN은 미국 뉴스채널이 아니라 딥러닝 방식의 하나를 말한다. 딥러닝이라고 하니 어쩐지 머리에 컴퓨터가 달린 학생이 살인적인 양의 주입식 교육을 받고 있을 것만 같은 말도 안 되는 상상을 하며 지난 8일 이 교수의 연구실을 찾았다.

‘컴퓨터 인간’ 대신 평범한 데스크톱 컴퓨터와 프린터기, 커피머신이 놓인 방에서 그는 “딥러닝의 핵심은 사람의 신경세포(뉴런)를 가상으로 구현하는 것”이라고 했다. 이건 또 무슨 말인가. 그의 설명을 요약하면 이렇다(예시는 책 ‘처음 배우는 딥러닝 수학’을 참고했다).

숫자 0과 1을 구별하는 AI를 딥러닝 기법으로 만든다고 하자. 사람은 아무리 휘갈겨 쓴 숫자라도 어지간하면 구분할 수 있다. 동그라미는 0, 선 하나는 1이라는 걸 알기 때문이다.

그런데 AI는 동그라미, 직선이라는 사람 말을 알아듣지 못하는 탓에 수많은 패턴을 수학적으로 ‘가르쳐야’ 한다. 먼저, 숫자가 쓰여 있는 이미지를 4×3픽셀로 나눠보자. 그럼 어떤 픽셀에는 이미지가 들어 있고, 어떤 픽셀은 비어 있다. 컴퓨터는 픽셀별로 총 12개(4×3)의 정보를 읽어들인 다음(가령 이미지가 있으면 1, 비어 있으면 0 이런 식으로) 일부 정보만 신경망에 보낸다. 우리 뇌에 있는 뉴런이 수많은 정보를 받아들이지만 ‘역치’를 넘는 정보만 반응해 그 다음 뉴런으로 신호를 전달하고, 역치 미만의 정보는 무시하는 것과 같은 원리다.

다음 뉴런에 전달할 만큼 쓸모 있는 정보인지 계산하기 위해 컴퓨터의 각 신경망(뉴런)은 입력된 정보에 가중치(weight)와 편향(bias)을 곱하고 더한다. 이런 과정을 거쳐 맨 마지막에 어떤 신경망이 더 활성화됐는지(즉, 더 많은 정보를 받았는지)에 따라 0과 1을 구별하게 된다. 어린아이도 감으로 아는 걸, AI는 납작한 동그라미, 길쭉한 동그라미, 기울어진 동그라미 등 수만 가지의 동그라미를 보고 나서야 0을 체득한다.

처음 정답률은 처참한 수준이다. 하지만 답이 틀리면 정답이 될 때까지 가중치와 편향 값을 스스로 고쳐가며 학습을 반복한다. 그리하여 ‘궁극의 가중치·편향’을 얻게 되면 괴발개발 글씨도 찰떡같이 알아보는 똑똑한 인공지능으로 거듭난다. AI는 노력형 천재인 셈이다.

CNN은 ‘필터’라고 하는 것이 픽셀을 돌아다니며 스스로 가중치와 편향을 뽑아내도록 한 것이다. 개와 고양이를 구별하는 문제처럼 이미지 분석에 많이 쓰인다.

이 교수도 미세먼지 예보에 이런 방법을 썼다. 우리나라 지도를 10×10 픽셀로 나눠 여기에 기상요소(기온, 풍속 등 4개)와 대기오염물질(이산화황, 이산화질소, 미세먼지 등 5개) 측정값을 모자이크 그림처럼 입혀 미세먼지(PM10)를 예측하게 했다. 복잡한 물리방정식을 계산하는 게 아니라 ‘여름철 동풍이 불거나 겨울철 북풍 한파가 찾아오면 먼지가 줄더라’는 우리의 경험적 지식을 그림으로 배우도록 만든 것이다.

이 교수는 2014∼2016년 각 시간별 자료 총 263만400개의 빅데이터로 AI를 학습시켜 2016년 12월31일 오후 11시를 예측해봤는데 8시간 선행 예보까지는 꽤 높은 성능을 보였다. 그는 “그간 환경분야에서는 CNN이 많이 쓰이지 않았는데 그 활용 가능성을 봤다”고 평가했다.

◆기존 모델 훌쩍 뛰어넘은 AI 예보

우리나라에서 공식 미세먼지 예보를 내는 기관은 국립환경과학원이다. 미세먼지에 관심 많은 이들이라면 한번쯤 들어봤을 ‘안양대 예보’의 구윤서 교수팀과 허창회 서울대 교수도 여기에 참여한다. 이 팀은 이동현 교수가 사용한 것과 같은 CNN에 ‘딥뉴럴 네트워크’(DNN), ‘순환신경망’(RNN)까지 사용해 여러 모델을 만든 다음 잘 맞히는 것들만 골라서 쓸(앙상블 예보) 예정이다. 연구팀은 대기질, 기상정보 같은 측정자료에 기존 수치예보모델 결과, 먼지의 이동궤적, 기여도 등 모델별로 42∼139가지 변수를 넣어 예보 알고리즘을 개발 중이다.

구 교수는 “현재 예보는 예보관마다 숙련도에 차이가 있고, 참고해야 할 자료가 워낙 방대해 개인이 이를 모두 종합적으로 판단하는 데는 한계가 있다”며 “이를 극복해 주관예보를 객관예보로 바꾸는 것이 연구 목적”이라고 전했다.

그와 함께 AI 예보 알고리즘을 만드는 윤희영 선임연구원은 “말이 인공지능이지 입력변수를 고르는 작업은 ‘노가다’”라며 “하지만 일단 잘 만들어 놓으면 매우 뛰어난 성과를 보일 것으로 기대된다”고 했다. 이들이 개발 중인 AI의 초미세먼지(PM2.5) 적중률은 고농도 시 70% 정도를 보인다. 현재 대기질 예보모델(CMAQ)보다 10%포인트가 높고, 모델을 토대로 예보관들이 발표하는 최종 예보 적중률과는 비슷한 수준이다.

허 교수는 “기존 대기질 모델은 모델 편차라는 것이 있어 예측 정확도를 떨어뜨리는데, AI에서는 그런 게 나타나지 않는다”며 “적중률을 80%까지 끌어올리는 게 목표”라고 말했다.

◆‘미세먼지계의 알파고’ 나올까

빠르게 진화하는 AI이지만, 그래도 약점은 있다. 돌발상황 대처능력이 떨어진다는 게 그중 하나다. 갑자기 특정 장소에서 대기배출량이 늘거나 황사가 예보와 달리 한반도에 떨어지는 경우 사람은 정보를 받아들이는 즉시 유연하게 예보에 반영할 수 있지만, 고지식한 AI는 그렇지 못하다.

AI가 왜 그런 예보를 냈는지 알기 어렵다는 것도 맹점이다. 위에서처럼 딥러닝은 입력 자료에 가중치와 변수를 이리저리 곱하고 더해 결과를 산출하는데, 가중치와 변수는 AI만이 알고 있다.

우리는 치와와와 시추가 생김새는 영 달라도 개라는 것을 안다. 계통분류학적 지식이 있는 것도 아니고, 딱히 논리적인 설명을 대기는 어렵지만, 아무튼 안다. AI도 왜 그런 결론에 이르렀는지 우리에게 정보를 주지 않고, 다만 정답만 내놓을 뿐이다. 이를 이쪽 분야에서는 ‘블랙박스’라고 부른다. 그런데 최근에는 이 블랙박스를 들여다보는 연구(explainable AI)도 활발히 이뤄지고 있다. 아예 블랙박스를 피해 미세먼지를 예보하는 방법도 있다.

국가정보자원관리원은 신경망을 만들지 않는 머신러닝 방법(GBM)을 활용해 180여 가지 관측자료를 학습시켜 PM2.5와 PM10을 예측, 각각 77.8%, 84.4%의 정확도를 보였다. 이 방법은 어떤 변수가 예측에 중요하게 쓰였는지 수치로 뽑아낼 수 있어 예보뿐 아니라 원인분석까지 가능하다는 장점이 있다. 관리원 연구에서는 PM2.5의 경우 풍속과 풍향, 중국 내몽골·베이징·허베이성 에어로졸 농도가 큰 영향을 미치는 것으로 나타났다.

그렇다면 AI가 예보관과 과학자의 수준을 넘어서는 ‘특이점’도 올까.

박인창 국가정보자원관리원 데이터분석팀장은 “지난해 말 단백질 3차원 구조를 예측하는 학술대회에서 알파고를 만든 구글팀이 알파폴드라는 AI로 과학자들을 제치고 우승을 차지했다”며 “데이터전문가들이 중심을 이루고, 도메인 전문가(생물학, 의학 등)는 자문 역할을 한 팀이 놀라운 성적을 거뒀다는 점에서 AI의 잠재력은 무궁무진하다”고 전했다.

CNN으로 미세먼지 예보를 연구하는 이 교수도 공학박사로 현재 소속은 경영학부다.

하지만 AI가 모든 분야를 포식하는 ‘21세기 공룡’은 아니라는 의견도 있다.

허 교수는 “바둑은 룰이 정해진 닫힌계이고, 자연현상은 한계라는 것이 없는 열린계에서 일어나는 일이라 100% 정확한 예보란 있을 수 없다”며 “AI가 현업에 도입되더라도 그건 ‘밤을 새워도 지치지 않고, 늘 평정심을 유지하는’ 예보관이 한 명 더 늘어난다고 보면 되지, 특이점이 올 것 같지는 않다”고 전망했다.

구 교수도 “AI는 엑셀 같은 분석·예보틀 가운데 하나”라며 “(데이터·공학) 전문가들은 AI를 기술적으로 발전시킬 것이고, 결국 이걸 가져다 쓰는 건 각 분야의 전문가들”이라고 했다.

◆태풍 강수예보·녹조예측… AI 능력은 ‘무궁무진’

지난 2월 대학을 졸업한 이상목 대표는 스타트업 청년 사업가다. 그가 창업한 ‘엑사바이트’의 아이템은 인공지능(AI) 딥러닝 기술을 활용한 미세먼지 예보.

1시간 단위 예보와 하루 단위 일주일 예보를 농도와 단계별(좋음∼매우 나쁨)로 전할 계획이다. 현재 국립환경과학원은 모레까지 일평균 농도를 단계로만 예보하는데, 말하자면 틈새시장을 노린 전략이다. 이 대표는 “대학 3학년 때 딥러닝을 처음 접한 뒤로 환경 분야의 문제를 AI로 풀어보고 싶다는 생각을 하게 됐다”며 “환경은 다양한 요인이 복합적으로 작용하는 분야인 만큼 방대한 양의 데이터를 학습해 결과를 도출하는 AI가 꼭 필요한 산업 분야”라고 말했다.

그에게 지난 3월 초(1∼6일) 고농도 기간의 미세먼지(PM10) 예보를 부탁했다. 동일한 격자 간격으로 자료를 입·출력하다보니 우리가 흔히 봐온 예보 결과와 형태가 다르지만, 관측에서 나타난 패턴을 비교적 잘 따라갔다. 다만 그는 “강릉에서 급격히 농도가 내려갈 때가 있었는데 이런 갑작스러운 변화는 AI가 잘 잡아내지 못하는 것 같다”고 했다.

AI가 결합할 수 있는 환경분야는 미세먼지뿐이 아니다. 허창회 서울대 교수는 태풍 강수예보를 AI로 해 볼 생각이다. 허 교수는 “사실 태풍 진로 예보에서 30∼40㎞ 정도의 오차는 있을 수 있는 건데 지난해 태풍 솔릭과 콩레이 때도 보면 진로를 두고 너무나 논란이 많다”며 “태풍 피해가 바람보다는 주로 비 때문에 발생하는 게 많은 만큼 진로에 너무 집중하기보다는 태풍에 의한 강수가 어떨지를 AI로 예보해볼 계획”이라고 전했다.

태양광 이용효율이나 녹조도 AI로 예측할 수 있다. 국가정보자원관리원은 태양고도와 발전량 데이터를 머신러닝 알고리즘으로 검증하고, 딥러닝 기반으로 발전량을 예측해 어떤 입지에 태양광발전소를 설치해야 하는지 결정하는 모델을 만들었다.

시흥·안양=윤지로 기자 kornyap@segye.com