세계일보

검색

자동번역 검색은 ''웹 언어장벽 해체''의 시작

입력 : 2007-05-25 14:17:00 수정 : 2007-05-25 14:17:00

인쇄 메일 글씨 크기 선택 가장 작은 크기 글자 한 단계 작은 크기 글자 기본 크기 글자 한 단계 큰 크기 글자 가장 큰 크기 글자

구글, 12개 언어 '크로스-랭귀지 서치(cross-language search)' 첫선

세계 최대 인터넷 검색서비스 구글이 지난 23일(현지시각)부터 한국어를 포함한 12개 언어를 대상으로 자동번역 검색 시험판 서비스(http://translate.google.com/translate_s)를 시작했다.

이번에 선보인 서비스는 기존에 제공되고 있던 단문 및 웹페이지 번역 서비스를 넘어 검색결과를 직접 번역해준다는 점이 가장 다르다. 예를 들어 '사과'라고 입력하고, 검색 대상 언어를 지정하면, 해당 언어로 구성되어 있는 검색결과들이 자동으로 번역되어 나타난다. 해당 언어를 사용하기 때문에 발생하는 정보의 경계선이 사라지게 되는 셈이다. 특히 웹 데이터를 중심으로 수동적이었던 번역 과정에서 벗어나 '다른 언어로 검색하기'를 직접 제시함으로서 언어로 인한 검색 장벽을 넘어서겠다는 구글의 의지가 담겨 있다.

현재 제공되는 언어 종류는 영어와 한국어를 비롯해, 아랍어, 프랑스어, 이탈리아어, 독일어, 스페인어, 포르투갈어, 러시아어, 일본어, 간체 및 번체 중국어 12종이다. 구글 관계자는 해외 언론과의 인터뷰에서 "인터넷 정보의 상당량을 차지하는 영어 콘텐츠를 다른 언어 사용자들이 손쉽게 활용할 수 있을 것"이라고 설명했다.

이와 관련 독일 자연어 전문가 프란츠 오흐(Franz Och, http://www.fjoch.com) 구글 리서치 담당자는 구글 공식 블로그에 올린 글에서 "우리가 제공하는 기계 번역이 완벽하진 않을 수 있지만, 다른 언어이기 때문에 접근할 수 없었던 일상적인 정보를 획득 하는데 충분하다"고 설명했다. 그는 "인터넷 사용자의 상당수가 비영어권 사용자임에도 불구하고 인터넷 콘텐츠의 대부분은 '영어'로 되어 있기 때문에, 전 세계 네티즌들에게 유용할 것"이라고 덧붙였다.

◆구글 자동번역 서비스의 특징 = 그렇다면 왜 사용자들이 '구글 번역' 서비스에 관심을 갖는 것일까. 이에 대해서는 구글이 제시하는 '자동번역'의 기능에 대해 좀 더 살펴볼 필요가 있다.

자료에 따르면 구글은 사내 연구 그룹에서 여러 언어에 대한 자체적인 통계 번역 시스템을 개발하여 현재 구글 번역에 사용 중이다. 구글은 특히 기존 번역 방식과 달리 '통계적 기계번역' 기술 개발에 매진하고 있다.

구글은 지난 2005년에 공개된 미국 표준기술연구소(NIST, http://www.nist.gov) 조사 자료를 제시하며 연구 평가의 우수성을 내세우고 있다.

구글 관계자는 공식 자료에서 "오늘날 상용되고 있는 최첨단 기계번역 시스템은 대부분 언어규칙 기반 원리를 사용하여 개발되었으며 단어와 문법을 정의하는 데 있어 번역가의 확인을 필요로 하는 부분이 많다"며 "구글 번역 시스템은 컴퓨터에 2개 단일 언어 텍스트의 단어 수십억 개를 모두 타깃 언어로 입력하고, 실제로 사람이 두 언어로 번역한 예를 사용하여 텍스트를 정렬하게 된다"고 강조하고 있다. 언어규칙을 적용하는 기계적인 원리가 아니라, 통계학습을 통해 번역 모델을 구축하는 방식인 것이다. 번역엔진이 통계 학습할 수 있는 데이터가 많아질수록 번역의 정확도는 높아진다.

이와 관련 구글은 "번역품질을 개선하려면 2개 국어로 된 텍스트가 상당량 필요하다"며 "2개 국어 또는 여러 언어의 텍스트를 대량으로 제공해 주실 수 있는 분은 연락해 달라"고 요청했다.

<세계일보 2006년 10월 12일자 '구글, 10년 내 웹 언어장벽 무너진다' 기사 참조>



앨런 유스태스(Alan Eustace) 구글 수석 부사장 역시 지난해 10월 방한한 자리에서 "5~10년 후에는 '언어를 불문하고' 전 세계 모든 국가의 모든 정보에 접근할 수 있게 될 것"이라고 강조한 바 있다.

최근 진행된 구글코리아 국내대학 순회강연에서도 기계 번역에 대한 언급이 있었다. 조나단 켄넬(Jonathan Kennell) 구글 본사 SW 엔지니어가 '통계학적인 번역시스템 (Statistical Machine Translation at Google)'에 대해 언급하기도 했다.

◆야후·MS도 '자동번역 잠재력' 인정 = 사실 자동번역 서비스에 대한 고민은 구글보다 야후가 먼저 했던 내용이다. 야후는 2005년부터 검색 결과를 독일어와 프랑스어, 일본어로 자동 번역해 주는 서비스를 제공하고 있다.

야후는 2005년 7월 "언어에 상관없이 모든 사람들이 세계 정보를 검색할 수 있는 것이 검색의 목표"라며 '야후 검색 번역 기술(Yahoo! Search Translation Technology)' 개발을 발표한 바 있다. 당시 야후는 시험판 서비스 일환으로 야후 독일서 검색 번역기(Yahoo! Suche Translator, http://de.docs.yahoo.com/translator) 시험판 서비스를 처음 공개했었다.



특히 야후가 독일과 프랑스에서 제공하고 있는 ‘검색 번역기(Search Translator)’는 구글이 지향하고 있는 서비스 방향과 비슷하다. 예를 들어 야후 프랑스에서 불어로 ''guerre civil''(시민 전쟁, civil war)라고 검색하면 ‘American Civil War(미국 시민전쟁)’ 홈페이지가 검색되는 방식이다.

2006년에는 야후 검색엔진 서비스에 정식으로 ‘야후 바벨피시(Yahoo Babelfish, http://babelfish.yahoo.com )’ 번역 서비스를 추가하기도 했다. 바벨피시는 시스트랜(Systran) 소프트웨어 기반의 번역 서비스로, 알타비스타(Altavista)가 처음 개발한 이후 서비스 명맥만 유지돼 온 번역 서비스다. 야후는 지난 2002년부터 검색시스템 전문업체 잉크토미, 패스트, 오버추어와 함께 알타비스타를 인수하며 바벨피시 서비스를 확보한 바 있다.

이 밖에도 야후는 인적 접근도 병행하고 있다. 질문 답변 서비스인 '야후 앤서(Yahoo Answers)'의 경우 영어는 물론이고, 중국어, 프랑스어, 베트남어 등 10여개 언어로 동시에 제공되고 있거나 제공될 예정이다. 팀 마이어(Tim Mayer) 야후 검색부문 부사장은 해외 언론과의 인터뷰에서 "미국 밖에는 (영어권) 웹에 등장하지 않은 많은 정보들이 있다"며 "매우 엄청난 기회"라고 평가했다.

마이크로소프트(MS)의 움직임도 예사롭지 않다. 각각의 단어 번역을 넘어서, 구문이나 단어 뒤에 숨겨진 의미를 추출해 내 문서를 번역하는 자연어 처리 소프트웨어를 개발하고 있다. 라이브 검색 서비스에 번역 서비스가 제공될 것이라는 소문도 무성하다.

◆국내에도 '일어 웹검색' 일상화 = 국내 사정도 크게 다르지 않다. 현재 검색 기술의 한계로 인해 영어권 자료 보다는 인조이재팬(http://enjoyjapan.naver.com) 등 일본어 번역 서비스가 인기를 끌고 있다. 초급 단계의 중국어 번역 서비스를 제공하는 엠파스 웹번역(http://trans.empas.com)도 관심 대상이다. 일부 국내 사용자들은 일본 야후재팬 번역기(http://yahoo.co.jp/r/hyk) 등을 중심으로 한중일 언어를 교차 번역할 수 있는 해외 웹 번역기를 활용하기도 한다.

개소문닷컴(http://gesomoon.gameshot.net)과 같은 글로벌 번역 콘텐츠들이 인기를 끌고 있는 것도 이러한 현상과 무관하지 않다. 해외 네티즌들의 반응을 번역 콘텐츠로 공유하는 이 커뮤니티는 언어 장벽을 넘어 글로벌 콘텐츠의 기본 가능성을 제시했다는 데 의미가 있다.

이와 관련 해외 언론 및 전문가들은 "주요 글로벌 닷컴들이 국내외 시장을 아우르는 서비스를 통해 성장세를 유지하기 위한 방법"이라고 평가하고 있다.

제시카 바스셀라노(Jessica E. Vascellaro) 평론가는 24일 월스트리트온라인에 '번역에서의 발견(Found In Translation)'이란 제목으로 쓴 글에서 "최근 몇 년 사이에 전 세계 인터넷 사용자들이 폭발적으로 늘어나면서, 미국 내 검색엔진들이 다른 언어에서 검색할 수 있는 기능을 보완하는데 집중하고 있다"고 지적했다.

글, 사진 = 세계일보 인터넷뉴스부 서명덕기자 mdseo@segye.com

보도자료및 제보 bodo@segye.com, 팀블로그 http://net.segye.com


[ⓒ 세계일보 & Segye.com, 무단전재 및 재배포 금지]

오피니언

포토

비웨이브 아인 '미소 천사'
  • 비웨이브 아인 '미소 천사'
  • 비웨이브 제나 '깜찍하게'
  • 정은지 '해맑은 미소'
  • 에스파 카리나 '여신 미모'