상단으로 이동하기

인공지능이 완벽한 가짜 오바마 대통령을 만들어 냈다Posted Jul 13, 2017 3:52:22 PM

정보라

판교 근처 주민입니다. 책 ‘보는’ 걸 좋아합니다.
borashow@thegear.net

인공지능으로 영상 통화를 조작할 날이 올까. 연인이, 배우자가 집에서 통화하는 것 같지만, 실제로는 클럽이나 몰래간 여행지에서 통화하는 상황 말이다. 허무맹랑한 공상이 아니다. 미국 워싱턴 대학교의 연구진이 개발한 알고리즘을 갈고닦으면 그 날은 조만간 올지 모른다.

버락 오바마 미국 전 대통령의 모습이다. 왼쪽과 오른쪽 영상 중 무엇이 조작이고 무엇이 진짜인지 설명이 없었다면 구분이 가능했을까? 해상도가 떨어지는 왼쪽 영상이 진짜이고, 버락 오바마의 얼굴이 또렷하게 나온 오른쪽이 조작한 영상이다.

오른쪽 영상은 인공지능이 버락 오바마가 나온 영상 14시간 분량을 학습하여 만들었다. 먼저, 음성을 따고 이 음성에 맞춰 입술 모양을 그리고 나서 입술 모양에 버락 오바마의 실제 입을 합성했다. 그 다음엔 고갯짓, 눈짓, 턱 모양을 합성해 자연스럽고 완벽한 영상을 만들었다. 음성 파일만 동일할 뿐, 말하는 장소와 옷, 제스처가 다른 조작된 영상이 생겼다.

조작 영상은 완벽해 보이지만, 허점은 있다. 자세히 보면 외화를 더빙한 것처럼 소리와 입모양이 일치하지 않는 순간이 있다. 버락 오바마 턱이 두 개가 된 장면도 있다. 그렇지만 전반적으로 꽤나 자연스럽다. 진짜와 가짜를 표기하지 않으면 구분하기 어려울 정도다.

워싱턴 대학교의 연구진이 공개한 이 영상은 음성에 맞춰 입술을 달싹이는 알고리즘으로 만들어졌다. 음악 프로그램에서 말하던 ‘립싱크’ 기술이다. 이 알고리즘은 음성에 맞는 입술 모양을 만드는 게 핵심이다. 여기에 실제 사람의 모습을 입히고, 영상으로 만들 수 있다는 점에서 주목할 만하다.

아래 또 다른 영상을 보면, 원 소스가 되는 영상보다 더 실제 같은 가짜 영상이 있다. 14시간 분량의 영상으로 이 만큼의 결과물을 만들었는데 앞으로 1시간 분량의 데이터만으로도 실제와 비슷한 결과물을 만들게 될 거란 기대를 낳는다. 구글의 딥마인드의 알파고가 1년 만에 진보했듯 말이다.

이 연구 결과는 워싱턴 대학교가 운영하는 뉴스 사이트에 공개됐는데 ‘불쾌한 골짜기’(uncanny valley)를 극복하는 데에 의미있는 진전이라고 소개됐다. 버락 오바마의 립싱크 영상이 가짜라는 걸 알고 봐도 어색하거나 기괴해 보이지 않고 자연스럽다는 거다. 어깨를 으쓱하듯 고개를 움직이고 카메라 렌즈를 똑바로 바라보는 모습은 보고 또 봐도 기계가 아닌 진짜 사람이 말하는 것만 같다.

‘불쾌한 골짜기’(uncanny valley) : 1970년 세계적인 로봇 학자 모리 마사히로에 의해 주창된 것으로 로봇이 사람의 모습과 흡사해질수록 인간이 로봇에 대해 느끼는 호감도가 증가하다가 어느 수준에 이르면 갑자기 하강 곡선을 그리고 결국 강한 거부감이 크게 두드러지는 역효과 현상. (한국일보 2016.8.29)

음성 파일만으로 립싱크 영상을 만드는 기술은 어디에 쓰이게 될까. 당장은 누구도 확신할 수 없지만, 이 글을 시작하며 언급한 영상 통화에 쓰이면 어떨까. 거짓말하는 용도가 아니라, 인터넷 속도가 느려서 통화 중 영상이 끊기고 음성만 들려도 여전히 얼굴을 맞대고 통화하는 것처럼 상대방의 얼굴을 보여주는 긍정적인 목적으로 말이다.

이 연구는 삼성과 구글, 페이스북, 인텔, 워싱턴 대학교 애니메이션 연구소의 지원을 받아 진행됐다.