상단으로 이동하기

구글 딥마인드 인공지능, 입술을 읽는다Posted Nov 25, 2016 5:27:36 PM

황승환

공부해서 남 주는 사람이 되자! 가열차게 공부 중입니다.
dv@xenix.net

알파고를 만든 구글 딥마인드의 인공지능이 이번에는 입모양을 읽는 ‘독순술’을 배웠다. 옥스포드대 연구팀과 함께 작업해 인간 전문가를 뛰어넘는 역사상 가장 뛰어난 수순의 입술 판독 소프트웨어를 만들어 냈다고 더버지가 24일(현지시각) 자세한 내용을 전했다.

딥마인드의 인공지능은 5,000시간 분량의 TV 프로그램을 보고 공부했고 테스트 결과 정확도는 46.8%를 기록했다. 절반에 불과한 정확도라고 간과할 수 있지만 동일한 테스트에서 인간 전문가의 정확도는 12.4%였다. 딥마인드의 소프트웨어가 약 4배 가량 정확도가 높다.

이달 초 옥스포드 연구소의 다른 연구팀은 ‘립넷(LipNet)’이라는 입술 판독 소프트웨어를 발표했다. 이 프로그램은 93.3%의 정확도를 기록했다. 같은 조건에서 인간 전문가는 52.3%였다. 당시 테스트는 지정 참가자가 지정된 문구를 읽은 동영상으로 진행됐다. 이와 달리 딥마인드는 자연스럽고 긴 대화에 도전하기로 했다.

딥마인드의 ‘왓치, 리슨, 어탠드, 앤드 스팰(Watch, Listen, Attend, and Spell)’ 소프트웨어는 뉴스나이트, 퀘스천 타임, 월드 투데이 등 TV 프로 5,000시간 분량의 영상을 보면 연습했다. 여기에는 17,428개의 고유 명사, 118,116개의 다른 문장, 807,375개의 단어가 포함되어 있었다. 앞서 언급한 립넷의 테스트 데이터베이스에 51개의 고유 명사가 있었던 것과 비교할 수 없을 정도로 많은 양이다. BBC 정치 쇼 프로그램을 보며 자막을 입력하는 방식의 테스트에서 딥마인드의 인공지능은 46.8%의 정확도로 입모양을 읽어냈고 인간 전문가는 12.4%에 그쳤다.

딥마인드 연구팀은 이 소프트웨어가 청각 장애인을 위해 큰 도움이 될 수 있고 다양한 응용 프로그램에 적용해 사용될 수 있다고 설명했다. 시리, 코타나, 알렉사 등과 같은 가상 음성 비서와 만난다면 더욱 흥미롭게 사용될 수도 있다. 소리를 낼 수 없는 조용한 곳에서 입모양으로 명령을 내리는 것이 가능해 진다. 

이 글을 읽으며 우리 주변에 깔려 있는 수 많은 CCTV, 카메라를 통한 감시를 당할 수 있다는 상상을 했을 것이다. 음성 입력이 되지 않는 CCTV 영상이라도 무슨 말을 하고 있는지 알 수 있게 된다. 연구팀은 낮은 프레임, 저화질 영상으로는 쉽지 않다고는 하지만 프레임을 잇고 화질을 개선하는 기술은 이미 널려 있다. 각국 정보 기관에서 이 기사를 보며 딥마인드의 기술을 탐내고 있을 것이 분명하다. 

구글 딥마인드 인공지능의 활약은 이세돌 9단을 상대로 승리한 것 뿐만이 아니다. 영국 의료 기관과 협력으로 안과 의사 공부를 하고 있다. 구글 데이터 센터의 전력 시스템에 들어가 수백만 달러의 전기 요금을 절약하고 있다. 스타크래프트 게임도 배우고 있으며 이제 독순술을 배우고 있다.  

중요한 것은 지금까지 도전한 대부분의 영역에서 인간보다 뛰어난 성과를 내고 있다는 점이다. 딥마인드 인공지능의 도전이 어디까지 이어질 것인지 궁금하기도 하지만 단시간에 엄청난 성과를 거두는 모습이 조금은 두렵기도 하다. 

이 기사를 읽은 분들은 이런 기사도 좋아했습니다.