상단으로 이동하기

여러 명 중 한 명 목소리만 골라내는 놀라운 구글 AIPosted Apr 13, 2018 8:25:08 PM

황승환

공부해서 남 주는 사람이 되자! 가열차게 공부 중입니다.
dv@xenix.net

많은 사람이 웃고 떠들고 시끄러운 음악이 흐르는 중에도 우리는 앞에 있는 사람과 대화를 명확하게 알아들을 수 있다. 선택적 지각 능력으로 칵테일 파티 효과라고 한다.

구글이 말하는 사람의 얼굴을 인식하고 특정 목소리를 추출하는 심층 학습 인공지능 기술을 12일(현지시각) 공개했다. 우선 놀라운 영상을 감상하자.

쉴 새 없이 떠드는 두 코미디언의 목소리를 거의 완벽하게 분리해 낸다. 구글은 인공지능을 훈련시키기 위해 한 명이 이야기하는 10만 개의 고품질 유튜브 영상을 이용했다. 이 영상을 통해 등장인물의 얼굴, 입모양, 목소리를 인식하게 훈련 시킨 후 다른 배경음을 추가해 인위적으로 칵테일 파티를 만들어 냈고 이를 구분하는 훈련을 거듭했다. 그 결과 시각, 청각 효과를 이용해 목소리를 구분하는 인간과 유사한 능력을 구현해 냈다. 

사람의 입모양은 목소리와 밀접한 관련이 있고 어느 부분에서 말하는지 판단하는데 중요한 기준이 된다. 소리만 사용하는 것보다 훨씬 정확하게 특정 음성을 분리해 낼 수 있다. 움직이면서 입이 잠시 보이지 않거나 손동작으로 가려질 때도 문제 없이 연속적으로 음성을 분리해 낼 수 있다고 한다. 물론 너무 많은 소리가 섞여 있거나 비슷한 톤의 목소리라면 조금 더 어여울 수도 있다. 

이 기술이 사용화되면 영상 통화, 보청기 등에 활용될 수 있고 여러 사람이 말하는 다양한 상황에서 유용하게 사용될 수 있다. 어쩌면 도청을 피하기 위해 사람이 많은 곳에서 대화하는 것도 의미 없는 일이 될 수도 있다.

참고링크

이 기사를 읽은 분들은 이런 기사도 좋아했습니다.