와이즈클로닝 봇은 AI 기술로 사람 음성을 복제하는 서비스를 제공한다. 개인 음색과 억양을 학습하는 AI 알고리즘으로 음성이 재현된다. 시그널으로 음성 인식과 재현이 이뤄지기 때문에 언어에 제약이 없다.

와이즈클로닝 봇은 집대성된 음성 정보를 전이학습한다. 특정 사람 목소리 특성 파라미터를 딥러닝 기술로 추출하고 패턴화해 인식·합성한다. 텍스트는 와이즈클로닝 봇으로 인식된 목소리로 변환돼 들려진다.
일반 음성 복제에 필요한 분석과 합성 시간은 4시간 정도지만 에이아이더는 음성 분석과 합성 시간을 10분으로 단축했다. 현재 광고이미지와 모델의 적합도를 음성 복제 기술로 사전에 시뮬레이션·체크하는 사업을 한다. 음성복제 기술로 광고에 나오는 대사를 사전에 모델 후보별로 시뮬레이션 할 수 있다.
김수화 에이아이더 대표는 “아직 사람 감정을 완벽히 표현하지는 못하지만 감정 요소까지 딥러닝해 음성을 복제할 수 있게 될 것”이라며 “음성 합성과 복제 서비스를 AI 스피커와 같이 실생활과 다양한 비즈니스 영역에서 쉽게 접할 수 있는 시기가 곧 다가올 것”이라고 말했다.
박종진기자 truth@etnews.com
저작권자 © PRESS9 무단전재 및 재배포 금지