GAN-TTS — это генеративная модель для задачи преобразования текста в речь. Архитектура модели состоит из условного feed-forward генератора и ансамбля дискриминаторов. Дискриминаторы оценивают сгенерированную аудиозапись на случайных окнах разного размера. Дискриминаторы анализируют речь с точки зрения реалистичности и того, насколько верно произносится входной текст. Исследователи вводят две количественные метрики для оценки качества сгенерированной речи: Frechet DeepSpeech Distance и Kernel DeepSpeech Distance.

Прошлое применение генеративных состязательных моделей для задачи генерации аудио было ограничено. Авторегрессионные модели, как WaveNet, оставались state-of-the-art для моделирования человеческой речи. GAN-TTS демонстирует, как GAN справляется с задачей text-to-speech. Чтобы измерить работу модели, исследователи используют субъективную оценку добровольцев и собственные количественные метрики. Введенные количестве метрики кореллируют с человеческой оценкой.

Ключевые преимущества модели — генерация более правдоподобной речи по сравнению с state-of-the-art и способность к параллелизации благодаря структуре генератора. Авторегрессионные модели, которые часто используются для задач генерации речи, менее параллелизуемы.

Некоторые дискриминаторы принимают во внимание лингвистические характеристики сгенерированной речи, чтобы оценить, насколько речь соответствует входному тексту. Остальные дискриминаторы фокусируются на реалистичности генерируемой речи.