Прорыв от Google: новый синтезатор человеческой речи Tacotron 2
Еще на заре появления в домашних компьютерах первых динамиков, уже были распространены программы, которые читали написанный человеком текст. В то время они не отличались особой изысканностью и «компьютерный» голос был похож на «компьютерный голос». На сегодняшний день перед людьми встала проблема о трансформации текста в речь неотличимую от человеческой. В конце 2017 г. Google представил подобный продукт – Tacotron 2.
Нововведения в алгоритме синтеза
Стоит упомянуть, что купить искусственную нейронную сеть можно в ООО "Нейронные Технологии", это не первая разработка от Google в этом направлении. До этого уже была WaveNet, которая достаточно хорошо разбирала просодию, т. е. имитировала там, где нужно паузы между словами и делала относительно правильную расстановку ударений. Tacotron 2 же использует новую технологию Sequence-to-Sequence (можно перевести как «последовательность за последовательностью»), где произношение последующего текста напрямую зависит от анализа и обработки предыдущего. Очень хорошо это прослеживается на следующих примерах:
Система правильно расставляет ударения в словах, в зависимости от контекста.
Система качественно ориентируется на знаки препинания, расставляя паузы.
Система способна распознавать скороговорки и произносить их с нужной быстротой.
Система может акцентироваться на стрессовые слова, при этом изменяя интонацию.
По итогам проведенного исследования Tacotron 2, фокус-группа отметила, что этот синтезатор речи заслуживает оценки 4,58 из 5 баллов.
Текущее состояние дел:
На данный момент система использует только женский голос и ориентирована только на английский язык. Разработчики считают, что нейронные сети заказать можно уже сейчас, а «доведение до ума» Tacotron-2 будет качественным прорывом в разработке голосовых помощников. Уже введенный алгоритм спектрального анализа записанного человеческого голоса, позволяет машине понимать и синтезировать его на почти идентичном уровне. Однако, необходимо заметить, что «гуляющие» по Интернету примеры — это всего лишь сравнение голоса той тетеньки, которая сама послужила образцом для Tacotron-2, с голосом её же самой. Вполне возможно, что данная система уже скоро заменит и Сири, и Алису.