Синтезатор русского голоса для андроид

Синтезатор речи является основным средством получения информации о содержимом экрана для незрячего пользователя компьютерной техники, а когда отсутствует альтернатива в виде брайлевского дисплея, то и вообще единственным. Ввиду того что поддержка работы с тактильными дисплеями в платформе Android находится лишь на стадии становления, значение text-to-speech для пользователей с нарушениями зрения становится ещё больше.

На момент написания обзора, пользователям Android OS доступно несколько решений синтеза русской речи с различным качеством синтеза и набором недостатков. Предлагаем познакомиться с ними поближе и послушать их звучание.

Поскольку система Android не предоставляет пользователю возможность переключения синтезаторов речи «на лету», часто возникает ситуация, когда одним голосовым движком приходится читать многоязычные тексты, как минимум, с наличием русского и английского. Даже полный переход на английский интерфейс не решает эту проблему, так как для чтения русскоязычных web-страниц или сообщений всё равно придётся переключаться на русский синтезатор речи, проходя весь путь по меню. Кроме того, работа с использованием синтезаторов речи в целом уступает по производительности зрительному восприятию данных с экрана, поэтому многие опытные незрячие пользователи для компенсации этого отставания предпочитают настраивать TTS на максимальную скорость чтения.

Ввиду этого, в данном обзоре мы также уделим значительное внимание не только качеству синтеза речи как таковому, но и таким аспектам как чтение латинского текста и скорость речи, которые являются важными для людей, использующих text-to-speech в программах экранного доступа.

В конце обзора можно найти сводную таблицу оценки существующих решений по трём ключевым параметрам: качеству синтеза, скорости речи и поддержки чтения латинского текста.

Acapela TTS Voices

Компанией Acapela Group под операционную систему Android были портированы несколько десятков её синтезаторов речи, среди которых есть и широко известный русский голос Алёна. В целом по качеству синтеза речи данное коммерческое решение находится на довольно высоком уровне, но продукт не лишён и ряда недостатков, хотя, ради справедливости, стоит отметить, что на момент написания обзора он имеет статус beta.

Во-первых, весь движок крайне нестабилен и склонен к ошибкам на всех поддерживающихся версиях Android, после которых его приходится перезапускать.

Во-вторых, у Алёны наблюдается распространённая ошибка с отсутствием произношения отдельно стоящих русских беззвучных букв, таких как мягкий и твёрдый знаки.

В-третьих, голос склонен к проглатыванию окончаний фраз, особенно на границе кириллического и латинского текстов, что можно заметить в вышеприведённом примере.

Из положительных особенностей можно выделить то, что это высококачественный голос, который одновременно с этим подходит не только для разовых задач по озвучиванию текста, но и постоянной работы в программах экранного доступа, так как обладает более быстрым откликом чем движки SVOX и не имеет их проблем с чтением отдельно стоящих латинских букв.

Чтение текста, написанного латинскими буквами, осуществляется по правилам английского языка, хотя с произношением, крайне далёким от правильного.

Максимальная скорость Алёны не очень велика, поэтому любители быстрой работы, скорей всего, будут разочарованы.

Чтобы приступить к работе, сначала из Play Market следует скачать общий движок Acapela TTS Voices, в меню которого следует выбрать интересующий голос. Далее в открывшемся меню нажать на кнопку «Buy» и пройти стандартную процедуру покупки, после чего снова открыть меню этого голоса и подгрузить синтезатор, нажав на кнопку «Download».

Системные требования: Android 2.2 и выше.

Стоимость: 3,30 EUR.

Captin TTS Engine

Под операционную систему Android Анатолием Камыниным был портирован широко известный в узких кругах синтезатор речи Капитан.

На момент написания обзора продукт находится на стадии публичного тестирования, но уже сейчас некоторыми используется в качестве основного голоса системы.

Как слышно из аудиозаписи, голос характеризуется высокой разборчивостью произношения, но неестественным звучанием, что делает его речь трудно воспринимаемой для неподготовленного пользователя.

Из существующих недостатков и специфических особенностей можно отметить следующее.

Во-первых, на некоторых устройствах синтезатор дублирует первый символ текстового отрезка, что создаёт эффект лёгкого заикания в начале фраз.

Из положительных особенностей можно отметить рекордную скорость отклика, превосходящую все существующие аналоги, а также возможность более гибкого конфигурирования, в частности многоступенчетого указания подробности чтения неалфавитных знаков: от редких символов пунктуации до каждого знака пробела.

Чтение латинского текста синтезатором осуществляется строго по правилам латыни, что, при знании соответствующих принципов чтения, позволяет работать практически с любым языком на базе латинской письменности.

В отношении скорости речи Капитан также может претендовать на призовые места, выдавая одни из самых высоких результатов.

Системные требования: Android 2.2 до 3.0.

Системные требования: Android 4.0 и выше.

eSpeak TTS

Одни из основных разработчиков специализированного программного обеспечения под Android, сообщество Eyes-Free Project, портировали под эту операционную систему хорошо известный некоммерческий синтезатор речи eSpeak.

Как слышно из демонстрации, его речь на русском языке обладает рядом существенных недостатков.

Во-первых, в русском тексте синтезатор не читает символы в верхнем регистре, как это произошло в вышеприведённой записи со словами «Здравствуйте, Меня, Моим, Подробности».

Во-вторых, всю поступающую на синтезатор строку кириллических символов eSpeak разбивает на множество небольших фрагментов, состоящих либо из нескольких, либо вообще из одной буквы. Чем и объясняется такая рванная речь. Особенно это заметно при наличии мягкого знака на конце слов, который практически всегда читается отдельно.

В-третьих, общее качество звукового сигнала достаточно низко, что особо заметно при работе в наушниках.

Из положительных качеств можно отметить немного более высокую скорость отклика, по сравнению с аналогами, а также, главным образом, бесплатность.

Чтение данным синтезатором латинского текста осуществляется по правилам английского языка и отличается приемлемым качеством.

В отношении максимальной скорости речи eSpeak, к сожалению, не может похвастаться высокими показателями, поэтому с этой стороны не стоит ждать от него многого.

Системные требования: Android 2.2 и выше.

Milena в пакете Mobile Accessibility RU

Данный синтезатор речи от Vocolazer представляет собой не универсальный голосовой движок, встраивающийся в системную TTS-службу Android, а встроенный компонент русскоязычного программного комплекса экранного доступа Mobile Accessibility.

Таким образом, этот голос не может быть использован никакой другой программой, кроме русскоязычной локализации продукта Code Factory.

Синтезатор обладает достаточно высоким качеством звучания, а также приличной скоростью отклика, хотя всестороннее тестирование данного аспекта осложняется встроенностью движка в конкретное приложение.

В целом это очень качественное решение по синтезу речи, которое известно по многим другим платформам, но и оно имеет некоторые недостатки.

Во-первых, из-за встроенности Милены в продукт Code Factory, пользователь имеет возможность работать с ним либо внутри среды Mobile Accessibility, либо в системе Android, но исключительно при использовании программы экранного доступа из состава MA.

Во-вторых, сам голос Милены характеризуется своеобразным произношением некоторых букв, например, буквы «ч», при некоторых конфигураций соседних литер, что в частности наблюдается в таком частоупотребимом при озвучивании интерфейсов слове как «отмечено».

Из положительных аспектов также можно отметить тот факт, что за счёт встроенности синтезатора в пакет Mobile Accessibility, пользователю доступны более тонкие настройки, нежели те, которые предоставляются голосовой системной службой Android, например, регулировка чтения знаков пунктуации или фонетическое чтение символов.

Латинский текст Милена читает по правилам английского языка, но правильность произношения зачастую находится на довольно низком уровне, хотя общие правила примерно соблюдаются.

В отношение же скорости речи это один из самых быстрых синтезаторов.

Стоимость: 69 EUR.

SVOX SVOX Classic TTS

В рамках ещё одного решения предлагается два коммерческих русскоязычных голоса от SVOX.

Это женский голос по имени Катя и мужской по имени Юрий, которые, ввиду своего родства, обладают схожими преимуществами и недостатками.

Из различий можно лишь отметить только более богатый низкими частотами голос Юрия, а также, на наш взгляд, его более правильные интонации. Правда, здесь же стоит и упомянуть слабо уловимые дефекты речи Юрия при произнесении шипящих согласных, что, например, можно заметить в отношении буквы «ч» в слове «точка».

Относительно же общей характеристики, то, как слышно из демонстрационных файлов, здесь качество синтеза достаточно высоко и читаемая информация воспринимается без особого труда. Тем не менее, и эти голоса имеют ряд недостатков.

Во-первых, фрагменты текста, являющиеся совокупностью букв и небуквенных знаков, синтезатор зачастую произносит по символам, а не слитно, как это произошло с частью ссылки «www.tiflocomp.ru». Также это проявляется на E-mail адресах и просто на тексте, где не чётко соблюдаются правила постановки пробелов, например, в SMS.

Во-вторых, при вводе текста, буквы I, V, X, L, C, D и M синтезатор читает как римские числа, что для незрячего пользователя, использующего TTS не только для чтения книг, но и для абсолютно всей работы, крайне не удобно. Причём чтение римских чисел также страдает от ошибок, например, MI считается числом 101, а не 1001.

В-третьих, текстовый процессор голосового движка некорректно обрабатывает арабские цифры, читая многие числа неправильно. Главным образом, это заметно на десятичных дробях.

В-четвёртых, синтезатор в целом обладает меньшей скоростью реакции нежели многие аналоги, хотя и с крайне незначительной разницей.

К сожалению, в отношении чтения латинского текста голоса SVOX не способны похвастаться хорошей разборчивостью.

Как слышно из демонстрационной записи, SVOX в целом читает латиницу по правилам чтения латыни, но местами пытается произносить её на английский манер, например, слово «voice» читается как «войке», а не «войце».

В отношении же максимальной скорости эти голоса также не характеризуются высокими показателями.

Системные требования: наличие SVOX Classic Text To Speech Engine и Android 2.1 и выше.

Стоимость: 2,99 USD (за каждый голос отдельно).

TTS Online

Данный синтезатор, разработанный Сергеем Нечипоренко и распространяемый бесплатно, представляет собой облачный сервис, использующий в своей работе Google TTS API. В сущности программа не занимается синтезированием речи, она лишь встраиваясь в голосовую службу Android, отправляет на сервер Google текстовую информацию и воспроизводит возвращаемый аудиосигнал.

Это обуславливает тот факт, что для работы синтезатора необходимо активное Интернет-подключение с достаточно высокой скоростью передачи данных.

Как слышно из демонстрационной аудиозаписи, Google TTS использует уже знакомый голос Катя от SVOX, поэтому для него характерны все те же особенности, которые были освещены в обзоре SVOX Classic TTS.

Отдельно только стоит обратить внимание, что TTS Online не поддерживает настройку скорости речи, поэтому пользователю придётся смириться с его неторопливым темпом.

Кроме того, на момент написания обзора, TTS Online не поддерживает работу в среде Android 4.0.x Ice Cream Sandwich, и изменение этого, по заявлению разработчика, в обозримом будущем не планируется.

Системные требования: Android от 2.2 до 3.x.

Резюме

Ниже приведена сводная таблица существующих русскоязычных синтезаторов речи под Android OS, в которой отражены такие характеристики как качество голоса, применяемые правила чтения латинского текста и максимальная скорость речи.

Источник

Синтез речи: Подборка лучших TTS синтезаторов на сегодняшний день | ТОП 20

Синтез речи на сегодняшний день технология крайне востребованная. Преобразование текста в звук применимо во многих сферах: программирование, озвучка новостей, озвучивание книг, звуковое сопровождение в компьютерных программах, мобильных приложениях и т.д.

Синтез речи играет далеко не последнюю роль в создании контента для YouTube да и в целом дает возможность наладить автоматизацию производства контента.

В этой заметке я решил собрать самые популярные и качественные синтезаторы.

1. Yandex SpeechKit — технология синтеза речи от компании Яндекс. Услуга синтезирования платная, но есть демо в котором можно озвучивать небольшие куски текста.

На выбор предоставлено 8 голосов с возможностью выбора языка. Поддерживаемые языки: русский, английский и турецкий.

2. Синтез речи от ЦРТ — это реалистичный синтез русской речи на основе нейросетей.

Предоставлено на выбор 4 голоса с различной частотой. Как и у Яндекса — технология платная, но демо-версия позволяет совершенно бесплатно озвучивать небольшие объемы текста.

ЦРТ — это российская компания, которая занимается разработкой инновационных систем в сфере технологий синтезирования и распознавания речи, анализа информации, лиц, голосовой и мультимодальной биометрии.

3. Синтез речи VSrobotics — это синтезатор от компании которая занимается разработкой решений в области бизнеса и IT.

Присутствует 6 голосовых движков с различной частотой (8 и 24 кГц).

Демо-версия позволяет озвучивать 500 символов за один раз, ограничений на повтор озвучки нет.

4. Синтез речи от Tinkoff — синтез речи от Тинькофф, который был разработан для банка. Присутствует два голоса — мужской и женский. Но в демо-версии можно протестировать только женский голос.

Зато нет таких строгих ограничений по количеству текста, допускается текст до 5 000 символов.

5. Синтез речи от Mail.ru — это голосовой помощник Маруся с навыками синтеза речи, TTS для озвучки текста на данный момент нет, но этот голосовой движок пригодится для озвучки новостей из раздела Mail.News.

6. Озвучка при помощи Яндекс Алисы — Алиса это голосовой помощник, который недавно наделили возможностью озвучивать веб-страницы. Функционал уже встроен в Яндекс браузер.

Устанавливаем браузер, открываем нужную страницу, выделяем текст и в контекстном меню вызываем функцию озвучить. Также можно озвучивать свой текст. Для этого в блокноте нужно напечатать текст и сохранить документ в формате html. Сохраненную веб-страницу открываем в браузере и озвучиваем текст.

7. Texttospeech — веб-ресурс с подборкой голосовых движков для разных стран мира. В базе имеется 145 голосов и она постоянно пополняется.

Поддерживаются языковые пакеты: Россия, Украина, Казахстан, США, Польша, Франция, Германия, Италия, Испания, Швеция, Португалия, Бразилия, Турция, Япония.

За один раз можно синтезировать 1000 символов, можно настраивать высоту, скорость и формат аудио.

8. ApiHost — сервис занимающийся синтезом речи на основе существующих движков, записью голоса и искажением, а также анализом текста.

TTS V1 имеет в наборе 22 голоса и поддержку четырех языков.
TTS V2 поддерживает 2 языка и 4 голоса.
TTS V5 поддерживает 15 языковых пакетов и 7 голосов.
За один раз можно синтезировать 1000 символов.

9. TexttoSpeechRobot — ресурс с множеством TTS под разные страны. Каждый tts’ник имеет много голосов на выбор, например русский имеет 23 голоса.

Длина текста которую можно синтезировать за раз — 2000 символов.

10. Zvukogram — сервис озвучки текста который в своих базах имеет реалистичные голоса на основе нейросетей, есть премиальные голоса, они имеют пометку *pro.

Сервис не имеет ограничений по тексту. Можно сразу озвучить большую статью. Также можно создавать диалоги разными голосами.

Но все же кое какие ограничения имеются. Звукограм — это платный сервис, но не дорогой! Платность гарантирует развитие проекта, появление новых возможностей и долгую жизнь проекта.

За каждую озвучку списываются токены. Тарифы на озвучку просты и очень доступны:

Обычный голос 1000 символов — 1 токен.
Pro голос 1000 символов — 5 токенов.

Изначально на балансе имеется 5 токенов, чтобы протестировать возможности сервиса. Сервис работает без регистрации тоже, но токены списываются. Думаю, что можно использовать VPN или подобные инструменты чтобы использовать его бесплатно.

11. Unitools.Tech — качественная озвучка текста онлайн, сервис очень похож на предыдущий из нашего списка. Есть поддержка 6 языков, в наличии 13 голосов, но после регистрации будет доступно больше качественных голосов.

12. OddCast — сервис синтеза речи с голосами Vocalware, а также голосами Nuance, такими как Daniel (голос MLG) и Samantha (старый голос Siri). Поддерживаются 24 языка, русского к сожалению нет.

Синтез сопровождается анимированным изображением персонажа, можно выбрать женский, мужской или облик животного.

13. NaturalReaders — сервис синтеза речи на основе голосов из Acapela, AT&T, Nuance и других, есть бесплатная пробная версия, но в ней нет PRO-версий голосов. Подойдет для озвучивания англоязычной информации.

14. Acapela-box — tts от разработчиков голосовых движков acapela. Синтезатор устаревший и главное пользоваться им можно только имея платный аккаунт. При тестировании демо-версии звук сопровождается мелодией.

15. TTSmp3 — простенький mp3 блокнот для перевода текст в звук. В базе имеется несколько десятков языковых пакетов, в том числе и русский, правда русские голоса самые простые, взятые с балаболки.

16. Google Cloud Text-to-Speech — синтез речи от компании Google, голоса используются WaveNet. Сервис платный, но демка дает возможность оценить возможности и даже озвучивать бесплатно небольшие куски текста.

Для озвучки английского текста одно из лучших решений.

17. VoiceMaker — название сервиса говорит само за себя. Инструментарий позволяет синтезировать аудио из текста и применять звуковые эффекты. В базе имеются хорошие голоса для синтеза английской речи, в том числе на основе нейросетей.

18. MelroseLabs TTS — синтезатор от компании, которая занимается решением IT задач для бизнеса.

19. IBM Watson Text to Speech — синтезатор от компании IBM, очень похожий на синтез от Google. От недавнего времени чтобы пользовать демкой нужно регистрировать аккаунт.

20. Nuance TTS — синтезатор от американской компании-разработчика ПО. Многие голоса повторяются, но есть все же уникальные, которые встречаются только в этом tts’нике.

21. Wideo TTS — десятки голосов с поддержкой разных языков мира. Подойдет для озвучки англоязычных текстов. Поддержка русского есть, но голосовые движки устаревшие.

22. Azure TTS — синтезатор от Microsoft.

Есть еще много сайтов, но они в основном дублируют возможности выше описанных сервисов, смысла их освещать нет. В озвученных мною ресурсах многие голоса повторяются, но все же возможности настройки и ограничения у сервисов разные. Советую протестировать каждый из них, чтобы определится с наиболее подходящим под свои цели.

Если вы знаете другие качественные синтезаторы, сообщите о них в комментариях, будет интересно посмотреть.

Также знаю хорошие инструменты для синтеза на смартфонах или в браузере, в дальнейшем будут материалы и по этой части.

Источник