Синтезаторы речи tts для андроид

Содержание

Обзор мобильных Text-To-Speech движков
Коммерческие движки
Свободные движки
Встроенные решения
Заключение
Обзор синтезаторов речи для Андроид
Синтез речи от Google
Acapela TTS Voices
Синтез речи: Подборка лучших TTS синтезаторов на сегодняшний день | ТОП 20

Обзор мобильных Text-To-Speech движков

Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.

Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.

Для удобства разделим движки TTS на три класса:

коммерческие;
свободные (решения лицензированные по GPL, LGPL и более «мягким» лицензиям типа BSD License или wxWindows Licence, которые допускают коммерческую разработку продуктов);
встроенные (средства, предоставляемые самой операционной системой).

Коммерческие движки

SVOX Mobile TTS

Цена: n/a
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, BREW
Возможность разработки коммерческих продуктов: есть

Компания SVOX имеет наиболее «вкусный» с технической точки зрения продукт — SVOX Mobile TTS. Однако, поскольку компания работает в основном в B2B сегменте, на мои два письма с запросом цены они так и не ответили.

Acapela TTS

Цена: 2800€ плюс так называемая run-time license, за которую в самом лучшем случае придется платить по 49€ за каждое распространенное приложение
Языки: 23, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS
Возможность разработки коммерческих продуктов: есть

Сотрудники Acapela Group оказались намного более общительными и ответили буквально через полчаса после заполнения вот этой заявки.

Цена, указанная в шапке, относится к таким операционным системам как Windows Mobile и Symbian, однако бизнес-модель Acapela разнится в зависимости от выбранной ОС. К примеру, наиболее сильно они продвигают направление iOS, для которого сделан отдельный сайт. Там можно зарегистрироваться и бесплатно получить evaluation версию их движка. Цена голого SDK для бывшей iPhone OS составляет 250€. Так же с каждого проданного Вами в App Store приложения снимаются немалые проценты.

Отмечу, что Acapela предоставляет «облачный» синтез речи, а так-же портирование SDK под любую платформу.

Loquendo Embedded TTS

Цена: 3000€ плюс проценты с каждого проданного Вами мобильного приложения
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS, Maemo, Moblin, MeeGo, PalmOS
Возможность разработки коммерческих продуктов: есть

Движок Loquendo обладает специальными тегами, позволяющими делать речь более естественной, подмешивая такие не совсем «речевые» фишки как кашель, смех и прочее.

Их движок отвечает спецификации SSML 1.0 рекомендованной W3C.

Sakrament TTS

Цена: 1500€ для одной ОС, при покупке пакета сразу для двух языков предоставляется скидка в размере 25%, что составляет 2250€
Языки: английский, русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Symbian, Windows Mobile
Возможность разработки коммерческих продуктов: есть

Качества синтеза речи Sakrament TTS вполне достаточно, что бы озвучивать короткие фразы типа номеров телефонов или названий приложений. Описание всех версий SDK можно получить здесь.

Свободные движки

Flite

Цена: нет
Языки: английский плюс возможность компиляции языков FestVox
Субъективная оценка качества звучания: низкое
Мобильные ОС: Android, Windows CE/Windows Mobile, iOS, PalmOS
Возможность разработки коммерческих продуктов: есть (CMU licence)

В мире настольных систем хорошо известен синтезатор речи Festival. Он имеет порт под названием Flite для мобильных устройств и встраиваемых систем, который распространяется под их собственной X11-like лицензией, позволяющей свободно распространять данное ПО кому угодно, а так же строить на его основе как коммерческие, так и свободные приложения. Существуют порты для Windows CE/Windows Mobile, PalmOS, Android и iOS.

eSpeak

Цена: нет
Языки: 39, включая русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Android, Windows CE/Windows Mobile
Возможность разработки коммерческих продуктов: нет (GNU GPL)

Инструкция для компиляции движка под WM включена в дистрибутив, однако на этой платформе eSpeak имеет одно существенное ограничение – генерация голоса возможна только в WAV файл. Собранный TTS engine для Windows Mobile можно получить здесь.

eSpeak портирован на Android. Самый простой способ его попробовать — это установить из Android Market’а приложение TTS Service Extended, которое позволяет переключаться между встроенным движком и eSpeak. Данный TTS движок распространяется на условиях GNU GPL.

Встроенные решения

Встроенные решения присутствуют только в Symbian и Android. По какой-то неизвестной причине Microsoft лишила свою мобильную ОС соответствующего программного интерфейса (MS SAPI).

Symbian

Цена: нет
Языки: английский
Субъективная оценка качества звучания: крайне низкое
Возможность разработки коммерческих продуктов: есть

Встроенный TTS от Symbian Foundation скрывается в классе CMdaAudioPlayerUtility. Хотя в его документации ничего об этом не сказано, он все же позволяет синтезировать речь. К сожалению, русский язык не поддерживается. Качество генерации английской речи очень низкое. Без подготовки довольно трудно понять, что именно он произнес.

Дополнительные языковые пакеты можно загрузить здесь, однако список поддерживаемых телефонов крайне мал. Установка пакетов для русского языка на устройство под управлением Symbain OS S60 5th не дала ожидаемых результатов, встроенный TTS так и не заговорил по-русски.

Отмечу, что имеется достаточно удобное расширение API под названием NSS TTS Utility API, описание которого можно найти здесь.

Android

Цена: нет
Языки: английский, французский, немецкий, итальянский, испанский
Субъективная оценка качества звучания: среднее
Возможность разработки коммерческих продуктов: есть

Встроенная функциональность синтеза речи в Android доступна с версии 1.6. Прекрасное введение в тему можно найти в блоге разработчиков. Android TTS API является не чем иным, как оберткой над SVOX Pico, русский язык, которым, к сожалению, не поддерживается.

Заключение

Выводы каждому придется делать в зависимости от требований к разрабатываемому продукту. Для коммерческих решений крайне важно качество синтеза речи, поэтому выбирать стоит из двух движков – Acapela TTS и Loquendo Embedded TTS. При выборе движка для open source проекта крайне важную роль будет играть список целевых ОС.

Лично для себя я выбрал eSpeak, поскольку мой проект академического толка и я могу себе позволить использование продукта лицензированного по GNU GPL.

Источник

Обзор синтезаторов речи для Андроид

Приложения-синтезаторы речи – удобные и надежные помощники для Андроид пользователей. С их помощью можно «озвучить» приложения на самые популярные языки мира, настроить тембр голоса и другие важные параметры, а также учить языки, прослушивать звучание разных слов. Большинство TTS приложений для Android доступны бесплатно, однако за установку отдельных голосов и функций нужно доплатить. Мы подобрали для вас наиболее удобные синтезаторы речи, скачать которые можно на нашем сайте.

Синтез речи от Google

Жанр	Инструменты
Рейтинг	4,1
Установки	1 000 000 000–5 000 000 000
Разработчик	Google LLC
Русский язык	есть
Оценок	1 107 289
Версия	3.14.9
Размер apk	14.7 MB

Наиболее популярная и доступная TTS-утилита, совместимая со многими Андроид-девайсами. С помощью программы вы можете озвучивать текст на экране, а также выполнять ряд важных функций:

Озвучивать книги приложения Google Play Книги.
Переводить и озвучивать слова из Google Переводчика.
Включать голосовые подсказки при помощи сервиса TalkBack.

Активировать приложение Синтез речи от Google можно прямо на своем девайсе. Для этого откройте пункт меню «Настройки», где зайдите в подраздел «Язык и методы ввода», а там – «Синтез речи». Выберите систему синтеза речи от Google, после чего приложение активируется автоматически.

Программа поддерживает более 40 языков, среди которых английский, русский, французский, немецкий, японский, испанский, датский, хинди и много других. В последней версии утилиты добавлено 3 новые языка – румынский, эстонский и словацкий, а также улучшено качество голоса в целом.

Acapela TTS Voices

Жанр	Связь
Рейтинг	3,5
Установки	100 000–500 000
Разработчик	Acapela Group S.A.
Русский язык	нет
Оценок	3 883
Версия	6.0.0.2
Размер apk	9.3 MB

Еще один качественный синтезатор речи на Андроид, который доступен на нашем портале. Программа является условно бесплатной, при этом перед тем, как купить приложение, вы можете прослушать демо-версии мужских и женских голосов в режиме онлайн. Утилита позволяет покупать и устанавливать программы с голосом высокого качества, такие как Google TalkBack, переводчики приложений для чтения книг и озвучивания новостей.

Для выбора и установки голоса в приложении войдите в меню, после чего нажмите на голос и удерживайте несколько секунд. Возле выбранного голоса появится значок желтой звезды, и он будет установлен по умолчанию. Теперь вы можете использовать эту программу с вашей любимой читалкой книг.

Приложение Acapela TTS Voices можно активировать следующими действиями.

Загрузите сервис на нашем сайте или портале Google Play.
После установки приложения кликните на иконку программы. Убедитесь в наличии Интернет-соединения.
Ознакомьтесь со списком голосов, которые загружены с сервера.
Нажмите на меню напротив каждого голоса, где можно прослушать собственный текст или сразу перейти к покупке.
После покупки и оплаты голос будет загружен, и вы сможете пользоваться им в любое время.

Приложение Acapela TTS Voices совместимо с ОС Android 2.2 и более поздними версиями.

Источник

Синтез речи: Подборка лучших TTS синтезаторов на сегодняшний день | ТОП 20

Синтез речи на сегодняшний день технология крайне востребованная. Преобразование текста в звук применимо во многих сферах: программирование, озвучка новостей, озвучивание книг, звуковое сопровождение в компьютерных программах, мобильных приложениях и т.д.

Синтез речи играет далеко не последнюю роль в создании контента для YouTube да и в целом дает возможность наладить автоматизацию производства контента.

В этой заметке я решил собрать самые популярные и качественные синтезаторы.

1. Yandex SpeechKit — технология синтеза речи от компании Яндекс. Услуга синтезирования платная, но есть демо в котором можно озвучивать небольшие куски текста.

На выбор предоставлено 8 голосов с возможностью выбора языка. Поддерживаемые языки: русский, английский и турецкий.

2. Синтез речи от ЦРТ — это реалистичный синтез русской речи на основе нейросетей.

Предоставлено на выбор 4 голоса с различной частотой. Как и у Яндекса — технология платная, но демо-версия позволяет совершенно бесплатно озвучивать небольшие объемы текста.

ЦРТ — это российская компания, которая занимается разработкой инновационных систем в сфере технологий синтезирования и распознавания речи, анализа информации, лиц, голосовой и мультимодальной биометрии.

3. Синтез речи VSrobotics — это синтезатор от компании которая занимается разработкой решений в области бизнеса и IT.

Присутствует 6 голосовых движков с различной частотой (8 и 24 кГц).

Демо-версия позволяет озвучивать 500 символов за один раз, ограничений на повтор озвучки нет.

4. Синтез речи от Tinkoff — синтез речи от Тинькофф, который был разработан для банка. Присутствует два голоса — мужской и женский. Но в демо-версии можно протестировать только женский голос.

Зато нет таких строгих ограничений по количеству текста, допускается текст до 5 000 символов.

5. Синтез речи от Mail.ru — это голосовой помощник Маруся с навыками синтеза речи, TTS для озвучки текста на данный момент нет, но этот голосовой движок пригодится для озвучки новостей из раздела Mail.News.

6. Озвучка при помощи Яндекс Алисы — Алиса это голосовой помощник, который недавно наделили возможностью озвучивать веб-страницы. Функционал уже встроен в Яндекс браузер.

Устанавливаем браузер, открываем нужную страницу, выделяем текст и в контекстном меню вызываем функцию озвучить. Также можно озвучивать свой текст. Для этого в блокноте нужно напечатать текст и сохранить документ в формате html. Сохраненную веб-страницу открываем в браузере и озвучиваем текст.

7. Texttospeech — веб-ресурс с подборкой голосовых движков для разных стран мира. В базе имеется 145 голосов и она постоянно пополняется.

Поддерживаются языковые пакеты: Россия, Украина, Казахстан, США, Польша, Франция, Германия, Италия, Испания, Швеция, Португалия, Бразилия, Турция, Япония.

За один раз можно синтезировать 1000 символов, можно настраивать высоту, скорость и формат аудио.

8. ApiHost — сервис занимающийся синтезом речи на основе существующих движков, записью голоса и искажением, а также анализом текста.

TTS V1 имеет в наборе 22 голоса и поддержку четырех языков.
TTS V2 поддерживает 2 языка и 4 голоса.
TTS V5 поддерживает 15 языковых пакетов и 7 голосов.
За один раз можно синтезировать 1000 символов.

9. TexttoSpeechRobot — ресурс с множеством TTS под разные страны. Каждый tts’ник имеет много голосов на выбор, например русский имеет 23 голоса.

Длина текста которую можно синтезировать за раз — 2000 символов.

10. Zvukogram — сервис озвучки текста который в своих базах имеет реалистичные голоса на основе нейросетей, есть премиальные голоса, они имеют пометку *pro.

Сервис не имеет ограничений по тексту. Можно сразу озвучить большую статью. Также можно создавать диалоги разными голосами.

Но все же кое какие ограничения имеются. Звукограм — это платный сервис, но не дорогой! Платность гарантирует развитие проекта, появление новых возможностей и долгую жизнь проекта.

За каждую озвучку списываются токены. Тарифы на озвучку просты и очень доступны:

Обычный голос 1000 символов — 1 токен.
Pro голос 1000 символов — 5 токенов.

Изначально на балансе имеется 5 токенов, чтобы протестировать возможности сервиса. Сервис работает без регистрации тоже, но токены списываются. Думаю, что можно использовать VPN или подобные инструменты чтобы использовать его бесплатно.

11. Unitools.Tech — качественная озвучка текста онлайн, сервис очень похож на предыдущий из нашего списка. Есть поддержка 6 языков, в наличии 13 голосов, но после регистрации будет доступно больше качественных голосов.

12. OddCast — сервис синтеза речи с голосами Vocalware, а также голосами Nuance, такими как Daniel (голос MLG) и Samantha (старый голос Siri). Поддерживаются 24 языка, русского к сожалению нет.

Синтез сопровождается анимированным изображением персонажа, можно выбрать женский, мужской или облик животного.

13. NaturalReaders — сервис синтеза речи на основе голосов из Acapela, AT&T, Nuance и других, есть бесплатная пробная версия, но в ней нет PRO-версий голосов. Подойдет для озвучивания англоязычной информации.

14. Acapela-box — tts от разработчиков голосовых движков acapela. Синтезатор устаревший и главное пользоваться им можно только имея платный аккаунт. При тестировании демо-версии звук сопровождается мелодией.

15. TTSmp3 — простенький mp3 блокнот для перевода текст в звук. В базе имеется несколько десятков языковых пакетов, в том числе и русский, правда русские голоса самые простые, взятые с балаболки.

16. Google Cloud Text-to-Speech — синтез речи от компании Google, голоса используются WaveNet. Сервис платный, но демка дает возможность оценить возможности и даже озвучивать бесплатно небольшие куски текста.

Для озвучки английского текста одно из лучших решений.

17. VoiceMaker — название сервиса говорит само за себя. Инструментарий позволяет синтезировать аудио из текста и применять звуковые эффекты. В базе имеются хорошие голоса для синтеза английской речи, в том числе на основе нейросетей.

18. MelroseLabs TTS — синтезатор от компании, которая занимается решением IT задач для бизнеса.

19. IBM Watson Text to Speech — синтезатор от компании IBM, очень похожий на синтез от Google. От недавнего времени чтобы пользовать демкой нужно регистрировать аккаунт.

20. Nuance TTS — синтезатор от американской компании-разработчика ПО. Многие голоса повторяются, но есть все же уникальные, которые встречаются только в этом tts’нике.

21. Wideo TTS — десятки голосов с поддержкой разных языков мира. Подойдет для озвучки англоязычных текстов. Поддержка русского есть, но голосовые движки устаревшие.

22. Azure TTS — синтезатор от Microsoft.

Есть еще много сайтов, но они в основном дублируют возможности выше описанных сервисов, смысла их освещать нет. В озвученных мною ресурсах многие голоса повторяются, но все же возможности настройки и ограничения у сервисов разные. Советую протестировать каждый из них, чтобы определится с наиболее подходящим под свои цели.

Если вы знаете другие качественные синтезаторы, сообщите о них в комментариях, будет интересно посмотреть.

Также знаю хорошие инструменты для синтеза на смартфонах или в браузере, в дальнейшем будут материалы и по этой части.

Источник