Голос без границ: Xiaomi представила революционную нейросеть для синтеза речи

Компания Xiaomi официально анонсировала OmniVoice — открытую модель искусственного интеллекта, способную преобразовывать текст в речь. Новинка не просто синтезирует голос, а предлагает функции клонирования и детальной настройки речи, устанавливая новый стандарт в индустрии.

Ключевое преимущество OmniVoice — ее многоязычность. Модель поддерживает почти все языки мира, включая те, для которых существует крайне мало обучающих данных. По заявлению разработчиков, это первая в отрасли система клонирования голоса с таким широким языковым охватом.

В ходе тестов на 102 языках разборчивость речи, сгенерированной OmniVoice, была сопоставима с человеческой, а на 24 популярных языках она даже превзошла существующие коммерческие аналоги по качеству и естественности звучания.

В отличие от громоздких предшественников, OmniVoice использует принципиально иную, более простую архитектуру. Вместо сложной цепочки из нескольких модулей и этапов прогнозирования здесь применяется единая двунаправленная нейросеть-трансформер. Это обеспечивает колоссальный прирост производительности: модель способна обработать 100 тысяч часов данных всего за один день, а при запуске (инференсе) генерирует речь в 40 раз быстрее реального времени, что делает ее идеальной для потребительских приложений.

Высокая эффективность достигается за счет двух инновационных решений. Во-первых, был применен «метод случайного скрытия акустических кодов», который значительно повысил качество обучения. Во-вторых, на этапе предварительного обучения модель интегрировали с большой языковой моделью (LLM), что позволило добиться безупречной точности произношения и разборчивости.

OmniVoice предлагает пользователям гибкие инструменты управления:

— гибкое создание голоса: можно задать желаемые характеристики — возраст, пол, акцент, высоту тона и стиль — без необходимости иметь эталонный образец;— клонирование в любых условиях: модель эффективно удаляет фоновый шум и извлекает чистый голос, позволяя копировать речь даже с низкокачественных записей;— живая речь: нейросеть генерирует естественные звуки — вздохи, смех, интонационные паузы;— тонкая настройка: предусмотрена возможность ручного исправления сложных моментов произношения, будь то многозначные китайские иероглифы или иностранные имена собственные.

Источник: sport24.ru