Ученые Украинского католического университета и Киевского национального университета достигли существенного прорыва в синтезе украинской речи для искусственного интеллекта. Им удалось значительно улучшить воспроизведение слов с правильными ударениями в зависимости от контекста, что было одной из сложных проблем обработки украинского языка.
Как пишет Delo.ua, об этом сообщил исследователь Юрий Панов в своем блоге.
ИИ будет говорить по-украински лучше
Исследователи сосредоточились на решении ключевой проблемы украинского синтеза речи — правильном определении ударений в словах в зависимости от контекста. Для этого команда проделала комплексную работу, охватывающую как лингвистические, так и технологические решения.
В частности, ученые вручную создали размеченный бенчмарк для оценки методов акцентирования текста и провели сравнительный анализ существующих подходов. На его основе была разработана модель для автоматического распознавания ударений, которая используется для авторазметки омографов — слов с одинаковым написанием, но разным значением и произношением в зависимости от ударения.
Ключевым результатом стала модель проставления ударений в контексте, сочетающая нейросетевой подход со словарной базой. Такой гибридный метод считается лучшим в своем классе (state of the art) для украинского языка.
Отдельным элементом разработки стал фонемизатор, созданный на основе классических лингвистических трудов, в частности, методики издания «Современный украинский литературный язык: Лексикология. Фонетика» под редакцией Мойсиенко. Программную реализацию провел Михаил Лукьянчук под руководством Валентины Робейко.
Раньше главным препятствием для создания природного украинского «голоса» для ИИ оставалась сложная фонология и недетерминированная система ударений. Предыдущие системы часто допускали ошибки, ведь опирались только на словари или слишком упрощенные правила произношения, не учитывая содержание всего предложения.
Новый подход в первый раз позволяет анализировать контекст полностью. Техническое решение основано на гибридной архитектуре, объединяющей нейросеть ByT5 для контекстного анализа и подробно прописанных лингвистических правил для преобразования текста в звуки.
Кроме самой модели, команда также открыла доступ к первому в Украине специализированному бенчмарку для оценки систем прогнозирования ударений. Он содержит более тысячи вручную аннотированных предложений и может стать основой дальнейших исследований и развития украинских языковых технологий.
Результаты экспериментов показали высокую эффективность новой разработки. Созданный фонемайзер продемонстрировал очень низкий уровень ошибок – показатель WER составил всего 1,23% на тестовом наборе данных. В то же время комбинированная система прогнозирования ударений показала лучшие результаты, чем существующие нейросетевые решения, обеспечив точность на уровне 92,5%.
Для пользователей это означает более естественное и четкое звучание украиноязычных цифровых сервисов. В частности, улучшение ощутят пользователи виртуальных ассистентов, навигационных систем, а также программ для озвучивания текста и чтения с экрана.
Напомним, Twitch добавил украинский язык в свой интерфейс после официального обращения Министерства цифровой трансформации Украины. Теперь локализация доступна в режиме активного бета-тестирования.

