Ученые РАН создали программный комплекс распознавания речи для карельского языка

Специалисты Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) в сотрудничестве с коллегами из Карельского научного центра РАН создали программный комплекс распознавания речи для карельского языка (ливвиковского наречия) по аудиоматериалам. В перспективе технология позволит переводить устную речь в режиме реального времени.

По оценкам ученых, в настоящее время на карельском языке говорят около 30 тысяч человек, из которых порядка 25 тысяч проживают в России. Но в повседневной жизни карельский язык используют лишь 5-7 тысяч, что ставит его под угрозу исчезновения. Разработка направлена на документирование и сохранение карельского языка. Кроме того, предложенная система может стать важным инструментом в области автоматизации лингвистических исследований культур коренных народов Российской Федерации.

«Мы создали систему автоматического распознавания речи для ливвиковского наречия карельского языка, распространенного на юге и юго-западе Карелии. Изучение карельского языка имеет огромное значение не только для сохранения культурного наследия, но и для поддержки языковой традиции его носителей. Создание системы распознавания карельской речи — один из способов если не возродить, то хотя бы задокументировать этот язык», — рассказала одна из авторов разработки, старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Ирина Кипяткова.

Ученые отмечают, что карельский язык является малоресурсным, то есть для него существует крайне мало электронных данных — текстов, аудиозаписей, словарей, — что осложняет создание системы распознавания речи.

Обучение нейросетей проводили на базе данных карельского языка, в основу которой легли материалы карельских периодических изданий, текстов на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других открытых письменных источников. Кроме того, ученые собрали два набора данных разговорной речи. Первый — на материале радиопередач «Родной берег» ГТРК «Карелия». Второй был специально собран в ходе исследования. Это записи карельской речи, содержащей включения русскоязычных слов. Речевой материал обработан участниками проекта, владеющими ливвиковским наречием карельского языка.

«Кроме нашей системы, в мире есть лишь одна модель, поддерживающая карельский язык. Однако она является многоязычной, ее обучение базировалось на очень небольшом объеме данных, что существенно снижает точность распознавания именно карельской речи. Мы же учитываем реальные условия использования карельского языка, где часто встречается переключение между карельским и русским. Многие носители карельского в повседневной речи смешивают два языка, и мы обучаем нашу систему корректно обрабатывать такие случаи», — сообщила Ирина Кипяткова.

Разработанная система в перспективе может применяться для автоматического стенографирования речи на карельском языке, например, для расшифровки аудиоархивов и устной речи, в том числе для лингвистических исследований, что должно способствовать сохранению и дальнейшему исследованию карельского языка. 

Проект поддержан грантом РНФ.