Мордовские ученые восстанавливают генетические связи мокшанского и эрзянского языков

Новости подведомственных учреждений

Лингвисты Мордовского государственного университета (МГУ) имени Н. П. Огарева пополнили информационно-справочную систему «Национальный корпус мордовских языков», дав краткие пояснения к более чем 10 тыс. словоформам мокшанского и эрзянского языков. Корпус размещен на цифровой платформе «ЛингвоДок».

Электронный ресурс «Национальный корпус мордовских языков» необходим для научных исследований и обучения языку. Он создается в рамках программы Минобрнауки России «Приоритет 2030», которая является одной из мер государственной поддержки университетов нацпроекта «Наука и университеты».

Мордвины говорят на мокшанском и эрзянском языках, относящихся к финно-угорской ветви уральской языковой семьи. Согласно последним доступным данным Всероссийской переписи населения, они входят в десятку самых многочисленных народов страны, в России проживает более 800 тысяч мордвы. Вместе с тем отмечается сокращение носителей мокшанского и эрзянского языков, что обусловило интерес ученых к их описанию, оцифровке и размещению информации на электронном ресурсе.

«До настоящего времени в мордовском языкознании не было единого цифрового решения, позволяющего накапливать и публиковать языковые данные — аудиословари и глоссированные корпуса текстов, а также проводить их анализ с помощью специальных компьютерных программ с точки зрения особенностей лексики, фонетики и морфологии», — рассказал и. о. декана филологического факультета вуза Иван Рябов.

Объединить усилия лингвистов в сборе и оцифровке диалектного материала и художественных текстов мордовских языков позволило подписанное в 2021 году соглашение с подведомственным Минобрнауки России Институтом системного программирования РАН о совместной работе на платформе «ЛингвоДок». Использование этой единой цифровой платформы создало условия для размещения данных разных пользователей с сохранением всех прав создателей словарей и корпусов. 

Мордовские исследователи проводят оцифровку и лингвистическую разметку мокшанского и эрзянского языкового материала. Сначала они определили источники — тексты художественных произведений разных периодов. После подготовленные тексты были глоссированы (им были даны краткие пояснения) и переведены учеными в структуру морфологического анализатора на цифровой платформе «ЛингвоДок». В числе глоссов к словам были указаны их начальные формы, перевод, а также грамматические характеристики.

«Цифровое описание мокшанского и эрзянского языка выводит работы наших ученых на новый уровень. Поскольку анализ размещенного на платформе материала позволит получить исследователям важнейшие сведения для ретроспективного изучения мордовских языков, поможет установить генетические связи языка, выявить хронологию в развитии некоторых явлений и восстановить пути развития языка», — прокомментировал ректор МГУ имени Н. П. Огарева Дмитрий Глушко.

Для группы финно-угорских языков (венгерского, финского, эстонского) уже созданы корпуса, отличающиеся содержанием, типами имеющейся разметки, а также способом доступа. Однако основное отличие этой работы от мордовских исследований в том, что она не имеет лингвистической разметки: тексты не размечены и не глоссированы. Из-за этого возникают трудности при создании системы автоматического перевода, так как программе нужно показывать грамматические значения, которые аккумулированы в грамматической форме, смотреть на структуру языка.

Стоит отметить, что по некоторым финно-угорским языкам России лингвисты собирают в экспедициях отдельные электронные текстовые коллекции и небольшие устные корпуса. В настоящее время созданы первые версии письменных корпусов коми, удмуртского и марийских языков. По планам ученых МГУ имени Н. П. Огарева, в «Национальный корпус мордовских языков» войдут не менее 200 тысяч словоформ. В дальнейшем глоссированные тексты станут основой для разработки программы автоматического перевода, системы распознавания орфографии, синтезаторов речи.

Читать также