Новости

Нацпроект «Наука»: нейросеть аспиранта СВФУ научилась распознавать дифтонги в 50% случаев

фото: из личного архива

  • 12 Января 2022
  • 268

Нацпроект «Наука»: нейросеть аспиранта СВФУ научилась распознавать дифтонги в 50% случаев

Аспирант Института математики и информатики Северо-Восточного федерального университета Иннокентий Иванов продолжает работу над разработкой нейросети, которая позволит создавать онлайн-переводчики с якутского на другие языки – проект реализуется на средства гранта Российского фонда фундаментальных исследований и завершится в сентябре.

«На сегодня нейросеть, обученная на видеоускорителе RTX 3070 Ti, еще не выдает полностью связный текст, но подходящие дифтонги в 50% случаев подставляет верные. Тем не менее план работ перевыполнен, поскольку создание нейросети планировалось реализовать в середине 2022 года», – делится молодой ученый. Иннокентий Иванов добавил, для создания нейронной сети использованы текстовые версии веб-ресурсов СМИ: «Кыым»,  «Sakhaday», «Эдэр Саас»  и лингвистического корпуса якутского языка – к марту-апрелю завершится наполнение базы данных. В качестве предобученной модели выбрана ruGPT-3 от Сбера.

Чтобы при переводе получить осмысленный текст, нужно устанавливать срок обучения не менее суток для генерации адекватного текстового полотна, объясняет аспирант. «Я намеренно пропустил этап файн-тюнинга нейронной сети: когда по мере генерации результатов разработчик указывает модели на ошибки при создании текста, и модель пересоздает участки с предложениями уже с учетом ошибок. Файн-тюнинг занимает очень много времени, его всегда можно выполнить позже», – считает Иннокентий Иванов.

В планах молодого ученого – улучшить качество генерации текста и проработать его практическое применение. «Следует внимательно отнестись к склонениям слов, дифтонгам. Смысл созданного нейронной сетью текста может исчезнуть после очередного неправильного склонения слов», – подчеркивает молодой ученый.

По итогам проекта Иннокентий Иванов опубликует модель нейронной сети в открытом доступе – она является многоцелевой и не заточена под конкретную задачу, ее применение возможно в широком спектре программ и приложений. По мнению аспиранта СВФУ, таким образом сервис на якутском языке можно оперативно добавить в свой продукт – в свою очередь это откроет возможности для мгновенного перевода текста, общения с техподдержкой и многое другое.

Справка:

По итогам первого года реализации гранта РФФИ №20-37-90059 Иннокентий Иванов опубликовал статью из списка ВАК на тему «Перспективы использования модели нейронной сети ruGPT-3 для обработки текстов на якутском языке» – в ней рассматриваются вопросы токенизации, использования кириллицы и генерации текста.

Ознакомиться с информацией о проекте можно по ссылке.

Автор: Анна БАЙСАКОВА, пресс-служба Северо-Восточного федерального университета

Разрешено копирование статей, только при наличии активной (кликабельной) ссылки на страницу-источник сайта Северо-Восточного федерального университета. Ссылка должна находиться непосредственно рядом с материалом, должна быть видимой и прямой (без использования java-скриптов).