фото: предоставлено организаторами
- 25 Сентября 2024
- 173
Лекции AI Journey от Сбера: исследователь СВФУ Сергей Степанов рассказал, как создаются языковые модели для цифровизации якутского языка
Вчера, 24 сентября, в Якутске на базе Школы 21 прошла серия лекций AI Journey, где выступили ведущие эксперты в области искусственного интеллекта. Заведующий лабораторией «Вычислительные технологии и искусственный интеллект» Института математики и информатики Северо-Восточного федерального университета Сергей Степанов выступил с темой «Цифровизация якутского языка: опыт и перспективы обучения и применения языковых моделей».
Ученые федерального университета разрабатывают технологии для цифровизации якутского языка. «Компания Google в этом году запустила переводчик якутского языка, он вполне неплохой, ChatGPT говорит на якутском, но часто это набор слов. Нам важно создавать большие базы данных, чтобы в ближайшее время запустить модель, которая распознает якутский язык. Если будем ждать прорыва по национальным языкам от крупных компаний, то можем ничего не дождаться», – отметил Сергей Степанов.
Одной из ключевых задач в области искусственного интеллекта ученые лаборатории СВФУ считают создание качественных наборов данных для обучения и оценки различных моделей и алгоритмов. «В контексте языковых моделей и машинного перевода, формирование качественного набора данных на якутском языке играет важную роль в развитии инструментов и технологий, способных обрабатывать разнообразные языковые данные. Сейчас мы собираем базу данных, и разбираемся с токенизацией для якутского языка», – говорит лектор.
В сборе данных для распознавания речи были задействованы также студенты Института языков и культур народов Северо-Востока РФ СВФУ. «На портале Mozilla Common Voice , где собираются аудиофайлы, мы собрали 13 часов записей благодаря помощи студентов. Собственные данные были собраны на 2,5 часа, также был добавлен корпус текстов из социальных сетей», – рассказал заведующий. В планах лаборатории – добавление данных, подбор гипер-параметров, встраивание в конечные приложения, сравнение с другими семействами моделей.
По его словам, чистота речи была сохранена, не пропущены слова, заимствованные из русского языка. «Использованы только тексты на якутском языке из литературных источников. Например, новостные выпуски якутских каналов не подходят – для работы с базами данных должна быть не только аудиоверсия, но и текстовый вариант», – добавил Сергей Степанов. Он также представил слушателям инструменты, с которыми работают ученые в сфере цифровизации языков, модели ИИ, рассказал о Fill-mask моделировании и токенизации.
Лекции посетили студенты СВФУ, АГИКИ, АГАТУ, колледжей Якутии, выступление исследователя вызвало живое обсуждение: студенты интересовались, будет ли взят за основу литературный якутский язык или язык из бытового обихода, будут ли учтены местные диалекты, поможет ли созданная модель создавать субтитры для видеоконтента и другие вопросы. С лекциями выступили также специалисты Сбера, представители технологических компаний и университетов России.
Также вчера, 24 сентября, в ИТ-парке Якутска состоялось открытие лаборатории искусственного интеллекта. Меморандум о сотрудничестве между Сбером, Республикой Саха (Якутия) и Северо-Восточным федеральным университетом был подписан в ноябре 2023 года.
«Искусственный интеллект входит во все сферы жизни. Якутия всегда была одним из передовых регионов цифровых технологий. Это большой шаг для развития нашей молодежи. Наш федеральный университет будет включать в базу данных искусственного интеллекта разные данные, у нас много компетенций – это и вечная мерзлота, и большие территории», – сообщил на открытии лаборатории ректор СВФУ Анатолий Николаев.
Следите за новостями и проектами университета в наших социальных сетях:
- Официальный телеграм-канал
- Страница «ВКонтакте»
- Видео о СВФУ на Rutube
- Группа в «Одноклассниках»
- Лонгриды о жизни вуза читайте в Дзен